幾天前,全球 AI 社區被一條「悄無聲息」的消息震撼:中國新創 AI 公司 DeepSeek 低調上傳了其 R1 模型(0528 版本)的更新。沒有盛大的發佈會,沒有鋪天蓋地的預熱宣傳,然而,這份看似波瀾不驚的更新,卻在海外 AI 圈激起千層浪。從 Reddit 到 X 平台,海外開發者和研究人員爭相進行基準測試,熱議其新能力,尤其是與 OpenAI 的 O3 模型和 Google 的 Gemini 2.5 Pro 等科技巨頭旗艦模型的「近乎平手」表現。這不僅讓許多外國網民驚呼「鵝妹子嚶」(Amazing),更引發了一個深層次的問題:來自中國的開源 AI 模型,是否正以其驚人的速度和成本效益,挑戰甚至超越世界上最強大的專有模型?
DeepSeek 再次「登頂」:性能飛躍引發業界震動
DeepSeek R1-0528 的核心吸引力,在於其令人矚目的性能提升。海外媒體最為關注的焦點之一是,DeepSeek 成功將模型的幻覺率削減了約 45%-50%,這是一個里程碑式的突破,因為「幻覺」一直是大型語言模型可靠性的一大挑戰。同時,R1 的整體性能被推升至與 OpenAI O3 和 Google Gemini 2.5 Pro 相近的水平,這對於一個低調發佈的開源模型而言,無疑是巨大的成就。
在 Reddit 的 AI/LLM 相關子社區,如 r/LocalLLaMA 和 r/SillyTavernAI,關於 DeepSeek 更新的熱帖不斷湧現。「全新升級的 DeepSeek R1 在 LiveCodeBench 上的表現幾乎與 OpenAI 的 O3 模型不相上下!開源的巨大勝利!」有用戶這樣興奮地聲稱。
開發者們在實際測試中,尤其對 R1 在數學問題和編程方面的表現讚不絕口。在處理複雜的積分或遞歸函數時,R1-0528 展現出「更長遠的思考能力」,有測試者指出它「表現出主動性」並且「不會那麼快放棄」。一位 r/LocalLLaMA 的常駐用戶表示:「剛剛測試過…我有相當複雜的 1200 行代碼,並添加了新功能…似乎現在代碼質量處於 o3 級別…只能說 WOW」。
DeepSeek 官方的說法也印證了這些用戶的體驗:「更新後的 R1 模型在數學、編程與通用邏輯等多個基準測評中取得了當前國內所有模型中首屈一指的優異成績,並且在整體表現上已接近其他國際頂尖模型,如 O3 與 Gemini-2.5-Pro。」
除了基礎能力,新版本還顯著提升了模型的思維深度與推理能力,並支持工具調用。儘管 DeepSeek 坦言其工具調用能力「當前模型與 OpenAI o1-high 相當,但與 o3-High 以及 Claude 4 Sonnet 仍有差距」,但這並不妨礙其整體性能的亮眼表現。此外,DeepSeek-R1-0528 在創意寫作方面也有所優化,能夠輸出篇幅更長、結構內容更完整的作品,並更加貼近人類偏好。在前段代碼生成和角色扮演等領域,R1 的能力也得到了更新和提升。
尤其值得一提的是 R1 超長的記憶跨度和語境持久性。在 AI 角色扮演社區,用戶驚訝地發現角色能夠記住過去細微的細節,並以自主行為做出回應。一位 r/SillyTavernAI 的用戶分享道:「有個角色跟我爭論一個觀點時,竟然提起過去發生的三個細節,我以前從未見過這種情況。」他還提到:「AI 通常不會主動出擊;我訓練過一些 AI,讓他們在對話中佔據主導地位,但這是我第一次看到 AI 從角色扮演場景中走出來。」
一名 Reddit 用戶甚至發帖稱,更新後的 DeepSeek R1-0528 在他的所有測試中都獲得了滿分。他強調這些測試是「在實際商業應用中經常使用的任務,從中挑選了一些比較複雜的邊緣案例」,而非「不切實際的測試」。他感慨道:「一個來自去年還默默無聞的實驗室,做出的免費開源模型,竟然比商業前沿的模型做得更好,這真是太不可思議了。」這種情感表達,像極了電影《料理鼠王》中安東對於美食的驚嘆。
在 X 平台,對 DeepSeek 編程能力的讚譽同樣不絕於耳。有用戶試過用 DeepSeek R1-0528 構建遊戲,稱其「編程能力簡直太強了」,「相比之前的版本,改進非常顯著」,並預言「如果這隻是 R1…DeepSeek R2 將會非常瘋狂。」
人工智能模型分析機構 Artificial Analysis 的報告也證實了 DeepSeek R1 的強大實力。該機構稱 DeepSeek 的 R1 在其獨立的「智能指數」上「超越 xAI、Meta 和 Anthropic」,並且「智能程度高於 xAI 的 Grok 3 mini(high)、NVIDIA 的 Llama Nemotron Ultra、Meta 的 Llama 4 Maverick、阿里巴巴的 Qwen 3 253,並與 Google 的 Gemini 2.5 Pro 相當。」特別是在編程方面,該機構認為 R1 在人工分析編碼指數中與 Gemini 2.5 Pro 相當,僅落後於 O4-mini(high)和 O3。Artificial Analysis 更直言:「DeepSeek 剛剛證明,他們能夠跟上 OpenAI 的 RL 計算能力擴展步伐。」
「開源的巨大勝利」:成本與開放的雙重魅力
儘管存在一些零星的批評聲音,例如有用戶指出 DeepSeek 的 API 上下文窗口仍有局限,且某些方面尚不及 Claude,但這些爭議並未影響 DeepSeek 在海外社區獲得的巨大好評。其最大的魅力,以及被開發者刷最多好評、大量好感的重要來源,仍是「開源」,或者更確切地說——「開放權重」。
AI 圈內普遍認為,沒有發佈訓練代碼和訓練數據的模型嚴格意義上是「開放權重」,而非完全「開源」。然而,對於許多開發者而言,DeepSeek 公開其模型權重,並提供遠低於商業模型的成本,甚至免費使用,這本身就是一場「開源的巨大勝利」。
在 Y Combinator 創辦的 Hacker News 社區,用戶們除了分享基準測試結果,驗證 R1 的性能提升外,大量討論仍圍繞著人工智能中「什麼才算開源」這個問題。儘管有人指出 DeepSeek 並未發佈訓練數據,導致外部無法重新訓練或完全驗證 R1,且其 6710 億參數對於普通用戶而言依然龐大,但這並不妨礙其被視為「真正的 OPEN AI」。
與 OpenAI 限制普通用戶對頂級模型的完整訪問權限或高昂定價相比,DeepSeek 提供了更便宜、更便捷的選擇,並提供可下載的模型權重。一位海外用戶發帖稱:「DeepSeek 是真正的 OPEN AI」。
當然,關於內容審核的討論也時有出現,有用戶不滿模型會「迴避」某些問題。然而,許多用戶反駁稱,既然模型權重是開放的,開發者可以自行進行微調以解決偏見問題。此外,目前世界上所有主流模型都有內容過濾機制,只是具體選擇和偏向不同,例如西方模型可能更關注政治正確問題。
Reddit 上一篇題為「開源人工智能正在迎頭趕上!」的熱帖,更是直接表達了對 DeepSeek 的讚賞:「DeepSeek 似乎是唯一一家真正在前沿模型領域競爭的公司。其他公司總是有所保留,比如 Qwen 不願開源他們最大的模型 (qwen-max)。我不怪他們,我知道,這就是生意。」該發帖者補充道:「閉源 AI 公司總是說開源模型無法趕上他們。如果沒有 DeepSeek,他們可能是對的。但感謝 DeepSeek 成了一個異數!」
在該帖子的評論區,有用戶尖銳地指出:「他們這樣做是因為價格實惠的智能將推動一場革命,而 DeepSeek 將被公眾銘記為人工智能的真正先驅,而不是世界上充斥著廣告的 Google、ClosedAI 或虛假的安全 Anthropics。」這種言論反映了部分海外用戶對現有 AI 巨頭商業模式的不滿,以及對 DeepSeek 所代表的開放、普惠 AI 願景的期待。
更有 Reddit 用戶提到:「這讓我想起了 ClosedAI 承諾發佈『O3-mini 級別模型』卻未能兌現,現在新款 R1 已經超越了 O3-mini (high) 不少,已經接近完整的 O3 (high)。」甚至有些評論無關能力測評,卻藉機諷刺 Anthropic 或 OpenAI,認為其「安全」為理由的閉源做法只是道德託詞。
即便是一些對 DeepSeek 更新表現淡定的網民,也承認:「雖然它不再讓我感到驚訝了。每次我都得等到所有營銷噱頭平息後才能進行全面測試。但無論如何,DeepSeek 仍然擁有開放權重的優勢,這無疑是一個優點。」
這幾個月,在 DeepSeek 的強勁對比下,以往 AI 巨頭保持技術和聲譽優勢的壓力顯然越來越大。一些網民甚至開始擔心其「競相壓價」的潛在影響,認為 DeepSeek 的做法「並非全是出於利他主義。通過發佈免費模型,你可以阻止競爭對手佔據市場主導地位」。但最高讚的回覆則選擇感謝所有模型製作者,認為無論是不是利他行為,用戶「我很感激能在短期內從他們的策略中獲益」。這種務實的心態,也反映了當下許多開發者和用戶對 AI 模型更新的真實態度。
值得注意的是,業界對 DeepSeek R2 的發佈仍然充滿期待。在這次 R1 更新時,不少網民都在追問 R2 的進展,甚至懷疑「DeepSeek-R1-0528」是否就是實際上的「R2」,只是沿用了 R1 的命名。這也從側面印證了 DeepSeek 在全球 AI 領域的影響力已不容小覷。