DeepSeek R1 橫空出世撼動了整個矽穀,這波 AI 恐懼仍在蔓延擴散。阿爾特曼、OpenAI 首席研究官不得不發文承認 DeepSeek 的技術突破,預告未來會加快新模型的發布。與此同時,研究人員們也紛紛展開了對 DeepSeek 技術的深入分析。
DeepSeek 掀起的滔天巨浪,讓全世界為之震顫。短短幾天,從 R1 複現狂潮,到登頂美榜 App Store,再到科技股集體重挫,這股東方神秘力量威力盡顯。
R1 在 Hugging Face 中的 like,從今年 1 月起直線飆升。
就連阿爾特曼本人也不得不打破沉默,公開承認 DeepSeek 的實力,並劇透了未來會有更多模型的發布:
DeepSeek R1 是一款令人印象深刻的模型,特別是考慮到他們在這個價格範圍內能夠提供的能力。
我們顯然會推出更好的模型,而且有一個新的競爭對手確實令人振奮!我們會加快一些版本的發布,但主要還是專注於推進 OpenAI 研究路線圖。我們堅信,現在比以往任何時候都更需要更多的算力來實現我們的使命。
未來,世界將會需要大量的 AI,並對下一代模型感到驚歎。期待為大家帶來 AGI 和更超前的技術。
與此同時,OpenAI 首席研究官 Mark Chen 也承認道,DeepSeek 的確獨立發現了一些 o1 的核心 idea。
但對於外界的各種分析,他顯然是不認可的。
Mark Chen 表示,現代 AI 係統采用了「預訓練」和「推理」兩大範式,提供了更靈活的優化空間。
在降低成本的同時,提升模型性能,未來 OpenAI 可以在這兩個維度上持續發力。
而且,隨著蒸餾技術日趨成熟,他們還發現成本控製和性能提升已經不再互相依賴。
換言之,OpenAI 能以更低成本提供服務,也不代表就要犧牲模型的能力。
OpenAI 研究科學家、德撲之父 Noam Brown 同樣站出來表示,「算法突破和 Scaling 是互補的,而不是相互競爭的。前者使性能與計算量的曲線發生彎曲,而後者則是在曲線上進一步前進」。
作為「對衝」,OpenAI 今天特意冒泡,發布了一個專為美國政府打造的 ChatGPT Gov。
中國 AI 撼動矽穀帝國
這場始於一篇 22 頁學術論文的風暴,讓一個約 200 人的團隊,用一個模型摧毀華爾街,改變了整個矽穀對 AI 的看法。
恐怕連 DeepSeek 自己也沒有想到,這將成為改寫 AI 競爭格局的一記重拳。
DeepSeek R1 論文發布之初,並未引起所有人的警覺。隨著研究者逐漸消化論文內容,一個令人震驚的事實浮出水麵:
R1 竟以遠低於科技巨頭的成本,達到了可與頂級 AI 模型較量的水平。
更令人瞠目的是,這一突破並非依賴昂貴的算力堆砌,而是通過精妙的工程設計實現的。
當許多專家認為中國 AI 在競賽中望塵莫及之時,R1 的出現無異於平地驚雷。
紐約時報作者 Kevin Roose 就此發表了自己觀點 ——R1 似乎正在動搖美國科技產業的三個主要的假設。
平民算力,也能顛覆遊戲規則
首先,第一個假設是,要構建頂尖 AI 模型,需要在強大的芯片和數據中心上投入巨額資金。
不得不說,這一點早已成為世界公認的模型 Scaling Law 必備要素。
從微軟、Meta、穀歌,到 xAI 等矽穀巨頭們已經斥資數百億美金,專為開發和運行下一代 AI 打造專用的基礎設施。
在他們看來,這些投入遠遠不夠。
上周,美國官宣了「星際之門」項目,計劃 4 年內砸 5000 億美金,在全美建造 20 座超算。
要知道,DeepSeek 似乎隻花費了這個數額的一小部分就打造了 R1。
雖 R1 具體訓練金額未知,業界從 V3 550 萬美元推測,預計其成本要高於這一金額。
即便是 R1 訓練成本是 DeepSeek 聲稱的 10 倍,考慮到其他成本,如工程師薪資或基礎研究成本,這個數字仍然比美國人工智能公司開發其最強大模型的支出要低幾個數量級。
「大」即是好,也不存在了!
其次,DeepSeek 在成本上的突破,打破了近年來 AI 競賽中「越大越好」的觀點。
R1 恰恰用實踐證明了,經過精細的訓練,相對較小的模型也可以媲美,甚至超越更大的模型。
反過來,這意味著,AI 公司或許能以遠低於此前預期的投資,就能實現非常強大的功能。
在研究論文中,揭示了一些關於 R1 實際構建方式的細節,包括「模型蒸餾」方麵的一些前沿技術。
從這點可以看出,將大型 AI 模型壓縮成更小的模型,不僅運行成本更低,同時不會損失太多性能。
此外,論文還有一些細節表明,將「普通」的 AI 語言模型轉換為更複雜的推理模型,隻需要在其基礎上應用 RL 算法,即可實現。
中國 AI 落後迷思,正被打破
第三,DeepSeek 逆襲成功,也動搖了許多專家對中國在 AI 競賽中處於落後地位的觀點。
事實證明,美國的技術優勢,可能並不如想象中的牢固。
多年來,許多 AI 專家一直認為美國至少領先世界幾年,而且中國公司要快速複製美國的進展是極其困難的。
但 DeepSeek 的結果表明,中國擁有可以匹配或超越 OpenAI,以及其他美國人工智能公司模型的先進人工智能能力。
這場 AI 巨震帶來的不僅是技術突破,更是對全球 AI 格局的深刻洗牌。
該緊張的,是 OpenAI 們
當整個市場還在為 AI 訓練成本驟降而恐慌時,一些業內資深玩家卻看到了不一樣的未來。
矽穀眾多業內人士認為,市場對 DeepSeek 最新模型的大規模拋售反應過度。
他們認為,該模型通過顯著降低 AI 成本,將推動 AI 的更廣泛應用和價值實現,從而持續維持市場對英偉達芯片的需求。
近期,前英特爾首席執行官 Pat Gelsinger 用實際行動給出了答案,在周一買入了英偉達的股票。
他在 LinkedIn 上發文表示,「市場的反應是錯誤的,降低 AI 成本將帶來市場規模的擴張。DeepSeek 是一項卓越的工程成就,將引領 AI 邁向更廣泛的商業應用」。
英偉達也在周一表示,DeepSeek 的創新將促進其業務的發展。
DeepSeek 是一項傑出的 AI 技術進展,也是「測試時 Scaling」的完美範例。這種推理運算需要大量英偉達 GPU 和高性能網絡基礎設施的支持。
業內專家 TechInsights 的 G Dan Hutcheson 分析更是令人深思。
在他看來,DeepSeek 技術突破對英偉達的影響有限,真正應該擔心的是 OpenAI 這樣提供類似服務的公司。
而網友們在 Mark Chen 推文下麵分享的真實體驗,正是這一分析的驗證。
圖解 DeepSeek-R1
對於機器學習研發社區而言,DeepSeek-R1 是尤為重要的一個裏程碑:
它是一個開放權重模型,並提供了多個經過知識蒸餾的輕量級版本
它不僅分享了訓練方法,還深入探討了如何複製類似 OpenAI o1 這樣的推理模型的實現過程
在最近的一篇博客中,就職於 AI 初創 Chere 的機器學習研究工程師 Jay Alammar,便通過圖解 DeepSeek-R1 的方式,分析了如何打造具有推理能力的大語言模型。
模型訓練第一步的細節來自之前的 DeepSeek-V3 論文。
R1 使用該論文中的基礎模型,並仍然經過監督微調(SFT)和偏好微調步驟,但其執行方式有所不同。
1. 長鏈推理的監督微調數據
這一過程包含了 60 萬個長思維鏈推理示例。
然而,想要獲取如此規模,並且還是人工標注的這類數據,既困難又昂貴。這就是為什麽創建這些數據的過程成為第二個重要特點。
2. 一個臨時的高質量推理大語言模型(但在非推理任務上表現較差)
這些數據是由 R1 的前身 —— 一個專注於推理的相關模型創建的。
其靈感來自於另一款被稱為 R1-Zero 的模型。它的重要性不在於它是一個出色的通用大語言模型,而在於它僅需少量標注數據,通過大規模 RL 就能在解決推理問題方麵表現優異。
這個專業推理模型的輸出隨後被用於訓練一個更全麵的模型,使其能夠勝任其他非推理任務,達到用戶對大語言模型的預期水平。
3. 使用大規模強化學習創建推理模型
3.1 大規模麵向推理的強化學習(R1-Zero)
在這裏,RL 被用於創建臨時推理模型,該模型隨後用於生成監督微調的推理示例。
而使這一切成為可能的關鍵在於,此前創建的 DeepSeek-R1-Zero 模型的實驗。
R1-Zero 的獨特之處在於,它無需標注的監督微調訓練集就能在推理任務上表現優異,甚至可以與 o1 相媲美。
它的訓練直接從預訓練基礎模型通過 RL 過程進行(無需監督微調步驟)。
一直以來,數據始終是決定機器學習模型能力的關鍵要素。那麽這個模型是如何打破這一定律的?這涉及兩個關鍵因素:
(1)現代基礎模型已經達到了質量和能力的新高度(該基礎模型在 14.8 萬億高質量 token 上進行訓練)。
(2)與普通的聊天或寫作任務相比,推理問題可以通過自動化方式進行驗證和標注。
讓我們通過一個例子來說明。以下是 RL 訓練步驟中的一個典型提示詞:
編寫 Python 代碼,接受一個數字列表,返回排序後的列表,並在開頭添加數字 42。
當正在訓練中的模型收到這個問題並生成答案後,有很多種方式都可以實現自動驗證:
用代碼檢查工具驗證生成內容是否為合法的 Python 代碼
直接運行 Python 代碼檢驗其執行情況
用其他現代編程大語言模型生成單元測試來驗證代碼行為(它們本身無需具備推理能力)
進一步測量代碼執行時間,引導訓練過程優先選擇性能更優的解決方案,而不僅僅是能夠解決問題的正確程序
通過這種方式,我們可以在訓練過程中向模型提供類似問題,並獲得多種可能的解決方案。
通過自動檢查(無需人為幹預),我們可以發現:
第一個完成結果甚至不是代碼;
第二個確實是 Python 代碼,但並未解決問題;
第三個是一個可能的解決方案,但未能通過單元測試;
第四個才是正確的解決方案。
這些信號都可以直接用來改進模型。當然,這種改進是通過大量示例(在 mini-batch 中)和連續的訓練步驟來完成的。
與這種能力的提升相對應的是,生成響應的長度變化 —— 模型會生成更多的思考 token 來處理問題。
這個過程確實很有用,但 R1-Zero 卻麵臨著其他影響其實用性的問題。
雖然 DeepSeek-R1-Zero 展現出強大的推理能力,並能自主形成令人驚喜的高效推理模式,但它仍然麵臨著一些挑戰。比如,DeepSeek-R1-Zero 在可讀性和語言混合等方麵存在明顯的不足。
R1 的目標是成為一個更實用的模型。因此,它並非完全依賴 RL 過程,而是在我們前文提到的兩個方麵加以運用:
(1)創建中間推理模型以生成 SFT 數據點
(2)訓練 R1 模型以提升推理和非推理問題的處理能力(使用其他類型的驗證器)
3.2 使用中間推理模型創建 SFT 推理數據
為了提升中間推理模型的實用性,需要對其進行監督式微調(SFT)訓練,訓練數據包含數千個推理問題示例(部分來自 R1-Zero 的生成和篩選)。論文將這些稱為「冷啟動數據」。
與 DeepSeek-R1-Zero 不同,DeepSeek-R1 為了避免基礎模型在 RL 訓練初期出現不穩定的冷啟動現象,我們構建並收集了少量思維鏈(CoT)數據來微調模型,將其作為初始 RL 代理。在數據收集過程中,我們探索了多種方法:采用長思維鏈作為示例進行少樣本提示學習,直接通過提示詞引導模型生成包含反思和驗證的詳細答案,以可讀格式采集 DeepSeek-R1-Zero 的輸出,並通過人工標注進行後期優化。
然而,既然我們已經擁有這些數據,為什麽還需要依賴 RL 過程呢?
這主要是數據規模的限製。現有數據集可能隻有 5,000 個示例,但訓練 R1 則需要 600,000 個示例。
而中間模型正是彌合了這一數量鴻溝,使得生成如此大規模的高質量數據成為可能。
3.3 通用 RL 訓練階段
這使得 R1 不僅在推理任務上表現卓越,在非推理任務上同樣可以取得優異成績。
這一過程與前麵提到的 RL 過程相似。但由於它延伸到非推理應用領域,因此針對這類應用的提示詞,采用了有效性和安全性獎勵模型(與 Llama 類似)。
4. 架構
與 GPT-2 和 GPT-3 奠基時期的模型一樣,DeepSeek-R1 是由 Transformer decoder 塊堆疊構成的。
它總共包含 61 個 decoder 塊,其中前三個是全連接層(dense layer),其餘則是專家混合(Mixture-of-Experts,簡稱 MoE)層。
關於模型維度大小和其他超參數的配置如下:
參考資料:
https://www.ft.com/content/ee83c24c-9099-42a4-85c9-165e7af35105
https://www.nytimes.com/2025/01/28/technology/china-deepseek-ai-silicon-valley.html?unlocked_article_code=1.sk4.hgB2.qjaBLLlA_jiL
https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1