突發新聞! DeepSeek研究人員線上揭露:R1訓練僅需兩到三週,春節期間R1 zero表現出強勁進化
剛才,我們注意到DeepSeek研究員 郭大亞 回答了網友關於DeepSeek R1以及公司未來計畫的問題。我們只能說DeepSeek R1只是一個開始,內部研究還在快速推進。 DeepSeek的研究人員連春節也沒有休息,一直孜孜不倦地推進研究。 DeepSeek 即將推出一些重大舉措
事情是這樣的:2月1日,郭大亞發推文透露了春節期間最讓他興奮的事情:親眼目睹 “持續增長” 的性能曲線 R1-零 模型,並感受到 強大的力量 強化學習(RL)!
Deepseek AI 研究員郭大亞與網友對話
我現在幫大家復現郭大亞和網友的對話:
網友A@PseudoProphet: 「大佬,我想問一下這種持續提升的性能能維持多久。這還處於早期階段嗎?是感覺 DeepSeek 的 RL 模型才剛起步,就像語言模型中的 GPT-2 一樣?還是已經達到了像 GPT-3.5 那樣更成熟的階段,即將遇到瓶頸?
這是一個非常尖銳的問題,直接關係到DeepSeek的RL技術的潛力!郭大亞的回應也很誠實:
Daya Guo:「我覺得我們還處於非常早期的階段,在RL領域還有很長的路要走。但我相信今年我們將看到重大進展。
突出重點! “很早”, “還有很長的路要走”, “今年取得了重大進展”!這些關鍵字蘊含著豐富的資訊。這意味著DeepSeek認為他們在RL領域還有很大的進步空間,而R1目前的成果可能只是冰山一角,因此未來是值得期待的!
緊接著,另一位網友@kaush_trip(Cheeku Tripathi)提出了一個更專業、直擊模型能力核心的問題:
用戶 B@kaush_trip: 「基於 R1-Zero 的表現,你如何評估模型是否真的具有 泛化能力,或者只是 記住狀態轉換和獎勵“‘啊?’
這個問題問得很中肯!畢竟,許多模型看起來很強大,但實際上它們只是從訓練資料中「死記硬背」而已,在不同的環境中它們就會失敗。 DeepSeek R1 真的達到標準嗎?
Daya Guo:「我們使用 RL 提示未涵蓋的領域的基準來評估泛化能力。目前看來,它已經具備了泛化能力。
「RL 提示未涵蓋的區域」這句話是關鍵!這意味著 DeepSeek 並沒有用訓練資料「欺騙」評估,而是用模型 從未見過 才能真實體現模型的泛化程度。郭大亞使用「似乎」這個嚴謹的措辭也使其更加真實可信
接下來,一位 ID 為 @teortaxesTex 的網友,DeepSeek 的忠實粉絲(他的評論甚至包括“DeepSeek 鯨魚啦啦隊”的字樣),從 DeepSeek V3 技術報告開始,提出了一個關於 模型訓練時間:
用戶 C@teortaxesTex: 「如果這不是什麼秘密的話:這次的RL訓練花了多久時間?感覺早在 12 月 10 日就已經有了 R1 或至少是 R1-Zero,因為 V3 技術報告中提到 V2.5 模型使用了 R1 知識蒸餾,並且 V2.5-1210 的得分與當前模型。這次是那次訓練的延續嗎?
這位網友的觀察力真是驚人!他能夠從技術報告中提取出許多細節。 Daya Guo也耐心地講解了模型的迭代過程:
郭大亞:「660B的R1-Zero和R1參數是在V3發布後才開始運作的,訓練大概需要2-3週的時間。我們之前提到的R1型號(例如在V3技術報告中)實際上是R1-Lite或R1-Lite-Zero。
就是這樣!現在我們看到的R1-Zero、R1都是“全新升級版”,之前的R1-Lite系列都是小改款。看來DeepSeek已經在幕後悄悄迭代升級了多個版本
對於訓練速度,網友@jiayi_pirate(Jiayi Pan)和網友B@kaush_trip轉發了一段「靈魂拷問」:
用戶 D@jiayi_pirate: “3 週內完成 10,000 個 RL 步驟,每個梯度傳播 (grpo) 步驟大約需要 3 分鐘🤔”
用戶 B@kaush_trip: 「如果每個梯度傳播(grpo)步驟大約需要 3 分鐘,那麼每小時大約需要 5 步,每天需要 120 步,這確實非常慢。”
這還真是精妙的計算啊!根據該網友的計算,DeepSeek R1的訓練速度確實不快。這也說明這種高性能RL模型的訓練成本和時間投入是巨大的。 「慢工出細活」似乎是描述人工智慧模型訓練的一個相當恰當的方式
最後有一位名為@davikrehalt(Andy Jiang)的網友從比較前沿的應用角度提了一個問題:
使用者 E@davikrehalt: 「你試過用強化學習來做 環境的正式證明,而不是僅僅回答問題?如果今年開源模型能拿下IMO(國際數學奧運)金牌就好了! (還有更多的希望!)”
正式證明! IMO金牌!這位網友挺有志氣的!但將AI運用到數學證明這個硬派領域確實是未來的趨勢。郭大亞的回覆再次讓人吃驚:
Daya Guo:「我們也嘗試將 R1 應用於 Lean 等形式化證明環境。我們希望很快向社區發布更好的模型。
從郭大亞的論述中看來,他們在這方面已經取得了進展,未來或許還會有更讓人眼前一亮的機型發表!
結束語
從郭大亞的回應中,我們可以提煉出三個關鍵訊號:
技術定位:RL還處於早期階段,效能提升還遠未達極限;
驗證邏輯:跨域測試的泛化能力,拒絕“記憶猜測”
應用邊界:從語言模型到數學證明,強化學習正在走向高階推理