32B推理模型僅使用1/8的數據,與相同大小的DeepSeek-R1並列!
剛剛,史丹佛大學、加州大學柏克萊分校、華盛頓大學等機構共同發布了 SOTA 級推理模型, OpenThinker-32B,並且還開源了高達114k的訓練資料。

團隊發現:使用具有 DeepSeek-R1 驗證註釋(基於 R1 提煉)的大規模高品質資料集,可以訓練 SOTA 推理模型。
具體方法是擴展資料、驗證推理過程、擴展模型。
由此產生的 OpenThinker-32B 在數學、編碼和科學的多個基準測試中超越了李飛飛的 s1 和 s1.1 模型,並且接近 R1-Distill-32B。
值得一提的是,相較於使用800k資料(其中600k推理樣本)的R1-Distill-32B,OpenThinker-32B僅使用了114k資料就取得了幾乎同樣優異的效果。

此外,OpenThinker-32也公開了所有模型權重、資料集、資料產生程式碼和訓練程式碼!

資料管理
研究人員使用與先前訓練 OpenThinker-7B 相同的 OpenThoughts-114k 資料集來訓練 OpenThinker-32B。
他們使用 DeepSeek-R1 模型收集了精心挑選的 173,000 個問題的推理過程和回答嘗試。然後,這些原始資料被發佈為 OpenThoughts-Unverified-173k 資料集。
流程的最後一步是,如果推理過程未能通過驗證,則過濾掉相應的資料樣本。
下圖直觀的展示了整個過程。
研究團隊首先輸入來源資料或問題提示,這些資料可以來自不同的領域和平台,例如 BAAI/TACO、DeepMind、Python 提交等,涵蓋程式碼、謎題、科學和數學等各個方面。
然後,這些不同的輸入被傳遞到核心處理模組 DeepSeek-R1,在那裡對資料進行分析和處理。問題分為三類:科學問題、數學和謎題、以及程式碼。
有些結果不需要驗證,可以是簡單的分析或直接輸出。對於一些需要深入驗證的內容,會使用大型語言模型(LLM)以類似GT(Ground Truth)的方式進行判斷。如果是程式碼,則執行程式碼並進行單元測試,確保其正確性和有效性。
最後,將不同方向的成果結合起來,產生開放的思維和更全面的解決方案。

研究團隊使用名為「元資料」的配置更新了最終的 OpenThoughts-114k 資料集,其中包含用於建立資料集的一些附加列:
- 問題
- 真實情況解決方案
- test_cases(僅限程式碼)
- starter_code(僅限程式碼)
- DeepSeek_推理
- DeepSeek_解決方案
- 領域
- 來源
這些額外的元資料將使該資料集更容易在新的場景中使用,例如資料過濾、網域切換、驗證檢查以及更改推理過程範本。
這些額外的元資料將使這個資料集的使用更加容易,只需一行程式碼就可以完成,例如過濾、更改網域、檢查驗證以及更改推理追蹤範本。
載入資料集(“open-thoughts/OpenThoughts-114k”,“元資料”,分割=“訓練”)
研究團隊表示,他們期待看到社群利用這些問題和標準答案來研究 OpenThinker 模型上的強化學習(RL)。 DeepScaleR 已證明這種方法在較小規模上尤其有效。
確認
為了得到最終的 OpenThoughts-114k 資料集,研究團隊驗證了答案並消除了錯誤的答案。
如下表所示,保留未通過驗證的推理可能會損害效能,儘管與其他 32B 推理模型相比,未經驗證的模型仍然表現良好。
驗證的功能是保持R1註釋的質量,同時擴大訓練提示集的多樣性和規模。另一方面,未經驗證的數據可以更容易擴展,因此也值得進一步探索。

對於程式碼問題,我們透過針對現有測試案例驗證答案嘗試來完成推理過程的驗證。
受到程式碼執行過程中面臨的挑戰的啟發,我們在 Curator 中實作了一個程式碼執行框架,使用戶能夠大規模、安全地執行程式碼,並根據預期輸出進行驗證。
對於數學問題,研究團隊使用LLM(大型語言模型)評判器進行驗證,該評判器同時接收標準答案和DeepSeek-R1的解答嘗試。
研究發現,使用 LLM 評估器進行資料生成,而不是使用更嚴格的解析引擎 (Math-Verify),可以獲得更高的有效資料率,並允許以更好的效能訓練下游模型。

訓練
研究團隊使用LLaMa-Factory在上下文長度為16k的OpenThoughts-114k資料集上對Qwen2.5-32B-Instruct進行了三次微調。完整的訓練配置可以在 GitHub 上找到。
OpenThinker-32B 使用 AWS SageMaker 叢集上的四個 8xH100 P5 節點進行了 90 小時的訓練,總計 2,880 H100 小時。
同時,OpenThinker-32B-Unverified 在 Leonardo 超級電腦上使用 96 個 4xA100 節點(每個 GPU 64GB)進行了 30 小時的訓練,累積訓練時間 11,520 個 A100 小時。
評估
研究團隊使用開源評估庫 Evalchemy 對所有模型進行評估。
對於 AIME24 和 AIME25,他們透過對五次運行的結果取平均值來計算準確度。評估配置使用了溫度參數 0.7,將模型響應限制為 32,768 個標記,沒有添加任何額外的系統或使用者提示詞,也沒有使用任何特殊的解碼策略(例如預算強制)。
OpenThoughts專案在啟動時,就設定了一個目標,要創建一個效能可以匹敵DeepSeek-R1-Distill-Qwen-32B的開放資料模型。
現在這一差距幾乎消失。
最後,研究團隊對社群在過去幾週在建立開放資料推理模型方面取得的快速進展感到興奮,並期待在彼此的見解基礎上繼續前進。
OpenThinker-32B 的開源發布表明,資料、驗證和模型大小之間的協同作用是提高推理能力的關鍵。
這項成果不僅推動了開源推理模型的發展,也為整個人工智慧社群提供了寶貴的資源和靈感。