抽象的
本文介紹了DeepSeek的第一代推理模型:DeepSeek-R1-Zero和DeepSeek-R1。 DeepSeek-R1-Zero 透過大規模強化學習(RL)訓練,無需監督微調(SFT),展現出卓越的推理能力。透過 RL,它自然而然地發展出強大的推理行為。但它面臨可讀性差、語言混合等挑戰。為了解決這些問題並提高推理效能,我們開發了 DeepSeek-R1,在 RL 之前結合了多階段訓練和冷啟動資料。 DeepSeek-R1 在推理任務上實現了與 OpenAI-o1-1217 相當的效能。為了支持研究,DeepSeek 開源了兩個模型以及基於 Qwen 和 Llama 從 DeepSeek-R1 提煉出的六個密集模型(1.5B、7B、8B、14B、32B、70B)。
主要貢獻
訓練後:大規模強化學習
- 成功將 RL 直接應用於基礎模型(無需 SFT)
- 開發DeepSeek-R1-Zero,展示自我驗證與反射等功能
- 首個開放式研究證實推理能力可以純粹透過 RL 來激勵
- 引入了具有兩個 RL 級和兩個 SFT 級的 DeepSeek-R1 流水線
提煉:賦能小型模型
- 證明較大模型中的推理模式可以有效地提煉為較小的模型
- 開源 DeepSeek-R1 及其 API,造福研究界
- 對幾個密集模型進行了微調,顯示出出色的基準性能
- 提煉後的模型明顯優於先前的開源模型
評估結果
推理任務
- DeepSeek-R1 在 AIME 2024 上取得 79.8% Pass@1 成績,超越 OpenAI-o1-1217
- MATH-500 上的成績為 97.3%,與 OpenAI-o1-1217 相當
- 在 Codeforces 代碼競賽任務中達到專家級表現,Elo 評分為 2,029
知識任務
- 在 MMLU(90.8%)、MMLU-Pro(84.0%)和 GPQA Diamond(71.5%)上取得優異成績
- 在教育任務上超越其他閉源模型
- 在 SimpleQA 等事實基準測試中表現出色
常規功能
- 擅長創意寫作、問答、編輯和總結
- AlpacaEval 2.0 的勝率為 87.6%,ArenaHard 的勝率為 92.3%
- 在長上下文理解任務中表現出色
未來工作
該團隊計劃重點關注:
- 增強函數呼叫和複雜角色扮演等領域的一般能力
- 解決語言混合問題
- 改進提示工程
- 提高軟體工程任務的績效
結論
DeepSeek-R1代表了透過強化學習所實現的人工智慧推理能力的重大進步。主模型及其提煉版本的成功證明了這種方法在開發更強大的人工智慧系統方面的潛力。這些模型的開源發布將有助於該領域的進一步研究和開發。