DeepSeek-R1技術揭秘：論文核心原理解析，揭示突破模型性能關鍵

今天我們將分享 DeepSeek R1，標題：DeepSeek-R1：透過強化學習激勵 LLM 中的推理能力：透過強化學習激勵 LLM 的推理能力。

本文介紹了DeepSeek第一代推理模型， DeepSeek-R1-零 和 DeepSeek-R1。 DeepSeek-R1-Zero 模型透過以下方式進行訓練： 無需監督微調（SFT）作為初始步驟的大規模強化學習（RL），展示了 RL 的潛力和卓越的推理能力 它帶來了。透過強化學習， DeepSeek-R1-Zero 自然而然地出現了許多強大而有趣的推理行為。為了進一步優化 R1-Zero 的一些問題（語言混淆、提高泛化能力），他們發布了 DeepSeek-R1，在強化學習之前結合了多階段訓練和冷啟動資料微調。 DeepSeek-R1 實現了相當的性能 使用 OpenAI-01-1217 完成推理任務。為了支持研究界，他們 開源 DeepSeek-R1-Zero、DeepSeek-R1，以及從 DeepSeek-R1 提煉出的六個密集模型（1.5B、7B、8B、14B、32B、70B），這些模型基於 Qwen 和 Llama.

此方法的特點概括如下：

強化學習直接應用於基礎模型， 無需依賴監督微調（SFT）作為初始步驟。
介紹了DeepSeek-R1的開發過程， 結合兩個強化學習階段和兩個監督微調階段，為模型的推理和非推理能力奠定基礎.
透過將大模型的推理模式遷移到小模型，可以提高小模型在推理任務上的表現 蒸餾技術。

概述

標題： DeepSeek-R1：透過強化學習激勵法學碩士中的推理能力
作者： DeepSeek-AI
Github： deepseek R1

動機

目前的大型語言模型（LLM）在推理任務上取得了重大進展，但仍面臨挑戰。
純粹的潛力 強化學習（RL）在提升法學碩士推理能力方面的作用尚未充分探索，尤其是在不依賴監督數據的情況下。
透過 RL 訓練的模型，例如 DeepSeek-R1-Zero，存在可讀性和語言混合問題（例如，混合講中文和英文），需要進一步改進以提高用戶友好性.

方法

DeepSeek-R1-零： 使用 DeepSeek-V3-Base 作為基本型號，且 GRPO（群體相對策略最佳化）作為強化學習 框架， 無需監督數據來提高模型的推理性能.

DeepSeek-R1：

冷啟動： 收集少量高品質的長 CoT（思想鏈）數據並進行微調 DeepSeek-V3-基本型號 作為強化學習的初始參與者。
面向推理的強化學習： 相同 採用DeepSeek-R1-Zero的強化學習訓練流程，但重點在於增強模型的推理能力 在編碼、數學、科學和邏輯推理等領域。引入語言一致性獎勵來緩解 CoT 中出現的語言混合問題。
拒絕抽樣和監督微調： 使用強化學習的收斂檢查點來 收集監督微調（SFT）數據 以便進行後續訓練。
全場景強化學習：實現第二級強化學習階段，旨在提高 在優化模型推理能力的同時，確保模型的有用性和無害性。
知識提煉： 使用 DeepSeek-R1 精選的 800k 個樣本直接對開源模型 Qwen 和 Llama 進行微調。

具體方法與步驟：

DeepSeek-R1-Zero：基礎模型的強化學習

強化學習演算法： 使用組相對策略最佳化 (GRPO) 演算法，該演算法 不需要 評論家 模型，透過組別分數估計基線，降低訓練成本.
獎勵建模： 使用 基於規則的獎勵制度，包括

準確度獎勵： 評估答案是否正確，例如最終結果的正確性 數學問題答案，編譯器對程式碼問題的回饋.
格式獎勵： 鼓勵模型 將思考過程置於 和標籤.

訓練模板： 包含以下內容的模板和標籤旨在 引導模型先輸出思考過程，再輸出最終答案.

自我進化過程： DeepSeek-R1-Zero 演示 在訓練過程中具備自我進化的特性，能夠自主學習更複雜的推理策略，例如反思和探索多種解決問題的路徑.

DeepSeek-R1：強化學習與冷啟動結合

冷啟動： 解 DeepSeek-R1-Zero 可讀性問題，DeepSeek-R1首先收集少量的 高品質 CoT 數據 並對 DeepSeek-V3-Base 模型進行微調，以 充當強化學習的初始參與者。冷啟動數據 包含摘要標籤和不友善的回复 被過濾掉了。
- 方法：1）選取優質Long COT資料。 2）新增和標籤。
- 優點：1）最佳化可讀性（解決R1-Zero的多語言問題或markdown格式的問題）。 2）精心挑選的人類偏好的數據可以持續提高R1-Zero上的性能。
- 問題：為什麼要解決可讀性問題？如果不解決它，難道就沒有可能做得更好嗎（例如，減少輸出的長度並更有效地推斷）？
面向推理的 RL： 基於冷啟動模型，強化學習過程類似 應用DeepSeek-R1-Zero，重點提升模型在編碼、數學、科學和邏輯推理等任務中的能力。為了解決混合語言的問題（多語言推理), 語言一致性獎勵 介紹。
- 問題：科學和邏輯推理任務和資料集是如何訓練的？
拒絕取樣和SFT： 在推理引導的強化學習收斂後，所得的檢查點用於 拒絕抽樣產生新的 SFT 數據，並與 DeepSeek-V3 的數據結合，以增強模型在寫作、角色扮演和一般任務方面的能力。
- 目的：
  - 此階段在 推理導向的強化學習（RL）過程收斂.
  - 主要目標是 收集監督微調 (SFT) 數據 以供後續訓練使用。
  - 與最初的冷啟動資料（僅側重於推理）不同，此階段旨在 擴充模型的功能 涵蓋寫作、角色扮演和其他通用任務，而不僅僅是推理。
- 資料收集-推理資料：
  - 方法： 使用從面向推理的 RL 階段獲得的檢查點透過拒絕取樣生成推理軌跡。
  - 資料集擴充： 與先前僅使用基於規則的獎勵資料的 RL 階段不同，這裡引入了非基於規則的獎勵資料。在某些情況下，使用生成獎勵模型（DeepSeek-V3）來確定回應。
  - 數據過濾： 為了確保品質和可讀性，輸出經過過濾以刪除：
    - 混合語言的思維鏈
    - 長段落
    - 程式碼區塊
  - 抽樣和選擇： 對於每個提示，都會產生多個回應。資料集僅保留“正確”的回應。
  - 資料集大小： 大約 60萬個推理相關訓練樣本 以這種方式收集。
- 資料收集-非推理資料：
  - 內容範圍：寫作、事實問答（QA）、自我意識和翻譯。
  - 本文提到使用 DeepSeek-V3 的處理並重複使用部分 DeepSeek-V3 SFT 資料集 來處理這些非推理任務。關於 20 萬個推理獨立樣本 被收集起來。 （註：非推論資料的收集細節在第2.3.4節進一步描述）
- 收集資料的用途：
  - 然後利用收集到的推理和非推理資料（共約 800,000 個樣本 - 600,000 個推理樣本 + 200,000 個非推理樣本）來 對 DeepSeek-V3-Base 模型進行兩個週期的微調。然後在第 2.3.4 節所描述的最終 RL 階段中使用這個經過微調的模型。
- 概括此步驟使用推理功能 透過 RL 學習產生多樣化、高品質的 SFT 資料集。此資料集增強了推理能力，也擴展了 用於最終調整和改進階段的訓練模型。
適用於所有場景的強化學習：為了進一步符合人類的偏好，實施了第二階段的強化學習，以提高模型的有用性和無害性。
- 推理資料：例如數學、程式碼、邏輯推理或使用規則庫方法監督。
- 一般數據：仍然使用獎勵模型來為複雜而微妙的場景提供偏好資訊。也估計了用成對資料訓練的模型。
- 有用性：只專注於最終的總結結果，減少對推理過程的干擾。
- 無害：監督整個響應過程以降低任何風險。

模型蒸餾（Distillation）：

為了獲得更有效率的小型推理模型，論文將DeepSeek-R1的推理能力提煉到Qwen、Llama系列的開源模型中。蒸餾過程 僅使用監督微調（SFT） 且不使用強化學習階段。

結論

DeepSeek-R1-零: 展現潛力 純強化學習可以激發 LLM 推理能力，並且能達到很好的效果 不依賴監督數據。

頓悟時刻： 強化學習的美妙之處（模型的頓悟時刻， 透過學習重新評估來分配更多的時間來思考問題 初步方法）
輸出長度不斷增加（思考時間不斷增加）
準確率持續提升（抽樣 16 個反應來計算準確率）

DeepSeek-R1：透過結合冷啟動資料和迭代強化學習微調進一步提升模型效能， 在多項任務上達到與 OpenAI-01-1217 相當的水平.

知識提煉：使用DeepSeek-R1作為教師模型，產生了800K個訓練樣本，並對幾個小型、密集的模型進行了微調。結果表明 蒸餾方法可以顯著提高推理能力 小模型。

限制

限制1：DeepSeek-R1的通用能力有待提升。 DeepSeek-R1在函數呼叫、多輪對話、複雜角色扮演、JSON輸出等任務上的表現仍不如DeepSeek-V3。
限制2：語言混合問題。 DeepSeek-R1在處理非中文和非英文的Query時，例如用英文進行推理和回答，可能會遇到語言混合的問題。
限制3：快速靈敏度。 DeepSeek-R1對提示詞比較敏感，少量提示會降低其效能。
限制4：僅限於應用於軟體工程任務。 由於評估時間較長，大規模強化學習尚未完全應用於軟體工程任務，DeepSeek-R1在軟體工程基準測試中相對於DeepSeek-V3的改進有限。

DeepSeek-R1技術揭秘：論文核心原理解析，揭秘模型效能突破關鍵

概述

動機

方法

結論

限制

突發新聞！ OpenAI 今天發布了 2 個新的推理模型：o3-mini 和 o3-mini-high。

在AI圈，DeepSeek R1已經在體能測試中穩步超越o1和Claude，我們進入了RL的黃金時代。

DeepSeek R1論文解讀&關鍵技術點

Google一次發布三個新模型：Gemini-2.0-Pro免費，成績優異排名第一，適合編碼和處理複雜的提示！

DeepSeek等大型語言模型管理神器：Cherry Studio、Chatbox、AnythingLLM，誰是你的效率加速器？

全球主流AI產品著重分析和全面的使用者體驗指南（包括DeepSeek和GPT）

發佈留言取消回覆

概述

動機

方法

結論

限制

類似文章

發佈留言 取消回覆

發佈留言取消回覆