今天我們將分享 DeepSeek R1,標題:DeepSeek-R1:透過強化學習激勵 LLM 中的推理能力:透過強化學習激勵 LLM 的推理能力。

本文介紹了DeepSeek第一代推理模型, DeepSeek-R1-零DeepSeek-R1。 DeepSeek-R1-Zero 模型透過以下方式進行訓練: 無需監督微調(SFT)作為初始步驟的大規模強化學習(RL),展示了 RL 的潛力和卓越的推理能力 它帶來了。透過強化學習, DeepSeek-R1-Zero 自然而然地出現了許多強大而有趣的推理行為。為了進一步優化 R1-Zero 的一些問題(語言混淆、提高泛化能力),他們發布了 DeepSeek-R1,在強化學習之前結合了多階段訓練和冷啟動資料微調。 DeepSeek-R1 實現了相當的性能 使用 OpenAI-01-1217 完成推理任務。為了支持研究界,他們 開源 DeepSeek-R1-Zero、DeepSeek-R1,以及從 DeepSeek-R1 提煉出的六個密集模型(1.5B、7B、8B、14B、32B、70B),這些模型基於 Qwen 和 Llama.

此方法的特點概括如下:

  1. 強化學習直接應用於基礎模型, 無需依賴監督微調(SFT)作為初始步驟。
  2. 介紹了DeepSeek-R1的開發過程, 結合兩個強化學習階段和兩個監督微調階段,為模型的推理和非推理能力奠定基礎.
  3. 透過將大模型的推理模式遷移到小模型,可以提高小模型在推理任務上的表現 蒸餾技術。

概述

動機

  • 目前的大型語言模型(LLM)在推理任務上取得了重大進展,但仍面臨挑戰。
  • 純粹的潛力 強化學習(RL)在提升法學碩士推理能力方面的作用尚未充分探索,尤其是在不依賴監督數據的情況下。
  • 透過 RL 訓練的模型,例如 DeepSeek-R1-Zero,存在可讀性和語言混合問題(例如,混合講中文和英文),需要進一步改進以提高用戶友好性.

方法

DeepSeek-R1-零: 使用 DeepSeek-V3-Base 作為基本型號,且 GRPO(群體相對策略最佳化)作為強化學習 框架, 無需監督數據來提高模型的推理性能.

DeepSeek-R1:

  • 冷啟動: 收集少量高品質的長 CoT(思想鏈)數據並進行微調 DeepSeek-V3-基本型號 作為強化學習的初始參與者。
  • 面向推理的強化學習: 相同 採用DeepSeek-R1-Zero的強化學習訓練流程,但重點在於增強模型的推理能力 在編碼、數學、科學和邏輯推理等領域。引入語言一致性獎勵來緩解 CoT 中出現的語言混合問題。
  • 拒絕抽樣和監督微調: 使用強化學習的收斂檢查點來 收集監督微調(SFT)數據 以便進行後續訓練。
  • 全場景強化學習:實現第二級強化學習階段,旨在提高 在優化模型推理能力的同時,確保模型的有用性和無害性。
  • 知識提煉: 使用 DeepSeek-R1 精選的 800k 個樣本直接對開源模型 Qwen 和 Llama 進行微調。

具體方法與步驟:

DeepSeek-R1-Zero:基礎模型的強化學習

  • 強化學習演算法: 使用組相對策略最佳化 (GRPO) 演算法,該演算法 不需要 評論家 模型,透過組別分數估計基線,降低訓練成本.
  • 獎勵建模: 使用 基於規則的獎勵制度, 包括
  • 準確度獎勵: 評估答案是否正確,例如最終結果的正確性 數學問題答案,編譯器對程式碼問題的回饋.
  • 格式獎勵: 鼓勵模型 將思考過程置於 標籤.

訓練模板: 包含以下內容的模板 標籤旨在 引導模型先輸出思考過程,再輸出最終答案.

  • 自我進化過程: DeepSeek-R1-Zero 演示 在訓練過程中具備自我進化的特性,能夠自主學習更複雜的推理策略,例如反思和探索多種解決問題的路徑.

DeepSeek-R1:強化學習與冷啟動結合

  • 冷啟動: 解 DeepSeek-R1-Zero 可讀性問題,DeepSeek-R1首先收集少量的 高品質 CoT 數據 並對 DeepSeek-V3-Base 模型進行微調,以 充當強化學習的初始參與者。冷啟動數據 包含摘要標籤和不友善的回复 被過濾掉了。
    • 方法:1)選取優質Long COT資料。 2)新增和標籤。
    • 優點:1)最佳化可讀性(解決R1-Zero的多語言問題或markdown格式的問題)。 2)精心挑選的人類偏好的數據可以持續提高R1-Zero上的性能。
    • 問題:為什麼要解決可讀性問題?如果不解決它,難道就沒有可能做得更好嗎(例如,減少輸出的長度並更有效地推斷)?
  • 面向推理的 RL: 基於冷啟動模型,強化學習過程類似 應用DeepSeek-R1-Zero,重點提升模型在編碼、數學、科學和邏輯推理等任務中的能力。為了解決混合語言的問題(多語言推理), 語言一致性獎勵 介紹。
    • 問題:科學和邏輯推理任務和資料集是如何訓練的?
  • 拒絕取樣和SFT: 在推理引導的強化學習收斂後,所得的檢查點用於 拒絕抽樣產生新的 SFT 數據,並與 DeepSeek-V3 的數據結合,以增強模型在寫作、角色扮演和一般任務方面的能力。
    • 目的:
      • 此階段在 推理導向的強化學習(RL)過程收斂.
      • 主要目標是 收集監督微調 (SFT) 數據 以供後續訓練使用。
      • 與最初的冷啟動資料(僅側重於推理)不同,此階段旨在 擴充模型的功能 涵蓋寫作、角色扮演和其他通用任務,而不僅僅是推理。
    • 資料收集-推理資料:
      • 方法: 使用從面向推理的 RL 階段獲得的檢查點透過拒絕取樣生成推理軌跡。
      • 資料集擴充: 與先前僅使用基於規則的獎勵資料的 RL 階段不同,這裡引入了非基於規則的獎勵資料。在某些情況下,使用生成獎勵模型(DeepSeek-V3)來確定回應。
      • 數據過濾: 為了確保品質和可讀性,輸出經過過濾以刪除:
        • 混合語言的思維鏈
        • 長段落
        • 程式碼區塊
      • 抽樣和選擇: 對於每個提示,都會產生多個回應。資料集僅保留“正確”的回應。
      • 資料集大小: 大約 60萬個推理相關訓練樣本 以這種方式收集。
    • 資料收集-非推理資料:
      • 內容範圍:寫作、事實問答(QA)、自我意識和翻譯。
      • 本文提到使用 DeepSeek-V3 的處理並重複使用部分 DeepSeek-V3 SFT 資料集 來處理這些非推理任務。關於 20 萬個推理獨立樣本 被收集起來。 (註:非推論資料的收集細節在第2.3.4節進一步描述)
    • 收集資料的用途:
      • 然後利用收集到的推理和非推理資料(共約 800,000 個樣本 - 600,000 個推理樣本 + 200,000 個非推理樣本)來 對 DeepSeek-V3-Base 模型進行兩個週期的微調。然後在第 2.3.4 節所描述的最終 RL 階段中使用這個經過微調的模型。
    • 概括 此步驟使用推理功能 透過 RL 學習產生多樣化、高品質的 SFT 資料集。此資料集增強了推理能力,也擴展了 用於最終調整和改進階段的訓練模型。
  • 適用於所有場景的強化學習:為了進一步符合人類的偏好,實施了第二階段的強化學習,以提高模型的有用性和無害性。
    • 推理資料:例如數學、程式碼、邏輯推理或使用規則庫方法監督。
    • 一般數據:仍然使用獎勵模型來為複雜而微妙的場景提供偏好資訊。也估計了用成對資料訓練的模型。
    • 有用性:只專注於最終的總結結果,減少對推理過程的干擾。
    • 無害:監督整個響應過程以降低任何風險。

模型蒸餾(Distillation):

  • 為了獲得更有效率的小型推理模型,論文將DeepSeek-R1的推理能力提煉到Qwen、Llama系列的開源模型中。蒸餾過程 僅使用監督微調(SFT) 且不使用強化學習階段。

結論

DeepSeek-R1-零: 展現潛力 純強化學習可以激發 LLM 推理能力,並且能達到很好的效果 不依賴監督數據。

  • 頓悟時刻: 強化學習的美妙之處(模型的頓悟時刻, 透過學習重新評估來分配更多的時間來思考問題 初步方法)
  • 輸出長度不斷增加(思考時間不斷增加)
  • 準確率持續提升(抽樣 16 個反應來計算準確率)
  • DeepSeek-R1:透過結合冷啟動資料和迭代強化學習微調進一步提升模型效能, 在多項任務上達到與 OpenAI-01-1217 相當的水平.
  • 知識提煉:使用DeepSeek-R1作為教師模型,產生了800K個訓練樣本,並對幾個小型、密集的模型進行了微調。結果表明 蒸餾方法可以顯著提高推理能力 小模型。

限制

  • 限制1:DeepSeek-R1的通用能力有待提升。 DeepSeek-R1在函數呼叫、多輪對話、複雜角色扮演、JSON輸出等任務上的表現仍不如DeepSeek-V3。
  • 限制2:語言混合問題。 DeepSeek-R1在處理非中文和非英文的Query時,例如用英文進行推理和回答,可能會遇到語言混合的問題。
  • 限制3:快速靈敏度。 DeepSeek-R1對提示詞比較敏感,少量提示會降低其效能。
  • 限制4:僅限於應用於軟體工程任務。 由於評估時間較長,大規模強化學習尚未完全應用於軟體工程任務,DeepSeek-R1在軟體工程基準測試中相對於DeepSeek-V3的改進有限。

類似文章

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *