今天,我想分享一篇來自 DeepSeek 的文章,標題為 DeepSeekMath:在開放語言模型中突破數學推理的極限。
本文介紹了預先訓練的 DeepSeekMath 7B 基於 DeepSeek-Coder-Base-v1.5 7B 1200 億個數學相關標記、自然語言和程式碼資料的集合。
該模型在不依賴外部工具包和投票技術的情況下,在競技級 MATH 基準測試中取得了 51.7% 的驚人成績,接近 Gemini-Ultra 和 GPT-4 的性能水平。
DeepSeekMath 7B 的數學推理能力主要歸功於兩個關鍵因素:首先,透過 精心設計的數據選擇管道,從公開的網路資料中迭代挖掘出高品質的數學相關資料。
其次,群體相對策略優化(GRPO) 介紹了一種近端策略優化(PPO)的變體,它可以增強數學推理能力,同時優化PPO的記憶體使用情況。
- 此方法特點概括如下:高品質的數學預訓練語料庫 建造了,並使用精心設計的管道從 Common Crawl 中挖掘高品質的數學數據。
- GRPO 演算法 提出了一種新的神經網路模型,減少了訓練所需的資源,並提高了模型的數學推理能力。 3) 一流的性能 曾是 在多項數學推理基準測驗中取得.
概述
標題: DeepSeekMath:在開放語言模型中突破數學推理的極限
網址: 點這裡
作者: 邵志宏,王培毅,朱啟浩,徐潤欣,宋俊曉,畢曉,張浩偉,張明川,李永科,吳燕,郭大亞
代碼: 點這裡
動機
由於數學的複雜性和結構性,數學推理對語言模型提出了重大挑戰。最先進的模型,例如 GPT-4 和 Gemini-Ultra,功能強大,但尚未公開。因此,在性能方面還有很大的進步空間 開源模型。
複雜性和結構: 由於數學的複雜性和結構性,數學推理對語言模型提出了重大挑戰。
公共資料的潛力: 公開的網路數據可能包含尚未挖掘和利用的豐富數學資訊。
方法
數據收集: 透過迭代管道從 Common Crawl 收集高品質的數學相關網路數據,建立了一個包含 120B 個標記的 DeepSeekMath 語料庫。
模型訓練: 該語料庫在DeepSeek-Coder-Base-v1.5 7B上進行預訓練,並應用數學指令微調和組相對策略最佳化(GRPO)演算法。
GRPO 演算法: GRPO 是一種改進的強化學習演算法,它去除了 PPO 中的 Critic 模型,從群體得分中估計基線,從而顯著減少訓練資源。
具體方法與步驟:
資料收集和處理:

建構DeepSeekMath語料庫: 使用基於 fastText 的分類器, 提取 1200 億個數學相關 token 來自 Common Crawl 建立大規模、高品質的預訓練語料庫 DeepSeekMath Corpus。
迭代資料過濾: 採用迭代策略, 使用 OpenWebMath 作為種子資料來訓練初始分類器,然後使用該分類器挖掘更多正例 來自 Common Crawl,這些都經過手動註釋,以不斷優化分類器性能。
多語言功能: DeepSeekMath 語料庫包含 多語言數據,從而提高了模型在中國數學基準上的表現。
去污染處理: 德對訓練資料進行污染處理,避免與測試基準重疊.
預訓練:
基於程式碼的模型初始化: 使用初始化 DeepSeek-Coder-Base-v1.5 7B 模型被發現比一般 LLM 的初始化更有效。
預訓練資料組成: 56% DeepSeekMath 語料庫、4% AlgebraicStack、10% arXiv、20% Github 程式碼、10% Common Crawl 自然語言資料。
預訓練參數: 使用 AdamW 優化器,學習率為 4.2e-4,批次大小為 10M token,訓練量為 500B token。
指令微調:
建構指令微調資料集: 建構包含以下特徵的數學教學微調資料集: 776K 樣本,涵蓋多種數學領域和難度級別,包括CoT、PoT以及用於解決步驟的工具整合推理格式。
訓練參數: 批量大小 256,學習率 5e-5,訓練 500 步。
強化學習-群體相對策略最佳化(GRPO):
提出GRPO演算法: 提出一個 PPO 變體演算法 GRPO,透過使用 group-wise scores 來估計baseline,避免了 Critic 模型的需要,從而減少了訓練資源.
目標函數: GRPO 透過最大化目標函數來最佳化策略模型,該目標函數 考慮了組內輸出的相對優勢,並直接添加 KL 散度作為正則化項.
優勢計算: GRPO 透過以下方式計算優勢 群體內相對獎勵,避免跨群體比較,更好地符合獎勵模式的比較性質.
支援結果和過程監控: 集團 可以支援結果和過程監控,更有效地監控政策 透過在每個推理步驟結束時提供獎勵。
迭代強化學習: 使用 迭代強化學習策略 根據策略模型的採樣結果產生新的訓練集,不斷訓練舊的獎勵模型,並使用新的獎勵模型來更新策略模型。
訓練資料: 使用SFT資料中與GSM8K和MATH相關的CoT格式問題,約144K個問題。
訓練參數: 策略模型的學習率為1e-6,KL係數為0.04,每個問題取樣64個輸出,最大長度為1024,訓練批次大小為1024。
結論

結論1:DeepSeekMath 7B 在數學推理能力方面超越所有開源模型。 在競技性 MATH 基準測試中,DeepSeekMath 7B 的準確率達到了 51.7%,接近 Gemini-Ultra 和 GPT-4 的性能水準。
結論2:精心設計的預訓練資料和 GRPO 演算法是模型成功的關鍵。 高品質數學語料庫與GRPO演算法的結合使得模型在數學推理任務中取得顯著的效能提升。
結論3:程式碼訓練有助於提升數學推理能力。 在預訓練階段加入程式碼資料可以提高模型解決數學問題的能力,無論是否使用工具。
結論 4:arXiv 資料的用途有限: 與先前的看法相反,arXiv 數據被發現對提高數學推理能力的幫助有限。
限制
幾何和證明能力相對較弱: 雖然DeepSeekMath在定量推理方面表現出色,但其在幾何和證明方面的能力仍然不如閉源模型。這可能是由於預訓練和微調階段的資料選擇有偏差所造成的。
樣本容量小的弱點: DeepSeekMath在小樣本學習方面不如GPT-4,這可能是由於模型大小的限制。
需要更有效的強化學習方法: 雖然論文提出的強化學習方法有效,但仍有改進的空間,例如如何更有效地利用獎勵模型的回饋以及如何處理吵雜的獎勵訊號。
細節
強化學習探索與分析
概述:
群組相對策略優化(GRPO)簡介: 論文提出了一種新的強化學習演算法GRPO,作為近端策略優化(PPO)的變體。 GRPO 的主要特點是 放棄了PPO中常用的Critic模型,透過群體得分來估計基線,從而大大減少了訓練所需的計算資源。
GRPO有效性證明: 本文以實驗證明了 GRPO 可以 有效提升指令微調模型的效能,包括域內和域外的數學任務.
強化學習方法的統一框架: 本文提出了一個統一的框架來理解不同的強化學習方法,例如 拒絕抽樣微調 (RFT)、直接偏好優化 (DPO)、PPO 和 GRPO。該框架將這些方法視為直接或簡化的強化學習技術。
深入探索強化學習的要素: 本文深入探討 強化學習的關鍵要素,如線上訓練與離線訓練、結果監督與過程監督、單輪強化學習與迭代強化學習,透過詳細的實驗,總結出提升強化學習效果的潛在方向。
GRPO(組相對策略最佳化)演算法

限制 PPO: PPO 是一種常用的強化學習演算法,但它需要訓練 附加評論家模型 估計價值函數,它要求 額外的計算和記憶體負擔。此外,在 LLM 場景中, 評論家模型訓練可能很複雜,因為它需要評估 每個標記的輸出。
GRPO核心理念: GRPO 的核心思想是 放棄評論家模型,而是使用針對相同問題的一組輸出的平均分數作為基線。此基線可用於估計優勢函數和策略最佳化。這種方法大大降低了訓練的複雜性。
優勢函數計算: GRPO 透過以下方式計算優勢函數 計算同一組輸出中每個輸出的相對排名,而不是依賴單獨的價值函數 如同 PPO。
KL 散度懲罰: 集團 不像PPO那樣在獎勵中加入KL散度懲罰,而是直接將策略模型與參考模型之間的KL散度加入損失函數。這避免了複雜的優勢函數計算.
GRPO的核心理念
不需要評論家(價值函數): GRPO 避免了對價值函數的需求,並且 使用組內分數來估計基線,從而減少培訓資源。
組內相對優勢: 對於每個問題 q,GRPO 從舊策略 π(θold) 取樣一組輸出 {o(1), o(2), ..., o(G)},然後透過最大化以下方程式作為目標函數來最佳化策略模型。

具體來說:

這裡的關鍵是 Â(i,t),它代表優勢,計算方式如下: 群體內產出的相對報酬,而不是像 PPO 那樣依賴單獨的價值函數。

目標函數也直接加入 KL 散度作為正規化項來控制 政策更新

並與獎勵模型的比較性質保持一致: GRPO 使用相對的群內獎勵來計算優勢,這更符合獎勵模型的本質,獎勵模型通常基於成對比較進行訓練。
GRPO的獎勵模型如何設計(參考DeepSeek R1)?
特徵:
格式獎勵: 迫使一代又一代的 嬰兒床 結果,可以推動模型產生推理過程,提高模型的推理效果。
準確度獎勵: 數學可以使用最終結果,程式碼可以使用編譯器回饋。
GRPO 的優勢
更少的記憶體佔用: 不需要評論家模型,從而減少記憶體需求。
更有效率的培訓: 利用組內相對優勢進行計算簡化了訓練過程。
更符合獎勵模型的本質: 提高訓練的穩定性和效率。
RL 統一範式摘要
提出統一範式
作者提出了一個統一的範式來理解不同的訓練方法,如 SFT(監督微調)、RFT(拒絕採樣微調)、DPO(直接偏好優化)、PPO、GRPO 等。 RL 關鍵要素: 統一框架的關鍵要素包括:資料來源、獎勵函數和演算法。
- 資料來源: 這是指用於訓練的數據,可以來自手動標記、SFT 模型或即時策略模型。
- 獎勵函數: 指用來評價輸出品質的函數,可以是規則,也可以是模型。
- 演算法: 這是指處理資料和獎勵訊號並更新模型參數的方法。
基於統一範式的不同方法分析
表10總結了SFT、RFT、DPO、Online RFT、PPO和GRPO在資料來源、獎勵函數和梯度係數方面的異同。
方法 | 訓練資料 | 獎勵函數 | 坡度係數 | 訓練方法 | 優勢/特點 | 適用場景 |
聲學傅立葉變換 | 手動標記的 SFT 數據 | 手動選擇(隱性獎勵) | 固定為 1 | 監督學習 | 簡單穩定,依賴高品質的標記數據 | 基礎模型訓練、初始對齊任務 |
射頻功率測試 | SFT 資料集問題 + SFT 模型範例輸出 | 根據答案正確性(規則判斷) | 0(錯誤)或 1(正確) | 離線策略優化 | 高效計算,直接利用規則回饋 | 具有明確規則的數學/邏輯任務 |
資料保護專員 | SFT 資料集問題 + 模型輸出至 | 人類偏好標記或規則比較 | 基於偏好機率計算(例如Bradley-Terry模型) | 比較學習 | 避免顯式的獎勵建模,直接優化偏好 | 人類偏好對齊任務(例如對話生成) |
線上RFT | 即時策略模型採樣 問題-輸出對 | 根據答案正確性(規則判斷) | 0(錯誤)或 1(正確) | 線上策略優化 | 透過即時回饋優化動態更新策略 | 需要線上互動的場景(例如遊戲AI) |
多酚氧化酶 | SFT 資料集問題 + 策略模型取樣輸出 | 獎勵模型(RM)訓練 | 支配函數(基於獎勵估計) | 策略梯度方法 | 高效穩定,支援多步驟優化 | 複雜任務(例如文字生成、機器人控制) |
集團 | SFT資料集問題+策略模型取樣輸出 | 獎勵模型(RM)訓練 | 組內相對獎勵(標準化比較) | 群組原則優化 | 減少獎勵差異並改善組內比較 | 方差較大的任務(例如長文本生成) |
對資料來源的觀察

線上與線下培訓: 線上訓練是指使用即時策略模型的輸出作為訓練數據,而離線訓練是指使用固定模型(例如SFT模型)的輸出作為訓練數據。實驗結果表明 線上培訓通常比離線培訓更好.
結果監督與過程監督: 結果監督是指只對輸出的最後一步進行獎勵,而過程監督是指對推理過程的每一步都進行獎勵。實驗結果表明 複雜任務中流程監管更有效.
單次強化學習與迭代強化學習: 單次強化學習是指單次策略最佳化,而迭代強化學習是指經過多次策略最佳化後,不斷更新獎勵模型。實驗結果表明 迭代強化學習可以顯著提高效能,特別是在第一次迭代中.
梯度係數的觀察
基於規則與基於模型: Rule 是指根據答案的正確性來決定獎勵,Model 是指訓練一個獎勵模型來進行評分。
梯度係數的差異: GRPO 和 Online RFT 是 GRPO 根據獎勵模型提供的獎勵值來調整其梯度係數,而 Online RFT 則不會這樣做。
GRPO 優勢: 實驗表明 GRPO 優於 Online RFT,證明了改變梯度係數符號的有效性。 GRPO+PS 優於 GRPO+OS,證明了使用細粒度、步進感知梯度係數的好處.
RL 的有效性和改進方向
RL 為什麼有效?

實驗結果: RL 提升了 Maj@K 的效能,但並沒有提升 Pass@K 的效能。
解釋: RL 透過使輸出分佈更加穩健來提高模型整體的效能,即提高 TopK 中正確答案的機率,而不是增強模型底層的能力。
如何實現更有效的RL?
基於統一範式,作者從資料來源、演算法、獎勵函數三個面向提出了未來強化學習改進的方向。
- 資料來源:
- 探索 SFT 階段以外的問題。
- 使用更高級的取樣(解碼)策略,例如基於樹搜尋的方法。
- 使用高效的推理技術,提高策略模型的探索效率。
- 演算法:
- 探索對吵雜獎勵訊號更具穩健性的強化學習演算法。
- 研究從弱到強型別的對齊方法。
- 獎勵函數:
- 增強獎勵模型的泛化能力,以處理分佈不均的問題和高階解碼輸出。
- 體現獎賞模型的不確定性,作為連結弱獎賞模型與WEAK-TO-STRONG學習演算法的橋樑。
- 高效建構高品質的過程獎勵模型,為推理過程提供細粒度的訓練訊號。
概括
DeepSeekMath透過建構大規模數學語料庫和提出新的強化學習演算法,顯著提升了開源語言模型在數學推理方面的能力。本文的亮點是
- 大規模、高品質、多語言數學語料庫DeepSeekMath語料庫的建置與驗證。
- 提出了一種高效的強化學習演算法GRPO,在提高模型數學推理能力的同時,減少了記憶體使用量。
- 深入討論了程式碼訓練對數學推理能力的影響,發現arXiv資料的效果有限。 DeepSeekMath 的值:
- 它為開源社群提供了強大的數學推理模型,推動了數學AI的發展。
- 為建立數學語料庫、訓練數學推理模型提供了寶貴的經驗和方法。
- 所提出的GRPO演算法為其他領域的強化學習訓練提供了新的思路。