Idag skulle jag vilja dela en artikel från DeepSeek, med titeln DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models.
Den här artikeln introducerar DeepSeekMath 7B, som är förtränad på DeepSeek-Coder-Base-v1.5 7B baserat på en samling av 120B matterelaterade tokens, naturligt språk och koddata.
Modellen uppnådde ett häpnadsväckande resultat på 51,7% i MATH-riktmärken på konkurrensnivå utan att förlita sig på externa verktygssatser och röstningstekniker, och närmade sig prestandanivån för Gemini-Ultra och GPT-4.
DeepSeekMath 7B:s matematiska resonemangsförmåga tillskrivs två nyckelfaktorer: För det första, genom en noggrant utformad dataurvalspipeline, högkvalitativ matematikrelaterad data utvinns iterativt från allmänt tillgänglig webbdata.
För det andra är grupprelativ policyoptimering (GRPO). introducerat, vilket är en variant av proximal policy optimization (PPO) som kan förbättra matematisk resonemangsförmåga samtidigt som minnesanvändningen av PPO optimeras.
- Metodens egenskaper sammanfattas enligt följande:En högkvalitativ matematisk förutbildningskorpus konstruerades och en noggrant designad pipeline användes för att bryta matematiska data av hög kvalitet från Common Crawl.
- GRPO-algoritmen föreslogs, vilket minskar de resurser som krävs för utbildning och förbättrar modellens matematiska resonemangsförmåga. 3) Toppmodern prestanda var uppnåtts i flera matematiska resonemangstest.
Översikt
Titel: DeepSeekMath: Att tänja på gränserna för matematiskt resonemang i öppna språkmodeller
URL: klicka här
Författare: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y. Wu, Daya Guo
Koda: klicka här
Motivering
Matematiska resonemang utgör en betydande utmaning för språkmodeller på grund av matematikens komplexitet och strukturerade karaktär. De mest avancerade modellerna, som GPT-4 och Gemini-Ultra, är kraftfulla men inte allmänt tillgängliga. Därför finns det betydande utrymme för förbättringar i prestandan för modeller med öppen källkod.
Komplexitet och struktur: Matematiska resonemang utgör en betydande utmaning för språkmodeller på grund av matematikens komplexitet och strukturerade karaktär.
Potentiella offentliga data: Allmänt tillgänglig webbdata kan innehålla rik matematisk information som ännu inte har utvunnits och utnyttjats.
Metoder
Datainsamling: En DeepSeekMath-korpus av 120B tokens konstruerades genom att samla in högkvalitativ matematikrelaterad webbdata från Common Crawl genom en iterativ pipeline.
Modellträning: Korpusen användes för förträning ovanpå DeepSeek-Coder-Base-v1.5 7B, och algoritmen för finjustering av matematiska instruktioner och GRPO (Group Relative Policy Optimization) tillämpades.
GRPO-algoritm: GRPO är en förbättrad förstärkningsinlärningsalgoritm som tar bort Critic-modellen i PPO och uppskattar baslinjen från grupppoängen, vilket avsevärt minskar utbildningsresurserna.
Detaljerade metoder och procedurer:
Datainsamling och bearbetning:

Bygg DeepSeekMath Corpus: Med hjälp av en fastText-baserad klassificerare, extrahera 120B matematikrelaterade tokens från Common Crawl för att bygga en storskalig, högkvalitativ förutbildad korpus, DeepSeekMath Corpus.
Iterativ datafiltrering: En iterativ strategi används, använda OpenWebMath som frödata för att träna en initial klassificerare, och sedan använda denna klassificerare för att ta fram fler positiva exempel från Common Crawl, som är manuellt kommenterade för att kontinuerligt optimera klassificerarens prestanda.
Flerspråkiga funktioner: DeepSeekMath Corpus innehåller flerspråkig information, vilket förbättrar modellens prestanda på kinesiska matematiska riktmärken.
Bearbetning av föroreningar: av-föroreningsbearbetning utförs på träningsdata för att undvika överlappning med testriktmärket.
Förträning:
Kodbaserad modellinitiering: Initiering med hjälp av DeepSeek-Coder-Base-v1.5 7B modell visade sig vara mer effektiv än initiering från en allmän LLM.
Förträningsdatasammansättning: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% Github-kod, 10% Common Crawl naturligt språkdata.
Förträningsparametrar: AdamW optimizer används, med en inlärningshastighet på 4.2e-4, batchstorlek på 10 miljoner tokens och träning av 500B tokens.
Instruktionsfinjustering:
Konstruera en instruktionsfinjusteringsdatauppsättning: Konstruera en matematisk instruktionsfinjusteringsdatauppsättning som innehåller 776 000 prover, som täcker en mängd olika matematiska områden och svårighetsgrader, inklusive CoT, PoT och verktygsintegrerade slutledningsformat för att lösa steg.
Träningsparametrar: Batchstorlek 256, inlärningshastighet 5e-5, träna för 500 steg.
Förstärkningsinlärning – Group Relative Policy Optimization (GRPO):
Föreslå GRPO-algoritm: Föreslå a PPO-variantalgoritmen GRPO, som undviker behovet av en kritikermodell genom att använda gruppvisa poäng för att uppskatta baslinjen, och därigenom minska utbildningsresurserna.
Objektiv funktion: GRPO optimerar policymodellen genom att maximera en objektiv funktion som tar hänsyn till den relativa fördelen med utdata inom gruppen och lägger direkt till KL-divergensen som en regulariseringsterm.
Fördelsberäkning: GRPO beräknar fördelen genom relativa belöningar inom gruppen, undvika jämförelser mellan grupper och bättre överensstämma med belöningsmodellens jämförande karaktär.
Stöder både resultat- och processövervakning: GRPO kan stödja både resultat- och processövervakning, och mer effektivt övervaka policyn genom att ge belöningar i slutet av varje slutledningssteg.
Iterativ RL: Använder en iterativ RL-strategi att generera en ny utbildningsuppsättning baserat på urvalsresultaten från policymodellen, träna kontinuerligt den gamla belöningsmodellen och använda den nya belöningsmodellen för att uppdatera policymodellen.
Träningsdata: Använder CoT-formatproblem relaterade till GSM8K och MATH i SFT-data, cirka 144K problem.
Träningsparametrar: Inlärningshastigheten för policymodellen är 1e-6, KL-koefficienten är 0,04, 64 utgångar samplas för varje problem, den maximala längden är 1024, och utbildningsbatchstorleken är 1024.
Slutsats

Slutsats 1:DeepSeekMath 7B överträffar alla modeller med öppen källkod i matematisk resonemangsförmåga. I det konkurrenskraftiga MATH benchmarktestet uppnådde DeepSeekMath 7B en noggrannhet på 51,7%, vilket är nära prestandanivån för Gemini-Ultra och GPT-4.
Slutsats 2:Väl utformade förträningsdata och GRPO-algoritmer är nyckeln till framgången för modellen. Kombinationen av en högkvalitativ matematisk korpus och GRPO-algoritmer gör det möjligt för modellen att uppnå betydande prestandavinster i matematiska resonemangsuppgifter.
Slutsats 3:Kodträning hjälper till att förbättra matematisk resonemangsförmåga. Att lägga till koddata till förträningsstadiet kan förbättra modellens förmåga att lösa matematiska problem, både med och utan verktyg.
Slutsats 4: Begränsad användbarhet av arXiv-data: I motsats till tidigare uppfattningar, visade sig arXiv-data vara till begränsad hjälp för att förbättra matematiska resonemang.
Begränsning
Geometri och bevisförmåga är relativt svaga: Även om DeepSeekMath utmärker sig i kvantitativt resonemang, är dess kapacitet i geometri och bevis fortfarande sämre än modeller med sluten källkod. Detta kan bero på det partiska dataurvalet i förtränings- och finjusteringsstadierna.
Svaghet i liten provkapacitet: DeepSeekMath är sämre än GPT-4 när det gäller inlärning av små prover, vilket kan bero på begränsningen av modellstorlek.
Mer effektiva metoder för inlärning av förstärkning behövs: Även om metoderna för förstärkningsinlärning som föreslås i artikeln är effektiva, finns det fortfarande utrymme för förbättringar, till exempel hur man mer effektivt kan använda feedbacken från belöningsmodellen och hur man hanterar bullriga belöningssignaler.
Detaljer
Förstärkning Learning Utforskning och analys
Översikt:
Introduktion av Group Relative Policy Optimization (GRPO): Artikeln föreslår en ny förstärkningsinlärningsalgoritm, GRPO, som en variant av Proximal Policy Optimization (PPO). Huvuddraget hos GRPO är att det överger Critic-modellen som vanligtvis används i PPO och uppskattar baslinjen genom grupppoäng, vilket i hög grad minskar de beräkningsresurser som krävs för utbildning.
GRPO effektivitet demonstration: Uppsatsen demonstrerar experimentellt att GRPO kan effektivt förbättra prestandan för kommandofinjusteringsmodeller, inklusive matematiska uppgifter både inom domänen och utanför domänen.
Enhetligt ramverk för metoder för inlärning av förstärkning: Uppsatsen föreslår ett enhetligt ramverk för att förstå olika metoder för förstärkningsinlärning, som t.ex Rejection Sampling Fine-Tuning (RFT), Direct Preference Optimization (DPO), PPO och GRPO. Ramverket behandlar dessa metoder som direkta eller förenklade förstärkningsinlärningstekniker.
Fördjupad utforskning av elementen i förstärkningsinlärning: Tidningen utforskar på djupet nyckelelement i förstärkningsinlärning, såsom onlineträning och offlineutbildning, resultatövervakning och processövervakning, engångsförstärkningsinlärning och iterativ förstärkningsinlärning, genom detaljerade experiment, och sammanfattar potentiella riktningar för att förbättra effektiviteten av förstärkningsinlärning.
GRPO (Group Relative Policy Optimization) algoritm

Begränsningar av PPO: PPO är en allmänt använd förstärkningsinlärningsalgoritm, men den kräver träning ytterligare kritikermodell att uppskatta värdefunktionen, som pålägger en extra beräknings- och minnesbörda. Dessutom, i LLM-scenariot, Utbildning av kritikermodeller kan vara komplicerad eftersom den kräver utvärdering utgången för varje token.
GRPO kärnidé: Kärnidén med GRPO är att överge Critic-modellen och använd istället medelpoängen för en uppsättning utdata för samma problem som en baslinje. Denna baslinje kan användas för att uppskatta fördelningsfunktionen och för policyoptimering. Detta tillvägagångssätt minskar utbildningens komplexitet avsevärt.
Beräkning av fördelarfunktion: GRPO beräknar fördelsfunktionen med beräkna den relativa rankningen av varje utdata i samma uppsättning utdata, snarare än att förlita sig på en separat värdefunktion som i PPO.
KL divergensstraff: GRPO lägger inte till en KL-divergensstraff till belöningen som PPO, utan lägger istället till KL-divergensen mellan policymodellen och referensmodellen direkt till förlustfunktionen. Detta undviker den komplexa fördelningsfunktionsberäkningen.
Kärnidén med GRPO
kräver ingen kritiker (värdefunktion): GRPO undviker behovet av en värdefunktion och använder poängen inom gruppen för att uppskatta baslinjen, vilket minskar utbildningsresurserna.
Relativ fördel inom gruppen: För varje problem q samplar GRPO en uppsättning utdata {o(1), o(2), …, o(G)} från den gamla policyn π(θold) och optimerar sedan policymodellen genom att maximera följande ekvation som objektiv funktion.

Speciellt:

Nyckeln här är Â(i,t), som representerar fördelen och beräknas av den relativa belöningen av utdata inom gruppen, snarare än att förlita sig på en separat värdefunktion som i PPO.

Den objektiva funktionen lägger också direkt till KL-divergens som en regulariseringsterm att kontrollera storleken på policyuppdateringar

och anpassa sig till belöningsmodellens jämförelsekaraktär: GRPO använder den relativa belöningen inom gruppen för att beräkna fördelen, vilket är mer överensstämmande med belöningsmodellens karaktär, som vanligtvis tränas baserat på parvis jämförelse.
Hur kan belöningsmodellen för GRPO utformas (se DeepSeek R1)?
Drag:
format belöning: tvingar generationen av långa spjälsäng resultat, vilket kan driva modellen att generera slutledningsprocesser och förbättra modellens slutledningseffekt.
precision belöning: matematik kan använda slutresultatet, och kod kan använda kompilatorfeedback.
Fördelar med GRPO
Mindre minnesavtryck: ingen Critic-modell krävs, vilket minskar minneskraven.
Effektivare träning: beräkning med användning av relativ fördel inom gruppen förenklar utbildningsprocessen.
Mer kompatibel med belöningsmodellernas natur: förbättrar träningens stabilitet och effektivitet.
Sammanfattning av RL Unified Paradigm
Förenat paradigm föreslås
Författarna föreslår ett enhetligt paradigm för att förstå olika träningsmetoder som SFT (Supervised Fine-tuning), RFT (Rejection Sampling Fine-tuning), DPO (Direct Preference Optimization), PPO, GRPO, etc. RL-nyckelelement: Nyckelelementen i det enhetliga ramverket inkluderar: datakällor, belöningsfunktioner och algoritmer.
- Datakälla: Detta avser data som används för utbildning, som kan härledas från manuell märkning, SFT-modeller eller realtidspolicymodeller.
- Belöningsfunktion: Detta hänvisar till funktionen som används för att utvärdera kvaliteten på resultatet, vilket kan vara en regel eller en modell.
- Algoritm: Detta hänvisar till metoden som används för att bearbeta data och belöningssignal och uppdatera modellparametrarna.
Analys av olika metoder utifrån ett enhetligt paradigm
Tabell 10 sammanfattar likheterna och skillnaderna mellan SFT, RFT, DPO, Online RFT, PPO och GRPO vad gäller datakällor, belöningsfunktioner och gradientkoefficienter.
Metod | Träningsdata | Belöningsfunktion | Gradientkoefficient | Träningsmetod | Fördelar/funktioner | Tillämpliga scenarier |
SFT | Manuellt märkt SFT-data | Manuellt vald (implicit belöning) | Fast till 1 | Övervakat lärande | Enkel och stabil, beroende av högkvalitativ märkt data | Grundläggande modellutbildning, initial inriktningsuppgift |
RFT | SFT-datauppsättningsproblem + SFT-modellexempelutgång | Baserat på svarens korrekthet (regelbedömning) | 0 (fel) eller 1 (rätt) | Offlinepolicyoptimering | Effektiv beräkning, direkt användning av regelåterkoppling | Matematiska/logiska uppgifter med tydliga regler |
DPO | SFT-datauppsättningsproblem + modellutgång till | Märkning av mänskliga preferenser eller jämförelse av regler | Baserat på beräkning av preferenssannolikhet (t.ex. Bradley-Terry-modellen) | Jämförelseinlärning | Undviker explicit belöningsmodellering, direkt optimerar preferenser | Uppdrag för anpassning av mänskliga preferenser (t.ex. dialoggenerering) |
Online RFT | Sampling av policymodeller i realtid problem-utgångspar | Baserat på svarens korrekthet (regelbedömning) | 0 (fel) eller 1 (rätt) | Online policyoptimering | Uppdaterar dynamiskt policyer med optimering av feedback i realtid | Scenarier som kräver onlineinteraktion (t.ex. spel-AI) |
PPO | SFT-datauppsättningsproblem + policymodellsurval | Belöningsmodell (RM) utbildad | Dominansfunktion (baserat på belöningsuppskattning) | Policygradientmetod | Effektiv och stabil, stöder flerstegsoptimering | Komplexa uppgifter (t.ex. textgenerering, robotstyrning) |
GRPO | SFT-datauppsättningsproblem + samplingsutdata för policymodell | Belöningsmodell (RM) utbildad | Relativ belöning inom gruppen (normaliserad jämförelse) | Grupppolicyoptimering | Minska belöningsvariansen och förbättra jämförelsen inom gruppen | Uppgifter med hög varians (t.ex. lång textgenerering) |
Observationer om datakällor

Online vs offline träning: Onlineträning avser att använda utdata från realtidspolicymodellen som träningsdata, medan offlineträning syftar på att använda utdata från en fast modell (som SFT-modellen) som träningsdata. Experimentella resultat visar det onlineträning är generellt sett bättre än offlineträning.
Resultatövervakning vs processövervakning: Resultatövervakning avser endast att belöna det sista steget av resultatet, medan processövervakning avser att belöna varje steg i resonemangsprocessen. Experimentella resultat visar det processövervakning är effektivare i komplexa uppgifter.
Enkelavsnitt kontra iterativ förstärkningsinlärning: Förstärkningsinlärning i ett avsnitt hänvisar till en enda strategioptimering, medan iterativ förstärkningsinlärning avser den kontinuerliga uppdateringen av belöningsmodellen efter flera strategioptimeringar. Experimentella resultat visar det iterativ förstärkningsinlärning kan förbättra prestandan avsevärt, särskilt i den första iterationen.
Observation av gradientkoefficienter
Regelbaserad kontra modellbaserad: Regel hänvisar till att bestämma belöningen baserat på riktigheten av svaret, och modell hänvisar till att träna en belöningsmodell för att få poäng.
Skillnad i gradientkoefficienter: Den viktigaste skillnaden mellan GRPO och Online RFT är att GRPO justerar sina gradientkoefficienter baserat på belöningsvärdena som tillhandahålls av belöningsmodellen, medan Online RFT inte gör det.
GRPO fördelar: Experiment visar det GRPO är överlägsen Online RFT, vilket visar effektiviteten i att ändra tecknet på gradientkoefficienterna. GRPO+PS är överlägsen GRPO+OS, vilket visar fördelarna med att använda finkorniga, stegmedvetna gradientkoefficienter.
RL effektivitet och anvisningar för förbättring
Varför är RL effektivt?

Experimentella resultat: RL förbättrar Maj@K-prestanda men inte Pass@K.
Förklaring: RL förbättrar modellens övergripande prestanda genom att göra utdatafördelningen mer robust, dvs den förbättrar sannolikheten för korrekta svar i TopK, snarare än att förbättra modellens underliggande förmåga.
Hur kan effektivare RL uppnås?
Baserat på det enhetliga paradigmet föreslår författarna framtida riktningar för att förbättra RL i tre aspekter: datakällor, algoritmer och belöningsfunktioner.
- Datakällor:
- Utforska problem bortom SFT-stadiet.
- Använd mer avancerade samplingsstrategier (avkodning), såsom trädsökningsbaserade metoder.
- Använd effektiva slutledningstekniker för att förbättra utforskningseffektiviteten hos policymodellen.
- Algoritm:
- Utforska förstärkningsinlärningsalgoritmer som är mer robusta mot brusiga belöningssignaler.
- Studera inriktningsmetoder av SVAG-TILL-STARK typ.
- Belöningsfunktion:
- Förbättra generaliseringsförmågan hos belöningsmodellen för att hantera problem utanför distribution och avancerade avkodade utdata.
- Reflektera osäkerheten i belöningsmodellen och använd den som en brygga för att koppla ihop svaga belöningsmodeller och SVAG-TILL-STARK inlärningsalgoritmer.
- Konstruera effektivt processbelöningsmodeller av hög kvalitet för att ge finkorniga träningssignaler för slutledningsprocessen.
Sammanfattning
DeepSeekMath har avsevärt förbättrat förmågan hos språkmodeller med öppen källkod i matematiska resonemang genom att konstruera en storskalig matematisk korpus och föreslå en ny förstärkningsinlärningsalgoritm. Höjdpunkterna i denna tidning är
- konstruktionen och valideringen av DeepSeekMath Corpus, en storskalig, högkvalitativ, flerspråkig matematisk korpus.
- En effektiv förstärkningsinlärningsalgoritm, GRPO, föreslås för att minska minnesanvändningen samtidigt som modellens matematiska resonemangsförmåga förbättras.
- Effekten av kodträning på matematisk resonemangsförmåga diskuteras ingående och det visar sig att arXiv-data har en begränsad effekt. Värdet på DeepSeekMath:
- Det ger open source-gemenskapen en kraftfull matematisk resonemangsmodell och främjar utvecklingen av matematisk AI.
- Det ger värdefull erfarenhet och metoder för att bygga matematiska korpora och träna matematiska resonemangsmodeller.
- Den föreslagna GRPO-algoritmen ger nya idéer för förstärkningsinlärningsträning inom andra områden.