Vandaag wil ik graag een artikel van DeepSeek met u delen, getiteld DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models.
Dit artikel introduceert DeepSeekMath 7B, die vooraf is getraind op DeepSeek-Coder-Base-v1.5 7B gebaseerd op een verzameling van 120B wiskundige tokens, natuurlijke taal en codegegevens.
Het model behaalde een verbluffende score van 51.7% in competitieve MATH-benchmarks zonder gebruik te maken van externe toolkits en stemtechnieken. Daarmee benaderde het het prestatieniveau van Gemini-Ultra en GPT-4.
DeepSeekMath 7B's wiskundige redeneervermogen wordt toegeschreven aan twee belangrijke factoren: Ten eerste, door een zorgvuldig ontworpen dataselectiepijplijnEr worden iteratief hoogwaardige wiskundige gegevens uit openbaar beschikbare webgegevens gehaald.
Ten tweede is er de optimalisatie van het relatieve groepsbeleid (GRPO). geïntroduceerd, een variant van proximale beleidsoptimalisatie (PPO) die het wiskundige redeneervermogen kan verbeteren en tegelijkertijd het geheugengebruik van PPO kan optimaliseren.
- De kenmerken van de methode worden als volgt samengevat:Een hoogwaardig wiskundig pre-trainingscorpus werd gebouwd en er werd een zorgvuldig ontworpen pijplijn gebruikt om hoogwaardige wiskundige gegevens uit Common Crawl te delven.
- Het GRPO-algoritme werd voorgesteld, wat de benodigde middelen voor training vermindert en het wiskundig redeneervermogen van het model verbetert. 3) Prestaties van de nieuwste generatie was behaald in meerdere benchmarktests voor wiskundig redeneren.
Overzicht
Titel: DeepSeekMath: De grenzen van wiskundig redeneren in open taalmodellen verleggen
URL-adres: klik hier
Auteurs: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y. Wu, Daya Guo
Code: klik hier
Motivatie
Wiskundig redeneren vormt een aanzienlijke uitdaging voor taalmodellen vanwege de complexiteit en gestructureerde aard van wiskunde. De meest geavanceerde modellen, zoals GPT-4 en Gemini-Ultra, zijn krachtig maar niet openbaar beschikbaar. Daarom is er aanzienlijke ruimte voor verbetering in de prestaties van open source-modellen.
Complexiteit en structuur: Wiskundig redeneren vormt een grote uitdaging voor taalmodellen vanwege de complexiteit en de gestructureerde aard van wiskunde.
Potentieel van publieke data: Publiek beschikbare webgegevens kunnen een schat aan wiskundige informatie bevatten die nog niet is ontgonnen en gebruikt.
Methoden
Gegevensverzameling: Een DeepSeekMath-corpus van 120B tokens werd samengesteld door hoogwaardige wiskundige webgegevens te verzamelen van Common Crawl via een iteratieve pijplijn.
Modeltraining: Het corpus werd gebruikt voor pre-training op basis van DeepSeek-Coder-Base-v1.5 7B, en het algoritme voor wiskundige instructiefine-tuning en groepsrelatieve beleidsoptimalisatie (GRPO) werd toegepast.
GRPO-algoritme: GRPO is een verbeterd reinforcement learning-algoritme dat het Critic-model in PPO verwijdert en de basislijn schat op basis van de groepsscore, waardoor de trainingsbronnen aanzienlijk worden verminderd.
Gedetailleerde methoden en procedures:
Gegevensverzameling en -verwerking:

Bouw DeepSeekMath Corpus: Met behulp van een fastText-gebaseerde classificator, 120B wiskunde-gerelateerde tokens extraheren van Common Crawl om een grootschalig, hoogwaardig, vooraf getraind corpus te bouwen, DeepSeekMath Corpus.
Iteratieve gegevensfiltering: Er wordt gebruik gemaakt van een iteratieve strategie, OpenWebMath gebruiken als startgegevens om een eerste classificator te trainen, en deze classificator vervolgens gebruiken om meer positieve voorbeelden te mijnen van Common Crawl, die handmatig worden geannoteerd om de prestaties van de classifier continu te optimaliseren.
Meertalige functies: DeepSeekMath Corpus bevat meertalige gegevens, wat de prestaties van het model op Chinese wiskundige benchmarks verbetert.
Verwerking van verontreinigingen: De-Verontreinigingsverwerking wordt uitgevoerd op de trainingsgegevens om overlapping met de testbenchmark te voorkomen.
Vooropleiding:
Codegebaseerde modelinitialisatie: Initialisatie met behulp van de DeepSeek-Coder-Base-v1.5 7B bleek het model effectiever te zijn dan initialisatie vanuit een algemeen LLM.
Pretraining-gegevenscompositie: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% Github-code, 10% Common Crawl natuurlijke taalgegevens.
Pretrainingsparameters: Er wordt gebruik gemaakt van de AdamW-optimizer, met een leercurve van 4,2e-4, een batchgrootte van 10 miljoen tokens en een training van 500 miljard tokens.
Instructie fijnafstemming:
Maak een dataset voor het verfijnen van instructies: Maak een dataset voor het verfijnen van wiskundige instructies, met daarin: 776K voorbeelden, die een verscheidenheid aan wiskundige vakgebieden en moeilijkheidsniveaus bestrijkt, waaronder CoT, PoT en tool-geïntegreerde inferentieformaten voor het oplossen van stappen.
Trainingsparameters: Batchgrootte 256, leertempo 5e-5, training voor 500 stappen.
Reinforcement learning – Groepsrelatieve beleidsoptimalisatie (GRPO):
Stel GRPO-algoritme voor: Stel een voor PPO-variantalgoritme GRPO, dat de noodzaak van een Critic-model vermijdt door groepsgewijze scores te gebruiken om de basislijn te schatten, waardoor de trainingsbronnen worden verminderd.
Doelfunctie: GRPO optimaliseert het beleidsmodel door een objectieve functie te maximaliseren die houdt rekening met het relatieve voordeel van de outputs binnen de groep en voegt de KL-divergentie direct toe als een regularisatieterm.
Berekening van het voordeel: GRPO berekent het voordeel door relatieve beloningen binnen de groep, het vermijden van vergelijkingen tussen groepen en het beter voldoen aan de vergelijkende aard van het beloningsmodel.
Ondersteunt zowel resultaat- als procesbewaking: GRPO kan zowel uitkomst- als procesmonitoring ondersteunen en het beleid effectiever monitoren door beloningen te geven aan het einde van elke inferentiestap.
Iteratief RL: Gebruikt een iteratieve RL-strategie om een nieuwe trainingsset te genereren op basis van de steekproefresultaten van het beleidsmodel, het oude beloningsmodel continu te trainen en het nieuwe beloningsmodel te gebruiken om het beleidsmodel bij te werken.
Trainingsgegevens: Maakt gebruik van de CoT-formaatproblemen gerelateerd aan GSM8K en MATH in de SFT-gegevens, ongeveer 144K problemen.
Trainingsparameters: De leersnelheid van het beleidsmodel is 1e-6, de KL-coëfficiënt is 0,04, er worden 64 uitkomsten per probleem gesampled, de maximale lengte is 1024 en de trainingsbatchgrootte is 1024.
Conclusie

Conclusie 1:DeepSeekMath 7B presteert beter dan alle open source-modellen op het gebied van wiskundig redeneervermogen. In de competitieve MATH-benchmarktest behaalde de DeepSeekMath 7B een nauwkeurigheid van 51,7%, wat dicht bij het prestatieniveau van Gemini-Ultra en GPT-4 ligt.
Conclusie 2:Goed ontworpen pretrainingsgegevens en GRPO-algoritmen zijn de sleutel tot het succes van het model. De combinatie van een hoogwaardig wiskundig corpus en GRPO-algoritmen zorgt ervoor dat het model aanzienlijke prestatieverbeteringen kan behalen bij wiskundige redeneertaken.
Conclusie 3:Codetraining verbetert het wiskundig redeneervermogen. Door codegegevens toe te voegen aan de pre-trainingsfase, kan het model beter wiskundige problemen oplossen, zowel met als zonder hulpmiddelen.
Conclusie 4: Beperkte bruikbaarheid van arXiv-gegevens: In tegenstelling tot wat eerder werd gedacht, bleken de arXiv-gegevens slechts in beperkte mate behulpzaam te zijn bij het verbeteren van wiskundig redeneren.
Beperking
De geometrie en bewijsmogelijkheden zijn relatief zwak: Hoewel DeepSeekMath excelleert in kwantitatief redeneren, zijn de mogelijkheden in geometrie en bewijsvoering nog steeds inferieur aan closed-source modellen. Dit kan komen door de bevooroordeelde dataselectie in de pretraining- en fine-tuning-fases.
Zwakte in kleine monstercapaciteit: DeepSeekMath is inferieur aan GPT-4 wat betreft het leren van kleine steekproeven, wat mogelijk te wijten is aan de beperkingen van de modelgrootte.
Er zijn efficiëntere reinforcement learning-methoden nodig: Hoewel de in het artikel voorgestelde reinforcement learning-methoden effectief zijn, is er nog ruimte voor verbetering. Bijvoorbeeld hoe we effectiever gebruik kunnen maken van de feedback van het beloningsmodel en hoe we kunnen omgaan met ruisende beloningssignalen.
Details
Verkenning en analyse van versterkend leren
Overzicht:
Introductie van Group Relative Policy Optimization (GRPO): Het artikel stelt een nieuw reinforcement learning-algoritme voor, GRPO, als een variant van Proximal Policy Optimization (PPO). De belangrijkste eigenschap van GRPO is dat het verlaat het Critic-model dat gewoonlijk in PPO wordt gebruikt en schat de basislijn via groepsscores, waardoor de voor de training benodigde computerbronnen aanzienlijk worden verminderd.
Demonstratie van de effectiviteit van GRPO: Het artikel toont experimenteel aan dat GRPO kan de prestaties van opdrachtfine-tuningmodellen effectief verbeteren, inclusief zowel in-domein als out-of-domein wiskundige taken.
Uniform raamwerk voor reinforcement learning-methoden: In het artikel wordt een uniform raamwerk voorgesteld voor het begrijpen van verschillende methoden voor versterkend leren, zoals Rejection Sampling Fine-Tuning (RFT), Direct Preference Optimization (DPO), PPO en GRPOHet raamwerk behandelt deze methoden als directe of vereenvoudigde reinforcement learning-technieken.
Diepgaande verkenning van de elementen van reinforcement learning: Het artikel gaat dieper in op kernelementen van reinforcement learning, zoals online training en offline training, resultaatbegeleiding en procesbegeleiding, single-round reinforcement learning en iteratief reinforcement learning, door middel van gedetailleerde experimenten, en vat mogelijke richtingen samen om de effectiviteit van reinforcement learning te verbeteren.
GRPO-algoritme (Group Relative Policy Optimization)

Beperkingen van PPO-nummer: PPO is een veelgebruikt algoritme voor versterkend leren, maar het vereist training van een extra Critic-model om de waardefunctie te schatten, die oplegt een extra reken- en geheugenbelastingBovendien, in het LLM-scenario, Het trainen van het kritische model kan ingewikkeld zijn omdat het een evaluatie vereist de uitvoer van elk token.
Kernidee van GRPO: Het kernidee van GRPO is om laat het Critic-model varen en gebruik in plaats daarvan de gemiddelde score van een set outputs voor hetzelfde probleem als een baseline. Deze baseline kan worden gebruikt om de advantage-functie te schatten en voor beleidsoptimalisatieDeze aanpak vermindert de complexiteit van de training aanzienlijk.
Berekening van de voordeelfunctie: GRPO berekent de voordeelfunctie door het berekenen van de relatieve rangschikking van elke uitvoer in dezelfde reeks uitvoer, in plaats van te vertrouwen op een afzonderlijke waardefunctie zoals in PPO.
KL divergentiestraf: GRPO voegt geen KL-divergentiestraf toe aan de beloning zoals PPO, maar voegt in plaats daarvan de KL-divergentie tussen het beleidsmodel en het referentiemodel rechtstreeks toe aan de verliesfunctie. Dit vermijdt de complexe berekening van de voordeelfunctie.
Het kernidee van GRPO
vereist geen Critic (waardefunctie): GRPO vermijdt de noodzaak van een waardefunctie en gebruikt de score binnen de groep om de basislijn te schatten, waardoor de opleidingsmiddelen worden verminderd.
Relatief voordeel binnen de groep: Voor elk probleem q bemonstert GRPO een reeks uitvoerwaarden {o(1), o(2), …, o(G)} van het oude beleid π(θold) en optimaliseert vervolgens het beleidsmodel door de volgende vergelijking te maximaliseren als de objectieve functie.

Meer specifiek:

De sleutel hier is Â(i,t), die het voordeel vertegenwoordigt en wordt berekend door de relatieve beloning van de intra-groep output, in plaats van te vertrouwen op een aparte waardefunctie zoals bij PPO.

De objectieve functie voegt ook direct toe KL-divergentie als regularisatieterm om de omvang van beleidsupdates

en aansluiten bij de vergelijkende aard van het beloningsmodel: GRPO gebruikt de relatieve intragroepsbeloning om het voordeel te berekenen, wat beter aansluit bij de aard van het beloningsmodel, dat doorgaans wordt getraind op basis van paargewijze vergelijking.
Hoe kan het beloningsmodel van GRPO worden ontworpen (zie DeepSeek R1)?
Functies:
formaat beloning: dwingt de generatie van lange kinderbed resultaten, die het model ertoe kunnen aanzetten om inferentieprocessen te genereren en het inferentie-effect van het model te verbeteren.
nauwkeurigheidsbeloning: Wiskunde kan het eindresultaat gebruiken en code kan compilerfeedback gebruiken.
Voordelen van GRPO
Minder geheugengebruik: geen Critic-model vereist, waardoor de geheugenvereisten worden verlaagd.
Efficiëntere training: Berekening met behulp van het relatieve voordeel binnen de groep vereenvoudigt het trainingsproces.
Beter in overeenstemming met de aard van beloningsmodellen: verbetert de stabiliteit en efficiëntie van de training.
Samenvatting van het RL Unified Paradigm
Voorgesteld uniform paradigma
De auteurs stellen een uniform paradigma voor om verschillende trainingsmethoden te begrijpen, zoals SFT (Supervised Fine-tuning), RFT (Rejection Sampling Fine-tuning), DPO (Direct Preference Optimization), PPO, GRPO, enz. RL-kernelementen: De belangrijkste elementen van het uniforme raamwerk zijn: gegevensbronnen, beloningsfuncties en algoritmen.
- Gegevensbron: Dit heeft betrekking op de gegevens die worden gebruikt voor de training. Deze kunnen worden afgeleid uit handmatige etikettering, SFT-modellen of realtime beleidsmodellen.
- Beloningsfunctie: Dit verwijst naar de functie die wordt gebruikt om de kwaliteit van de uitvoer te evalueren. Dit kan een regel of een model zijn.
- Algoritme: Dit heeft betrekking op de methode die wordt gebruikt om de gegevens en het beloningssignaal te verwerken en de modelparameters bij te werken.
Analyse van verschillende methoden op basis van een uniform paradigma
Tabel 10 vat de overeenkomsten en verschillen samen tussen SFT, RFT, DPO, Online RFT, PPO en GRPO wat betreft gegevensbronnen, beloningsfuncties en gradiëntcoëfficiënten.
Methode | Trainingsgegevens | Beloningsfunctie | Gradiëntcoëfficiënt | Trainingsmethode | Voordelen/kenmerken | Toepasselijke scenario's |
SFT | Handmatig gelabelde SFT-gegevens | Handmatig geselecteerd (impliciete beloning) | Vastgezet op 1 | Begeleid leren | Eenvoudig en stabiel, afhankelijk van hoogwaardige gelabelde gegevens | Basismodeltraining, eerste uitlijningstaak |
RFT | SFT-datasetprobleem + Voorbeelduitvoer van SFT-model | Gebaseerd op de juistheid van het antwoord (regelbeoordeling) | 0 (fout) of 1 (correct) | Offline beleidsoptimalisatie | Efficiënte berekening, direct gebruik van regelfeedback | Wiskundige/logische taken met duidelijke regels |
DPO | SFT-datasetprobleem + modeluitvoer naar | Menselijke voorkeurslabeling of regelvergelijking | Gebaseerd op voorkeurswaarschijnlijkheidsberekening (bijv. Bradley-Terry-model) | Vergelijkend leren | Vermijdt expliciete beloningsmodellering en optimaliseert voorkeuren rechtstreeks | Taken gericht op het afstemmen van menselijke voorkeuren (bijvoorbeeld het genereren van dialogen) |
Online RFT | Realtime beleidsmodelbemonstering probleem-uitvoerparen | Gebaseerd op de juistheid van het antwoord (regelbeoordeling) | 0 (fout) of 1 (correct) | Optimalisatie van online beleid | Dynamisch bijwerken van beleid met realtime feedbackoptimalisatie | Scenario's die online interactie vereisen (bijv. game-AI) |
PPO | SFT-datasetprobleem + Beleidsmodel bemonstering output | Beloningsmodel (RM) getraind | Dominantiefunctie (gebaseerd op beloningsschatting) | Beleidsgradiëntmethode | Efficiënt en stabiel, ondersteunt multi-step optimalisatie | Complexe taken (bijv. tekstgeneratie, robotbesturing) |
GRPO | SFT-datasetprobleem + uitvoer van bemonsteringsmodel van beleid | Beloningsmodel (RM) getraind | Relatieve intragroepsbeloning (genormaliseerde vergelijking) | Optimalisatie van groepsbeleid | Verminder de beloningsvariantie en verbeter de intragroepsvergelijking | Taken met een hoge variantie (bijvoorbeeld het genereren van lange tekst) |
Observaties over gegevensbronnen

Online versus offline training: Online training verwijst naar het gebruiken van de output van het real-time policy model als trainingsdata, terwijl offline training verwijst naar het gebruiken van de output van een vast model (zoals het SFT-model) als trainingsdata. Experimentele resultaten tonen aan dat Online training is over het algemeen beter dan offline training.
Resultaatbegeleiding versus procesbegeleiding: Uitkomstsupervisie verwijst naar het alleen belonen van de laatste stap van de output, terwijl processupervisie verwijst naar het belonen van elke stap van het redeneerproces. Experimentele resultaten tonen aan dat procesbegeleiding is effectiever bij complexe taken.
Enkelvoudige-episode versus iteratief reinforcement learning: Enkelvoudige-episode reinforcement learning verwijst naar een enkele strategie-optimalisatie, terwijl iteratieve reinforcement learning verwijst naar de continue update van het beloningsmodel na meerdere strategie-optimalisaties. Experimentele resultaten tonen aan dat iteratief reinforcement learning kan de prestaties aanzienlijk verbeteren, vooral in de eerste iteratie.
Observatie van gradiëntcoëfficiënten
Regelgebaseerd versus modelgebaseerd: Met regel wordt bedoeld dat de beloning wordt bepaald op basis van het juiste antwoord. Met model wordt bedoeld dat een beloningsmodel wordt getraind om te scoren.
Verschil in gradiëntcoëfficiënten: Het belangrijkste verschil tussen GRPO en Bij Online RFT past GRPO zijn gradiëntcoëfficiënten aan op basis van de beloningswaarden die het beloningsmodel biedt. Bij Online RFT doet GRPO dat niet.
Voordelen van GRPO: Experimenten tonen aan dat GRPO is superieur aan Online RFT, wat de effectiviteit van het veranderen van het teken van de gradiëntcoëfficiënten aantoont. GRPO+PS is superieur aan GRPO+OS, wat de voordelen van het gebruik van fijnkorrelige, stapbewuste gradiëntcoëfficiënten aantoont.
RL-effectiviteit en richtingen voor verbetering
Waarom is RL effectief?

Experimentele resultaten: RL verbetert de prestaties van Maj@K, maar niet van Pass@K.
Uitleg: RL verbetert de algehele prestatie van het model door de uitvoerverdeling robuuster te maken. Dat wil zeggen dat het de waarschijnlijkheid van juiste antwoorden in TopK vergroot, in plaats van dat het de onderliggende capaciteit van het model vergroot.
Hoe kan effectiever RL worden bereikt?
Op basis van het uniforme paradigma stellen de auteurs toekomstige richtingen voor om RL op drie vlakken te verbeteren: gegevensbronnen, algoritmen en beloningsfuncties.
- Gegevensbronnen:
- Verken kwesties die verder gaan dan het SFT-stadium.
- Gebruik geavanceerdere bemonsteringsstrategieën (decoderingsstrategieën), zoals methoden op basis van boomonderzoek.
- Gebruik efficiënte inferentietechnieken om de exploratie-efficiëntie van het beleidsmodel te verbeteren.
- Algoritme:
- Ontdek algoritmen voor reinforcement learning die beter bestand zijn tegen ruisende beloningssignalen.
- Bestudeer methoden voor type-uitlijning van ZWAK TOT STERK.
- Beloningsfunctie:
- Verbeter de generalisatiemogelijkheden van het beloningsmodel om out-of-distributieproblemen en geavanceerde gedecodeerde uitvoer te verwerken.
- Geef uitdrukking aan de onzekerheid van het beloningsmodel en gebruik het als brug om zwakke beloningsmodellen en ZWAK-NAAR-STERK leeralgoritmen te verbinden.
- Bouw efficiënt hoogwaardige procesbeloningsmodellen om gedetailleerde trainingssignalen te leveren voor het inferentieproces.
Samenvatting
DeepSeekMath heeft de mogelijkheden van open source taalmodellen in wiskundig redeneren aanzienlijk verbeterd door een grootschalig wiskundig corpus te construeren en een nieuw reinforcement learning-algoritme voor te stellen. De hoogtepunten van dit artikel zijn:
- de constructie en validatie van het DeepSeekMath Corpus, een grootschalig, hoogwaardig, meertalig wiskundig corpus.
- Er wordt een efficiënt reinforcement learning-algoritme, GRPO, voorgesteld om het geheugengebruik te verminderen en tegelijkertijd het wiskundige redeneervermogen van het model te verbeteren.
- De impact van codetraining op het vermogen tot wiskundig redeneren wordt uitgebreid besproken en het blijkt dat de arXiv-data een beperkt effect hebben. De waarde van DeepSeekMath:
- Het biedt de open source-community een krachtig wiskundig redeneermodel en bevordert de ontwikkeling van wiskundige AI.
- Het biedt waardevolle ervaring en methoden voor het bouwen van wiskundige corpora en het trainen van wiskundige redeneermodellen.
- Het voorgestelde GRPO-algoritme biedt nieuwe ideeën voor reinforcement learning-trainingen in andere vakgebieden.