Hemmeligheden bag DeepSeek 1 | DeepSeekMath og GRPO detaljer

I dag vil jeg gerne dele en artikel fra DeepSeek, med titlen DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models.

Denne artikel introducerer DeepSeekMath 7B, som er fortrænet på DeepSeek-Coder-Base-v1.5 7B baseret på en samling af 120B matematik-relaterede tokens, naturligt sprog og kodedata.

Modellen opnåede en forbløffende score på 51,7% i MATH-benchmarks på konkurrenceniveau uden at stole på eksterne værktøjssæt og afstemningsteknikker, og nærmede sig præstationsniveauet for Gemini-Ultra og GPT-4.

DeepSeekMath 7B's matematiske ræsonnementevne tilskrives to nøglefaktorer: For det første gennem en omhyggeligt designet dataudvælgelsespipeline, matematikrelaterede data af høj kvalitet udvindes iterativt fra offentligt tilgængelige webdata.

For det andet er gruppe relativ politik optimering (GRPO). introduceret, som er en variant af proksimal politikoptimering (PPO), der kan forbedre matematisk ræsonnement og samtidig optimere hukommelsesbrugen af PPO.

Metodens funktioner er opsummeret som følger:Et matematisk fortræningskorpus af høj kvalitet blev konstrueret, og en omhyggeligt designet rørledning blev brugt til at mine matematiske data af høj kvalitet fra Common Crawl.
GRPO-algoritmen blev foreslået, hvilket reducerer de nødvendige ressourcer til træning og forbedrer modellens matematiske ræsonnement. 3) State-of-the-art præstation var opnået i flere matematiske ræsonnement benchmark tests.

Oversigt

Titel: DeepSeekMath: At skubbe grænserne for matematisk ræsonnement i åbne sprogmodeller

URL: klik her

Forfattere: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y. Wu, Daya Guo

Kode: klik her

Motivering

Matematisk ræsonnement udgør en væsentlig udfordring for sprogmodeller på grund af matematikkens kompleksitet og strukturerede karakter. De mest avancerede modeller, såsom GPT-4 og Gemini-Ultra, er kraftfulde, men ikke offentligt tilgængelige. Derfor er der betydelig plads til forbedringer i udførelsen af open source-modeller.

Kompleksitet og struktur: Matematisk ræsonnement udgør en væsentlig udfordring for sprogmodeller på grund af matematikkens kompleksitet og strukturerede karakter.

Offentlige datas potentiale: Offentligt tilgængelige webdata kan indeholde rig matematisk information, som endnu ikke er blevet udvundet og brugt.

Metoder

Dataindsamling: Et DeepSeekMath-korpus af 120B tokens blev konstrueret ved at indsamle matematiske relaterede webdata af høj kvalitet fra Common Crawl gennem en iterativ pipeline.

Modeltræning: Korpuset blev brugt til fortræning oven på DeepSeek-Coder-Base-v1.5 7B, og den matematiske instruktionsfinjustering og GRPO-algoritme (Group Relative Policy Optimization) blev anvendt.

GRPO algoritme: GRPO er en forbedret forstærkningslæringsalgoritme, der fjerner Critic-modellen i PPO og estimerer basislinjen fra gruppescore, og derved reducerer træningsressourcerne betydeligt.

Detaljerede metoder og procedurer:

Dataindsamling og behandling:

Byg DeepSeekMath Corpus: Ved hjælp af en fastText-baseret klassificering, udtrække 120B matematik-relaterede tokens fra Common Crawl til at bygge et fortrænet korpus af høj kvalitet i stor skala, DeepSeekMath Corpus.

Iterativ datafiltrering: Der anvendes en iterativ strategi, ved at bruge OpenWebMath som basisdata til at træne en indledende klassifikator og derefter bruge denne klassifikator til at udvinde flere positive eksempler fra Common Crawl, som er manuelt kommenteret for løbende at optimere klassificeringens ydeevne.

Flersprogede funktioner: DeepSeekMath Corpus indeholder flersprogede data, som forbedrer modellens ydeevne på kinesiske matematiske benchmarks.

Behandling af forurening: af-forureningsbehandling udføres på træningsdataene for at undgå overlapning med testbenchmark.

Fortræning:

Kodebaseret modelinitialisering: Initialisering ved hjælp af DeepSeek-Coder-Base-v1.5 7B model viste sig at være mere effektiv end initialisering fra en generel LLM.

Fortræningsdatasammensætning: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% Github-kode, 10% Common Crawl naturlige sprogdata.

Fortræningsparametre: AdamW optimizer bruges med en indlæringshastighed på 4.2e-4, batchstørrelse på 10M tokens og træning af 500B tokens.

Finjustering af instruktion:

Konstruer et instruktionsfinjusteringsdatasæt: Konstruer et matematisk instruktions finjusteringsdatasæt indeholdende 776.000 prøver, der dækker en række matematiske felter og sværhedsgrader, herunder CoT, PoT og værktøjsintegrerede inferensformater til løsning af trin.

Træningsparametre: Batchstørrelse 256, indlæringshastighed 5e-5, træne i 500 trin.

Forstærkende læring – Group Relative Policy Optimization (GRPO):

Foreslå GRPO-algoritme: Foreslå en PPO variant algoritme GRPO, som undgår behovet for en kritikermodel ved at bruge gruppevise scores til at estimere basislinjen og derved reducere træningsressourcer.

Objektiv funktion: GRPO optimerer politikmodellen ved at maksimere en objektiv funktion, der tager højde for den relative fordel ved in-group output og tilføjer direkte KL divergensen som et regulariseringsudtryk.

Fordelsberegning: GRPO beregner fordelen igennem relative belønninger i grupper, undgå sammenligninger på tværs af grupper og bedre overensstemmelse med belønningsmodellens komparative karakter.

Understøtter både resultat- og procesovervågning: GRPO kan understøtte både resultat- og procesovervågning og mere effektivt overvåge politikken ved at give belønninger i slutningen af hvert slutningstrin.

Iterativ RL: Bruger en iterativ RL-strategi at generere et nyt træningssæt baseret på stikprøveresultaterne af politikmodellen, løbende træne den gamle belønningsmodel og bruge den nye belønningsmodel til at opdatere politikmodellen.

Træningsdata: Bruger CoT-formatproblemerne relateret til GSM8K og MATH i SFT-dataene, omkring 144K problemer.

Træningsparametre: Læringshastigheden for politikmodellen er 1e-6, KL-koefficienten er 0,04, 64 outputs er samplet for hvert problem, den maksimale længde er 1024, og træningsbatchstørrelsen er 1024.

Konklusion

Konklusion 1:DeepSeekMath 7B overgår alle open source-modeller i matematisk ræsonnement. I den konkurrencedygtige MATH benchmark test opnåede DeepSeekMath 7B en nøjagtighed på 51.7%, hvilket er tæt på præstationsniveauet for Gemini-Ultra og GPT-4.

Konklusion 2:Veldesignede fortræningsdata og GRPO-algoritmer er nøglen til modellens succes. Kombinationen af et matematisk korpus af høj kvalitet og GRPO-algoritmer gør det muligt for modellen at opnå betydelige præstationsgevinster i matematiske ræsonnementopgaver.

Konklusion 3:Kodetræning hjælper med at forbedre matematisk ræsonnement. Tilføjelse af kodedata til fortræningsstadiet kan forbedre modellens evne til at løse matematiske problemer, både med og uden værktøjer.

Konklusion 4: Begrænset anvendelighed af arXiv-data: I modsætning til tidligere antagelser viste arXiv-dataene sig at være til begrænset hjælp til at forbedre matematisk ræsonnement.

Begrænsning

Geometri og bevisevne er relativt svage: Selvom DeepSeekMath udmærker sig i kvantitativ ræsonnement, er dens muligheder inden for geometri og bevis stadig ringere end lukkede kildemodeller. Dette kan skyldes det skæve datavalg i fortrænings- og finjusteringsstadierne.

Svaghed i lille prøvekapacitet: DeepSeekMath er ringere end GPT-4 med hensyn til indlæring af små prøver, hvilket kan skyldes begrænsningen af modelstørrelsen.

Der er behov for mere effektive forstærkende læringsmetoder: Selvom de forstærkende læringsmetoder, der foreslås i papiret, er effektive, er der stadig plads til forbedringer, for eksempel hvordan man kan udnytte feedbacken fra belønningsmodellen mere effektivt, og hvordan man håndterer støjende belønningssignaler.

Detaljer

Forstærkende læringsudforskning og analyse

Oversigt:

Introduktion af Group Relative Policy Optimization (GRPO): Papiret foreslår en ny forstærkningslæringsalgoritme, GRPO, som en variant af Proximal Policy Optimization (PPO). Hovedtræk ved GRPO er, at det opgiver Critic-modellen, der almindeligvis bruges i PPO, og estimerer basislinjen gennem gruppescore, hvorved de beregningsmæssige ressourcer, der kræves til træning, reduceres.

GRPO effektivitet demonstration: Papiret demonstrerer eksperimentelt, at GRPO kan effektivt forbedre ydeevnen af kommandofinjusteringsmodeller, herunder matematiske opgaver inden for domænet og uden for domænet.

Samlet ramme for forstærkende læringsmetoder: Papiret foreslår en samlet ramme for forståelse af forskellige forstærkende læringsmetoder, som f.eks Rejection Sampling Fine-Tuning (RFT), Direct Preference Optimization (DPO), PPO og GRPO. Rammen behandler disse metoder som direkte eller forenklede forstærkningslæringsteknikker.

Dybdegående udforskning af elementerne i forstærkningslæring: Papiret går i dybden nøgleelementer i forstærkningslæring, såsom onlinetræning og offlinetræning, resultatsupervision og processupervision, single-round forstærkningslæring og iterativ forstærkningslæring, gennem detaljerede eksperimenter, og opsummerer potentielle retninger for at forbedre effektiviteten af forstærkningslæring.

GRPO (Group Relative Policy Optimization) algoritme

Begrænsninger af PPO: PPO er en almindeligt anvendt forstærkningslæringsalgoritme, men det kræver træning en yderligere kritikermodel at estimere værdifunktionen, som pålægger en ekstra beregnings- og hukommelsesbyrde. Derudover, i LLM-scenariet, Kritikermodeltræning kan være kompliceret, fordi det kræver evaluering output af hver token.

GRPO kerneidé: Kernen i GRPO er at opgive kritikermodellen og i stedet bruge den gennemsnitlige score for et sæt output for det samme problem som en baseline. Denne baseline kan bruges til at estimere fordelsfunktionen og til politikoptimering. Denne tilgang reducerer træningens kompleksitet betydeligt.

Fordel funktionsberegning: GRPO beregner fordelsfunktionen ved at beregne den relative rangering af hvert output i det samme sæt af output, i stedet for at stole på en separat værdifunktion som i PPO.

KL divergens straf: GRPO tilføjer ikke en KL-divergensstraf til belønningen ligesom PPO, men tilføjer i stedet KL-divergensen mellem policy-modellen og referencemodellen direkte til tabsfunktionen. Dette undgår den komplekse fordelsfunktionsberegning.

Kernen i GRPO

kræver ikke en kritiker (værdifunktion): GRPO undgår behovet for en værdifunktion og bruger scoren inden for gruppen til at estimere basislinjenog derved reducere træningsressourcerne.

Relativ fordel inden for gruppen: For hvert problem q sampler GRPO et sæt af output {o(1), o(2), …, o(G)} fra den gamle politik π(θold) og optimerer derefter politikmodellen ved at maksimere den følgende ligning som den objektive funktion.

Specifikt:

Nøglen her er Â(i,t), som repræsenterer fordelen og beregnes af relativ belønning af det interne output, i stedet for at stole på en separat værdifunktion som i PPO.

Den objektive funktion tilføjer også direkte KL divergens som et regulariseringsbegreb til at kontrollere størrelsen af politikopdateringer

og tilpasse sig belønningsmodellens sammenligningskarakter: GRPO bruger den relative intragruppebelønning til at beregne fordelen, hvilket er mere i overensstemmelse med belønningsmodellens karakter, som normalt trænes baseret på parvis sammenligning.

Hvordan kan belønningsmodellen af GRPO designes (se DeepSeek R1)?

Funktioner:

format belønning: tvinger generation af lange barneseng resultater, som kan skubbe modellen til at generere slutningsprocesser og forbedre slutningseffekten af modellen.

nøjagtighedsbelønning: matematik kan bruge det endelige resultat, og kode kan bruge compiler feedback.

Fordele ved GRPO

Mindre hukommelsesfodaftryk: ingen Critic-model påkrævet, hvilket reducerer hukommelseskravene.

Mere effektiv træning: beregning ved hjælp af intra-gruppe relativ fordel forenkler træningsprocessen.

Mere kompatibel med karakteren af belønningsmodeller: forbedrer træningens stabilitet og effektivitet.

RL Unified Paradigm Summary

Forenet paradigme foreslået

Forfatterne foreslår et samlet paradigme for at forstå forskellige træningsmetoder såsom SFT (Supervised Fine-tuning), RFT (Rejection Sampling Fine-tuning), DPO (Direct Preference Optimization), PPO, GRPO osv. RL Nøgleelementer: Nøgleelementerne i den forenede ramme omfatter: datakilder, belønningsfunktioner og algoritmer.

Datakilde: Dette refererer til de data, der bruges til træning, som kan udledes af manuel mærkning, SFT-modeller eller realtidspolitikmodeller.
Belønningsfunktion: Dette refererer til den funktion, der bruges til at evaluere kvaliteten af outputtet, som kan være en regel eller en model.
Algoritme: Dette refererer til den metode, der bruges til at behandle data- og belønningssignalet og opdatere modelparametrene.

Analyse af forskellige metoder baseret på et samlet paradigme

Tabel 10 opsummerer lighederne og forskellene mellem SFT, RFT, DPO, Online RFT, PPO og GRPO med hensyn til datakilder, belønningsfunktioner og gradientkoefficienter.

Metode	Træningsdata	Belønningsfunktion	Gradientkoefficient	Træningsmetode	Fordele/funktioner	Gældende scenarier
SFT	Manuelt mærkede SFT-data	Manuelt valgt (implicit belønning)	Fast til 1	Superviseret læring	Enkel og stabil, afhængig af mærkede data af høj kvalitet	Grundlæggende modeltræning, indledende opretningsopgave
RFT	SFT datasæt problem + SFT model eksempel output	Baseret på svarets rigtighed (regelbedømmelse)	0 (forkert) eller 1 (korrekt)	Offline politikoptimering	Effektiv beregning, direkte brug af regelfeedback	Matematiske/logiske opgaver med klare regler
DPO	SFT datasæt problem + model output til	Menneskelig præferencemærkning eller regelsammenligning	Baseret på præferencesandsynlighedsberegning (f.eks. Bradley-Terry-modellen)	Sammenligningslæring	Undgår eksplicit belønningsmodellering, direkte optimering af præferencer	Opgaver til tilpasning af menneskelige præferencer (f.eks. dialoggenerering)
Online RFT	Sampling af politikmodel i realtid problem-output-par	Baseret på svarets rigtighed (regelbedømmelse)	0 (forkert) eller 1 (korrekt)	Online politikoptimering	Opdaterer politikker dynamisk med feedback-optimering i realtid	Scenarier, der kræver online interaktion (f.eks. spil-AI)
PPO	SFT datasæt problem + stikprøveudbytte af politikmodel	Belønningsmodel (RM) trænet	Dominansfunktion (baseret på belønningsestimering)	Politik gradient metode	Effektiv og stabil, understøtter flertrinsoptimering	Komplekse opgaver (f.eks. tekstgenerering, robotstyring)
GRPO	SFT datasæt problem + politik model stikprøve output	Belønningsmodel (RM) trænet	Intra-gruppe relativ belønning (normaliseret sammenligning)	Gruppepolitikoptimering	Reducer belønningsvarians og forbedre sammenligning inden for grupper	Opgaver med høj varians (f.eks. lang tekstgenerering)

Observationer af datakilder

Online vs offline træning: Online træning refererer til at bruge output fra realtidspolitikmodellen som træningsdata, mens offline træning refererer til at bruge output fra en fast model (såsom SFT-modellen) som træningsdata. Det viser eksperimentelle resultater online træning er generelt bedre end offline træning.

Resultat supervision vs proces supervision: Resultattilsyn refererer til kun at belønne det sidste trin af outputtet, mens procestilsyn refererer til at belønne hvert trin i ræsonnementsprocessen. Det viser eksperimentelle resultater procestilsyn er mere effektivt i komplekse opgaver.

Enkelt-episode vs iterativ forstærkningslæring: Enkelt-episode forstærkningslæring refererer til en enkelt strategioptimering, mens iterativ forstærkningslæring refererer til den løbende opdatering af belønningsmodellen efter flere strategioptimeringer. Det viser eksperimentelle resultater iterativ forstærkningslæring kan forbedre ydeevnen betydeligt, især i den første iteration.

Observation af gradientkoefficienter

Regelbaseret vs. modelbaseret: Regel refererer til at bestemme belønningen baseret på rigtigheden af svaret, og Model henviser til at træne en belønningsmodel til at score.

Forskel i gradientkoefficienter: Den vigtigste forskel mellem GRPO og Online RFT er, at GRPO justerer sine gradientkoefficienter baseret på belønningsværdierne leveret af belønningsmodellen, mens Online RFT ikke gør det.

GRPO fordele: Det viser eksperimenter GRPO er overlegen i forhold til Online RFT, hvilket viser effektiviteten af at ændre fortegnet for gradientkoefficienterne. GRPO+PS er overlegen i forhold til GRPO+OS og demonstrerer fordelene ved at bruge finkornede, trinbevidste gradientkoefficienter.

RL-effektivitet og vejledning til forbedring

Hvorfor er RL effektiv?

Eksperimentelle resultater: RL forbedrer Maj@K ydeevne, men ikke Pass@K.

Forklaring: RL forbedrer modellens overordnede ydeevne ved at gøre outputfordelingen mere robust, dvs. den forbedrer sandsynligheden for korrekte svar i TopK i stedet for at forbedre modellens underliggende evne.

Hvordan kan mere effektiv RL opnås?

Baseret på det forenede paradigme foreslår forfatterne fremtidige retninger for at forbedre RL i tre aspekter: datakilder, algoritmer og belønningsfunktioner.

Datakilder:
- Udforsk problemer ud over SFT-stadiet.
- Brug mere avancerede sampling (afkodning) strategier, såsom træsøgning-baserede metoder.
- Brug effektive slutningsteknikker til at forbedre udforskningseffektiviteten af politikmodellen.
Algoritme:
- Udforsk forstærkningslæringsalgoritmer, der er mere robuste over for støjende belønningssignaler.
- Undersøg SWAG-TIL-STÆRK type justeringsmetoder.
Belønningsfunktion:
- Forbedre belønningsmodellens generaliseringsevne til at håndtere problemer uden for distribution og avancerede afkodede output.
- Afspejle usikkerheden i belønningsmodellen og brug den som en bro til at forbinde svage belønningsmodeller og SVAG TIL STÆRK læringsalgoritmer.
- Konstruer effektivt procesbelønningsmodeller af høj kvalitet for at give finkornede træningssignaler til slutningsprocessen.

Sammenfatning

DeepSeekMath har væsentligt forbedret evnen til open source sprogmodeller i matematisk ræsonnement ved at konstruere et matematisk korpus i stor skala og foreslå en ny forstærkende læringsalgoritme. Højdepunkterne i dette papir er

konstruktionen og valideringen af DeepSeekMath Corpus, et storstilet, højkvalitets, flersproget matematisk korpus.
En effektiv forstærkningsindlæringsalgoritme, GRPO, foreslås for at reducere hukommelsesforbrug og samtidig forbedre modellens matematiske ræsonnement.
Indvirkningen af kodetræning på matematisk ræsonneringsevne diskuteres i dybden, og det konstateres, at arXiv-dataene har en begrænset effekt. Værdien af DeepSeekMath:
Det giver open source-fællesskabet en kraftfuld matematisk ræsonnementmodel og fremmer udviklingen af matematisk AI.
Det giver værdifuld erfaring og metoder til opbygning af matematiske korpora og træning af matematiske ræsonnementmodeller.
Den foreslåede GRPO-algoritme giver nye ideer til forstærkende læringstræning på andre områder.

Hemmeligheden bag DeepSeek 1 | DeepSeekMath og GRPO detaljer