Vandag wil ek graag 'n artikel van DeepSeek deel, getiteld DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models.

Hierdie artikel stel DeepSeekMath 7B bekend, wat vooraf opgelei is op DeepSeek-Coder-Base-v1.5 7B gebaseer op 'n versameling van 120B wiskunde-verwante tekens, natuurlike taal en kode data.

Die model het 'n verstommende telling van 51.7% in mededingende vlak MATH maatstawwe behaal sonder om op eksterne gereedskapstelle en stemtegnieke staat te maak, wat die prestasievlak van Gemini-Ultra en GPT-4 nader.

DeepSeekMath 7B se wiskundige redenasievermoë word aan twee sleutelfaktore toegeskryf: Eerstens, deur 'n noukeurig ontwerpte dataseleksie-pyplyn, Wiskundeverwante data van hoë gehalte word iteratief ontgin uit publiek beskikbare webdata.

Tweedens, groep relatiewe beleid optimering (GRPO) is bekendgestel, wat 'n variant is van proksimale beleidsoptimering (PPO) wat wiskundige redenasievermoë kan verbeter terwyl die geheuegebruik van PPO geoptimaliseer word.

  1. Die kenmerke van die metode word soos volg opgesom:'n Wiskundige vooropleidingskorpus van hoë gehalte is gebou, en 'n noukeurig ontwerpte pyplyn is gebruik om hoëgehalte wiskundige data van Common Crawl te ontgin.
  2. Die GRPO-algoritme is voorgestel, wat die hulpbronne wat benodig word vir opleiding verminder en die wiskundige redenasievermoë van die model verbeter. 3) Moderne uitvoering was behaal in veelvuldige wiskundige redenasie-maatstaftoetse.

Oorsig

Titel: DeepSeekMath: Verskuif die grense van wiskundige redenering in ooptaalmodelle

URL: klik hier

Skrywers: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y. Wu, Daya Guo

Kode: klik hier

Motivering

Wiskundige redenering stel 'n beduidende uitdaging aan taalmodelle as gevolg van die kompleksiteit en gestruktureerde aard van wiskunde. Die mees gevorderde modelle, soos GPT-4 en Gemini-Ultra, is kragtig, maar nie publiek beskikbaar nie. Daarom is daar aansienlike ruimte vir verbetering in die prestasie van oopbronmodelle.

Kompleksiteit en struktuur: Wiskundige redenering stel 'n beduidende uitdaging aan taalmodelle as gevolg van die kompleksiteit en gestruktureerde aard van wiskunde.

Potensiaal van publieke data: Publiek beskikbare webdata kan ryk wiskundige inligting bevat wat nog ontgin en benut moet word.

Metodes

Data-insameling: 'n DeepSeekMath-korpus van 120B-tokens is saamgestel deur wiskundeverwante webdata van hoë gehalte van Common Crawl deur 'n iteratiewe pyplyn te versamel.

Model opleiding: Die korpus is gebruik vir voor-opleiding bo en behalwe DeepSeek-Coder-Base-v1.5 7B, en die wiskundige instruksie fyninstelling en groep relatiewe beleid optimering (GRPO) algoritme is toegepas.

GRPO algoritme: GRPO is 'n verbeterde versterkingsleeralgoritme wat die Critic-model in PPO verwyder en die basislyn van die groeptelling skat, en sodoende opleidingshulpbronne aansienlik verminder.

Gedetailleerde metodes en prosedures:

Data-insameling en verwerking:

Bou DeepSeekMath Corpus: Met behulp van 'n vinnige teks-gebaseerde klassifiseerder, onttrek 120B wiskunde-verwante tekens van Common Crawl om 'n grootskaalse, voorafopgeleide korpus van hoë gehalte, DeepSeekMath Corpus, te bou.

Iteratiewe datafiltrering: 'n Iteratiewe strategie word gebruik, gebruik OpenWebMath as saaddata om 'n aanvanklike klassifiseerder op te lei, en gebruik dan hierdie klassifiseerder om meer positiewe voorbeelde te ontgin van Common Crawl, wat met die hand geannoteer word om voortdurend die klassifiseerderprestasie te optimaliseer.

Veeltalige kenmerke: DeepSeekMath Corpus bevat meertalige data, wat die model se prestasie op Chinese wiskunde maatstawwe verbeter.

Verwerking van ontsoedeling: De-besoedelingsverwerking word op die opleidingsdata uitgevoer om oorvleueling met die toetsmaatstaf te vermy.

Vooropleiding:

Kode-gebaseerde model inisialisering: Inisialisering met behulp van die DeepSeek-kodeerder-basis-v1.5 7B model is meer effektief gevind as inisialisering vanaf 'n algemene LLM.

Vooropleiding data samestelling: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% Github-kode, 10% Common Crawl natuurlike taaldata.

Vooropleiding parameters: AdamW optimizer word gebruik, met 'n leertempo van 4.2e-4, bondelgrootte van 10M tokens, en opleiding van 500B tokens.

Instruksie fyninstelling:

Konstrueer 'n instruksie verfyn-datastel: Konstrueer 'n wiskundige instruksie verfyn-datastel wat bevat 776K monsters, wat 'n verskeidenheid wiskundige velde en moeilikheidsvlakke dek, insluitend CoT, PoT, en gereedskap-geïntegreerde afleidingsformate vir die oplossing van stappe.

Opleiding parameters: Groepgrootte 256, leertempo 5e-5, oefen vir 500 stappe.

Versterkingsleer – Groep Relatiewe Beleidsoptimalisering (GRPO):

Stel GRPO-algoritme voor: Stel 'n voor PPO variant algoritme GRPO, wat die behoefte aan 'n Kritiek model vermy deur groepsgewyse tellings te gebruik om die basislyn te skat, en sodoende opleidingsbronne te verminder.

Objektiewe funksie: GRPO optimaliseer die beleidsmodel deur 'n objektiewe funksie te maksimeer wat neem die relatiewe voordeel van in-groep uitsette in ag en voeg die KL divergensie direk by as 'n regulariseringsterm.

Voordeel berekening: GRPO bereken die voordeel deur in-groep relatiewe belonings, vermy kruisgroepvergelykings en beter ooreenstemming met die vergelykende aard van die beloningsmodel.

Ondersteun beide uitkoms- en prosesmonitering: GRPO kan beide uitkoms- en prosesmonitering ondersteun, en die beleid meer effektief moniteer deur belonings aan die einde van elke afleidingstap te verskaf.

Iteratiewe RL: Gebruik 'n iteratiewe RL strategie om 'n nuwe opleidingstel gebaseer op die steekproefresultate van die beleidsmodel te genereer, die ou beloningsmodel voortdurend op te lei en die nuwe beloningsmodel te gebruik om die beleidsmodel op te dateer.

Opleidingsdata: Gebruik die CoT-formaat probleme wat verband hou met GSM8K en MATH in die SFT data, ongeveer 144K probleme.

Opleiding parameters: Die leertempo van die beleidsmodel is 1e-6, die KL-koëffisiënt is 0,04, 64 uitsette word vir elke probleem gemonster, die maksimum lengte is 1024, en die opleidingsgroepgrootte is 1024.

Gevolgtrekking

Gevolgtrekking 1:DeepSeekMath 7B presteer beter as alle oopbronmodelle in wiskundige redenasievermoë. In die mededingende MATH-maatstaftoets het DeepSeekMath 7B 'n akkuraatheid van 51.7% behaal, wat naby die prestasievlak van Gemini-Ultra en GPT-4 is.

Gevolgtrekking 2:Goed ontwerpte vooropleidingsdata en GRPO-algoritmes is die sleutel tot die sukses van die model. Die kombinasie van 'n hoë-gehalte wiskundige korpus en GRPO-algoritmes stel die model in staat om aansienlike prestasiewinste in wiskundige redeneringstake te behaal.

Gevolgtrekking 3:Kode-opleiding help om wiskundige redenasievermoë te verbeter. Deur kodedata by die vooropleidingstadium by te voeg, kan die model se vermoë verbeter om wiskundige probleme op te los, beide met en sonder gereedskap.

Gevolgtrekking 4: Beperkte bruikbaarheid van arXiv-data: In teenstelling met vorige oortuigings, is gevind dat die arXiv-data van beperkte hulp was om wiskundige redenasie te verbeter.

Beperking

Meetkunde en bewysvermoëns is relatief swak: Alhoewel DeepSeekMath uitblink in kwantitatiewe redenasie, is sy vermoëns in meetkunde en bewys steeds minderwaardig as geslotebronmodelle. Dit kan wees as gevolg van die bevooroordeelde dataseleksie in die voor-opleiding en fyn-instelling stadiums.

Swakheid in klein monsterkapasiteit: DeepSeekMath is minderwaardig aan GPT-4 in terme van klein steekproefleer, wat as gevolg van die beperking van modelgrootte kan wees.

Meer doeltreffende versterkingsleermetodes is nodig: Alhoewel die versterkingsleermetodes wat in die vraestel voorgestel word effektief is, is daar steeds ruimte vir verbetering, byvoorbeeld hoe om die terugvoer van die beloningsmodel meer effektief te gebruik en hoe om raserige beloningseine te hanteer.

Besonderhede

Versterking Leer Verkenning en Analise

Oorsig:

Bekendstelling van Group Relative Policy Optimization (GRPO): Die referaat stel 'n nuwe versterkingsleeralgoritme, GRPO, voor as 'n variant van Proksimale Beleidsoptimalisering (PPO). Die hoofkenmerk van GRPO is dat dit laat vaar die Critic-model wat algemeen in PPO gebruik word en skat die basislyn deur groeptellings, waardeur die rekenaarhulpbronne wat vir opleiding benodig word, aansienlik verminder word.

GRPO doeltreffendheid demonstrasie: Die referaat demonstreer eksperimenteel dat GRPO kan verbeter effektief die werkverrigting van bevelfynafstellingsmodelle, insluitend beide binne-domein en buite-domein wiskundige take.

Eenvormige raamwerk vir versterkingsleermetodes: Die referaat stel 'n verenigde raamwerk voor om verskillende versterkingsleermetodes te verstaan, soos Verwerpingsteekproefneming fyninstelling (RFT), direkte voorkeuroptimalisering (DPO), PPO en GRPO. Die raamwerk hanteer hierdie metodes as direkte of vereenvoudigde versterkingsleertegnieke.

In-diepte verkenning van die elemente van versterkingsleer: Die referaat ondersoek in diepte sleutelelemente van versterkingsleer, soos aanlyn opleiding en vanlyn opleiding, resultaattoesig en prosestoesig, enkelronde versterkingsleer en iteratiewe versterkingsleer, deur gedetailleerde eksperimente, en som potensiële rigtings op vir die verbetering van die doeltreffendheid van versterkingsleer.

GRPO (Group Relative Policy Optimization) algoritme

Beperkings van PPO: PPO is 'n algemeen gebruikte versterkingsleeralgoritme, maar dit vereis opleiding 'n addisionele Kritiekmodel om die waardefunksie, wat oplê, te skat 'n bykomende rekenaar- en geheuelas. Daarbenewens, in die LLM-scenario, Kritiekmodelopleiding kan ingewikkeld wees omdat dit evaluasie vereis die uitset van elke teken.

GRPO kern idee: Die kerngedagte van GRPO is om laat vaar die Kritiek-model en gebruik eerder die gemiddelde telling van 'n stel uitsette vir dieselfde probleem as 'n basislyn. Hierdie basislyn kan gebruik word om die voordeelfunksie te skat en vir beleidsoptimering. Hierdie benadering verminder die kompleksiteit van opleiding aansienlik.

Voordeel funksie berekening: GRPO bereken die voordeelfunksie deur berekening van die relatiewe rangorde van elke uitset in dieselfde stel uitsette, eerder as om op 'n aparte waardefunksie staat te maak soos in PPO.

KL divergensie straf: GRPO voeg nie 'n KL divergensie boete by die beloning soos PPO nie, maar voeg eerder die KL divergensie tussen die beleid model en die verwysings model direk by die verlies funksie. Dit vermy die komplekse voordeelfunksieberekening.

Die kerngedagte van GRPO

vereis nie 'n Kritiek (waarde funksie): GRPO vermy die behoefte aan 'n waardefunksie en gebruik die binne-groep telling om die basislyn te skat, waardeur opleidingshulpbronne verminder word.

Binne-groep relatiewe voordeel: Vir elke probleem q monster GRPO 'n stel uitsette {o(1), o(2), …, o(G)} uit die ou beleid π(θoud) en optimaliseer dan die beleidsmodel deur die volgende vergelyking as die objektiewe funksie te maksimeer.

Spesifiek:

Die sleutel hier is Â(i,t), wat die voordeel verteenwoordig en bereken word deur die relatiewe beloning van die intragroep-uitset, eerder as om op 'n aparte waardefunksie soos in PPO staat te maak.

Die objektiewe funksie voeg ook direk by KL divergensie as 'n regularisering term om die grootte van te beheer beleidopdaterings

en pas by die vergelykingsaard van die beloningsmodel: GRPO gebruik die relatiewe intragroepbeloning om die voordeel te bereken, wat meer ooreenstem met die aard van die beloningsmodel, wat gewoonlik opgelei word op grond van paarsgewyse vergelyking.

Hoe kan die beloningsmodel van GRPO ontwerp word (verwys na DeepSeek R1)?

Kenmerke:

formaat beloning: dwing die generasie van lank bedjie resultate, wat die model kan stoot om afleidingsprosesse te genereer en die afleidingseffek van die model te verbeter.

akkuraatheid beloning: wiskunde kan die finale resultaat gebruik, en kode kan samesteller-terugvoer gebruik.

Voordele van GRPO

Minder geheue voetspoor: geen Kritiek-model benodig nie, wat geheuevereistes verminder.

Meer doeltreffende opleiding: berekening deur gebruik te maak van intra-groep relatiewe voordeel vereenvoudig die opleidingsproses.

Meer versoenbaar met die aard van beloningsmodelle: verbeter opleidingstabiliteit en doeltreffendheid.

RL Unified Paradigma Opsomming

Eenvormige paradigma voorgestel

Die skrywers stel 'n verenigde paradigma voor om verskillende opleidingsmetodes soos SFT (Supervised Fine-tuning), RFT (Rejection Sampling Fine-tuning), DPO (Direct Preference Optimization), PPO, GRPO, ens. RL Sleutelelemente: Die sleutelelemente van die verenigde raamwerk sluit in: databronne, beloningsfunksies en algoritmes.

  • Databron: Dit verwys na die data wat vir opleiding gebruik word, wat afgelei kan word van handmatige etikettering, SFT-modelle of intydse beleidsmodelle.
  • Beloning funksie: Dit verwys na die funksie wat gebruik word om die kwaliteit van die uitset te evalueer, wat 'n reël of 'n model kan wees.
  • Algoritme: Dit verwys na die metode wat gebruik word om die data en beloningsein te verwerk en die modelparameters op te dateer.

Ontleding van verskillende metodes gebaseer op 'n verenigde paradigma

Tabel 10 som die ooreenkomste en verskille tussen SFT, RFT, DPO, Online RFT, PPO en GRPO op in terme van databronne, beloningsfunksies en gradiëntkoëffisiënte.

MetodeOpleidingsdataBeloning funksieGradiëntkoëffisiëntOpleiding metodeVoordele/kenmerkeToepaslike scenario's
SFTSFT-data met die hand gemerkHandmatig gekies (implisiete beloning)Vasgestel op 1Leer onder toesigEenvoudig en stabiel, afhanklik van hoë kwaliteit gemerkte dataBasiese model opleiding, aanvanklike belyning taak
RFTSFT datastel probleem + SFT model voorbeeld uitsetGebaseer op antwoord korrektheid (reël oordeel)0 (verkeerd) of 1 (korrek)Vanlyn beleidoptimeringDoeltreffende berekening, direkte gebruik van reëlterugvoerWiskundige/logiese take met duidelike reëls
DPOSFT datastel probleem + model uitset naMenslike voorkeuretikettering of reëlvergelykingGebaseer op voorkeurwaarskynlikheidsberekening (bv. Bradley-Terry-model)Vergelyking leerVermy eksplisiete beloningsmodellering, wat voorkeure direk optimaliseerMenslike voorkeurbelyningstake (bv. dialooggenerering)
Aanlyn RFTIntydse beleidsmodelsteekproefneming probleem-uitset pareGebaseer op antwoord korrektheid (reël oordeel)0 (verkeerd) of 1 (korrek)Aanlyn beleidsoptimeringDateer beleide dinamies op met intydse terugvoeroptimaliseringScenario's wat aanlyn interaksie vereis (bv. speletjie-KI)
PPOSFT datastel probleem + beleidsmodelsteekproefuitsetBeloningsmodel (RM) opgeleiDominansie funksie (gebaseer op beloning skatting)BeleidsgradiëntmetodeDoeltreffend en stabiel, ondersteun multi-stap optimaliseringKomplekse take (bv. teksgenerering, robotbeheer)
GRPOSFT-datastelprobleem + beleidsmodelsteekproefuitsetBeloningsmodel (RM) opgeleiIntra-groep relatiewe beloning (genormaliseerde vergelyking)GroepbeleidoptimeringVerminder beloningsafwyking en verbeter intragroepvergelykingTake met hoë variansie (bv. lang teksgenerering)

Waarnemings oor databronne

Aanlyn vs vanlyn opleiding: Aanlyn opleiding verwys na die gebruik van die uitset van die intydse beleidsmodel as opleidingsdata, terwyl vanlyn opleiding verwys na die gebruik van die uitset van 'n vaste model (soos die SFT-model) as opleidingsdata. Eksperimentele resultate toon dit aanlyn opleiding is oor die algemeen beter as vanlyn opleiding.

Uitkomstoesig vs prosestoesig: Uitkomstoesig verwys na die beloning van slegs die finale stap van die uitset, terwyl prosestoesig na die beloning van elke stap van die redenasieproses verwys. Eksperimentele resultate toon dit prosestoesig is meer effektief in komplekse take.

Enkel-episode vs iteratiewe versterkingsleer: Enkel-episode versterkingsleer verwys na 'n enkele strategie-optimering, terwyl iteratiewe versterkingsleer verwys na die voortdurende opdatering van die beloningsmodel na verskeie strategie-optimalisasies. Eksperimentele resultate toon dit iteratiewe versterkingsleer kan prestasie aansienlik verbeter, veral in die eerste iterasie.

Waarneming van gradiëntkoëffisiënte

Reëlgegrond vs. modelgebaseer: Reël verwys na die bepaling van die beloning gebaseer op die korrektheid van die antwoord, en Model verwys na die opleiding van 'n beloningsmodel om te score.

Verskil in gradiëntkoëffisiënte: Die belangrikste verskil tussen GRPO en Aanlyn RFT is dat GRPO sy gradiëntkoëffisiënte aanpas op grond van die beloningswaardes wat deur die beloningsmodel verskaf word, terwyl Online RFT dit nie doen nie.

GRPO voordele: Eksperimente wys dit GRPO is beter as Online RFT, wat die doeltreffendheid van die verandering van die teken van die gradiëntkoëffisiënte demonstreer. GRPO+PS is beter as GRPO+OS, wat die voordele van die gebruik van fynkorrelige, stapbewuste gradiëntkoëffisiënte demonstreer.

RL-effektiwiteit en aanwysings vir verbetering

Hoekom is RL effektief?

Eksperimentele resultate: RL verbeter Maj@K prestasie maar nie Pass@K nie.

Verduideliking: RL verbeter die algehele prestasie van die model deur die uitsetverspreiding meer robuust te maak, dws dit verbeter die waarskynlikheid van korrekte antwoorde in TopK, eerder as om die onderliggende vermoë van die model te verbeter.

Hoe kan meer effektiewe RL bereik word?

Op grond van die verenigde paradigma, stel die skrywers toekomstige rigtings voor vir die verbetering van RL in drie aspekte: databronne, algoritmes en beloningsfunksies.

  • Databronne:
    • Verken kwessies buite die SFT-stadium.
    • Gebruik meer gevorderde steekproefneming (dekodering) strategieë, soos boomsoek-gebaseerde metodes.
    • Gebruik doeltreffende afleidingstegnieke om die eksplorasiedoeltreffendheid van die beleidsmodel te verbeter.
  • Algoritme:
    • Verken versterkingsleeralgoritmes wat meer robuust is vir lawaaierige beloningseine.
    • Bestudeer SWAK-NA-STERK tipe belyningsmetodes.
  • Beloning funksie:
    • Verbeter die veralgemeningsvermoë van die beloningsmodel om probleme met buite-verspreiding en gevorderde gedekodeerde uitsette te hanteer.
    • Weerspieël die onsekerheid van die beloningsmodel en gebruik dit as 'n brug om swak beloningsmodelle en SWAK-TOT-STERK leeralgoritmes te verbind.
    • Konstrueer prosesbeloningsmodelle van hoë gehalte doeltreffend om fynkorrelige opleidingseine vir die afleidingsproses te verskaf.

Opsomming

DeepSeekMath het die vermoë van oopbrontaalmodelle in wiskundige redenering aansienlik verbeter deur 'n grootskaalse wiskundige korpus te konstrueer en 'n nuwe versterkingsleeralgoritme voor te stel. Die hoogtepunte van hierdie vraestel is

  • die konstruksie en validering van die DeepSeekMath Corpus, 'n grootskaalse, hoëgehalte, veeltalige wiskundige korpus.
  • ’n Doeltreffende versterkingsleeralgoritme, GRPO, word voorgestel om geheuegebruik te verminder terwyl die wiskundige redenasievermoë van die model verbeter word.
  • Die impak van kode-opleiding op wiskundige redenasievermoë word in diepte bespreek, en daar word gevind dat die arXiv-data 'n beperkte effek het. Die waarde van DeepSeekMath:
  • Dit voorsien die oopbrongemeenskap van 'n kragtige wiskundige redenasiemodel en bevorder die ontwikkeling van wiskundige KI.
  • Dit bied waardevolle ondervinding en metodes vir die bou van wiskundige korpusse en opleiding van wiskundige redenasiemodelle.
  • Die voorgestelde GRPO-algoritme verskaf nuwe idees vir versterkingsleeropleiding in ander velde.

Soortgelyke plasings

Maak 'n opvolg-bydrae

Jou e-posadres sal nie gepubliseer word nie. Verpligte velde word met * aangedui