Täna tahaksin jagada DeepSeek artiklit pealkirjaga DeepSeekMath: Matemaatilise arutluse piiride lükkamine avatud keelemudelites.
See artikkel tutvustab DeepSeekMath 7B, mis on eelkoolitatud DeepSeek-Coder-Base-v1.5 7B põhjal 120B matemaatikaga seotud žetoonide, loomuliku keele ja koodiandmete kogu.
Mudel saavutas hämmastava tulemuse 51,7% konkurentsitasemel matemaatika võrdlusalustes ilma välistele tööriistakomplektidele ja hääletustehnikatele tuginemata, lähenedes Gemini-Ultra ja GPT-4 jõudlustasemele.
DeepSeekMath 7B matemaatilist arutlusvõimet seostatakse kahe võtmeteguriga: esiteks hoolikalt kavandatud andmevaliku torujuhe, kaevandatakse avalikult kättesaadavatest veebiandmetest iteratiivselt kvaliteetseid matemaatikaga seotud andmeid.
Teiseks on grupi suhteline poliitika optimeerimine (GRPO). kasutusele, mis on proksimaalse poliitika optimeerimise (PPO) variant, mis võib parandada matemaatilist arutlusvõimet, optimeerides samal ajal PPO mälukasutust.
- Meetodi omadused on kokku võetud järgmiselt:Kvaliteetne matemaatiline eelkoolituskorpus ehitati ja Common Crawli kvaliteetsete matemaatiliste andmete kaevandamiseks kasutati hoolikalt kavandatud torujuhet.
- GRPO algoritm pakuti välja, mis vähendab koolituseks vajalikke ressursse ja parandab mudeli matemaatilist arutlusvõimet. 3) Tipptasemel esitus oli saavutatud mitme matemaatilise arutluse võrdlustestiga.
Ülevaade
Pealkiri: DeepSeekMath: avatud keelemudelite matemaatilise arutlemise piiride nihutamine
URL: klõpsake siin
Autorid: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y. Wu, Daya Guo
Kood: klõpsake siin
Motivatsioon
Matemaatiline arutluskäik seab keelemudelitele matemaatika keerukuse ja struktureeritud olemuse tõttu olulise väljakutse. Kõige arenenumad mudelid, nagu GPT-4 ja Gemini-Ultra, on võimsad, kuid pole avalikult kättesaadavad. Seetõttu on jõudluses palju arenguruumi avatud lähtekoodiga mudelid.
Keerukus ja struktuur: Matemaatiline arutluskäik seab keelemudelitele matemaatika keerukuse ja struktureeritud olemuse tõttu olulise väljakutse.
Avalike andmete potentsiaal: Avalikult kättesaadavad veebiandmed võivad sisaldada rikkalikku matemaatilist teavet, mida tuleb veel kaevandada ja kasutada.
meetodid
Andmete kogumine: 120B märgist koosnev DeepSeekMathi korpus koostati Common Crawli kvaliteetsete matemaatikaga seotud veebiandmete kogumise teel iteratiivse konveieri kaudu.
Modellikoolitus: Korpust kasutati eeltreeninguks DeepSeek-Coder-Base-v1.5 7B peal ning rakendati matemaatiliste juhiste peenhäälestuse ja rühma suhtelise poliitika optimeerimise (GRPO) algoritmi.
GRPO algoritm: GRPO on täiustatud õppimisalgoritm, mis eemaldab PPO-s kriitikumudeli ja hindab rühma skoori baasväärtust, vähendades seeläbi oluliselt koolitusressursse.
Üksikasjalikud meetodid ja protseduurid:
Andmete kogumine ja töötlemine:

Ehitage DeepSeekMath korpus: FastText-põhist klassifikaatorit kasutades ekstraheerige 120B matemaatikaga seotud märke Common Crawlilt suuremahulise kvaliteetse eelkoolitatud korpuse DeepSeekMath korpuse loomiseks.
Iteratiivne andmete filtreerimine: Kasutatakse iteratiivset strateegiat, OpenWebMathi kasutamine algandmetena esialgse klassifikaatori koolitamiseks ja seejärel selle klassifikaatori kasutamine positiivsemate näidete kaevandamiseks Common Crawlilt, mis on klassifikaatori jõudluse pidevaks optimeerimiseks käsitsi lisatud.
Mitmekeelsed funktsioonid: DeepSeekMath Corpus sisaldab mitmekeelsed andmed, mis parandab mudeli jõudlust Hiina matemaatika võrdlusalustel.
Reostuse eemaldamise töötlemine: De-saastetöötlus viiakse läbi koolitusandmetega, et vältida kattumist katse võrdlusalusega.
Eelkoolitus:
Koodipõhine mudeli lähtestamine: Initsialiseerimine kasutades DeepSeek-Coder-Base-v1.5 7B mudel leiti olevat tõhusam kui initsialiseerimine üldisest LLM-ist.
Koolituseelsete andmete koosseis: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% Githubi kood, 10% Common Crawl loomuliku keele andmed.
Koolituseelsed parameetrid: Kasutatakse AdamW optimeerijat, mille õppimiskiirus on 4.2e-4, partii suurus 10M žetoone ja koolitus 500B žetoone.
Juhendi peenhäälestus:
Koostage juhiste peenhäälestuse andmekogum: Koostage matemaatiliste käskude peenhäälestuse andmestik, mis sisaldab 776K näidist, mis hõlmab mitmesuguseid matemaatilisi valdkondi ja raskusastmeid, sealhulgas CoT, PoT ja tööriistadega integreeritud järeldusvormingud sammude lahendamiseks.
Treeningu parameetrid: Partii suurus 256, õppimiskiirus 5e-5, treenige 500 sammu.
Õppimise tugevdamine – grupi suhtelise poliitika optimeerimine (GRPO):
Paku välja GRPO algoritm: Tee ettepanek a PPO variandi algoritm GRPO, mis väldib kriitikumudeli vajadust, kasutades lähtetaseme hindamiseks rühmapõhiseid skoori, vähendades seeläbi koolitusressursse.
Objektiivne funktsioon: GRPO optimeerib poliitikamudelit, maksimeerides eesmärgifunktsiooni, mis võtab arvesse rühmasiseste väljundite suhtelist eelist ja lisab KL-i lahknemise otse regulatsiooniterminina.
Eelise arvutamine: GRPO arvutab eelise läbi grupisisesed suhtelised preemiad, vältides rühmadevahelisi võrdlusi ja paremini vastates preemiamudeli võrdlevale olemusele.
Toetab nii tulemuste kui ka protsessi jälgimist: GRPO saab toetada nii tulemuste kui ka protsesside jälgimist ning poliitikat tõhusamalt jälgida pakkudes iga järeldusetapi lõpus preemiaid.
Iteratiivne RL: Kasutab an iteratiivne RL strateegia luua poliitikamudeli valimitulemuste põhjal uus koolituskomplekt, koolitada pidevalt vana preemiamudelit ja kasutada uut preemiamudelit poliitikamudeli värskendamiseks.
Treeningu andmed: Kasutab SFT andmetes GSM8K ja MATH-ga seotud CoT-vormingu probleeme, umbes 144K probleeme.
Treeningu parameetrid: Poliitikamudeli õppemäär on 1e-6, KL koefitsient on 0,04, iga ülesande jaoks valitakse 64 väljundit, maksimaalne pikkus on 1024 ja koolituspartii suurus on 1024.
Kokkuvõte

Järeldus 1:DeepSeekMath 7B ületab matemaatilise arutlusvõime poolest kõiki avatud lähtekoodiga mudeleid. Võistlusvõimelises MATH võrdlustestis saavutas DeepSeekMath 7B täpsuse 51,7%, mis on lähedane Gemini-Ultra ja GPT-4 jõudlustasemele.
2. järeldus:Mudeli edu võtmeks on hästi läbimõeldud koolituseelsed andmed ja GRPO algoritmid. Kvaliteetse matemaatilise korpuse ja GRPO algoritmide kombinatsioon võimaldab mudelil saavutada matemaatilistes arutlusülesannetes olulist jõudlust.
Järeldus 3:Koodiõpe aitab parandada matemaatilist arutlusvõimet. Koodiandmete lisamine eelõppe etapile võib parandada mudeli võimet lahendada matemaatilisi ülesandeid nii tööriistadega kui ka ilma.
4. järeldus: arXivi andmete piiratud kasulikkus: Vastupidiselt varasematele uskumustele leiti, et arXivi andmetel on matemaatilise arutluskäigu parandamisel vähe abi.
Piirang
Geomeetria ja tõestusvõimalused on suhteliselt nõrgad: Kuigi DeepSeekMath paistab silma kvantitatiivse arutluskäiguga, on selle geomeetria ja tõestusvõimed siiski madalamad kui suletud lähtekoodiga mudelid. See võib olla tingitud eeltreeningu ja peenhäälestuse etapis kallutatud andmete valikust.
Väikese proovimahu nõrkus: DeepSeekMath on väikese valimi õppimise osas madalam kui GPT-4, mis võib olla tingitud mudeli suuruse piiratusest.
Vaja on tõhusamaid tugevdamisõppe meetodeid: Kuigi töös välja pakutud tugevdamisõppe meetodid on tõhusad, on veel arenguruumi, näiteks kuidas preemiamudelist saadavat tagasisidet efektiivsemalt ära kasutada ja kuidas toime tulla mürarikaste preemiasignaalidega.
Üksikasjad
Tugevdamise õppimise uurimine ja analüüs
Ülevaade:
Grupi suhtelise poliitika optimeerimise (GRPO) tutvustus: Dokumendis pakutakse proksimaalse poliitika optimeerimise (PPO) ühe variandina välja uus tugevdusõppe algoritm GRPO. GRPO peamine omadus on see loobub PPO-s tavaliselt kasutatavast kriitikumudelist ja hindab baasjoont rühmaskooride kaudu, vähendades sellega oluliselt koolituseks vajalikke arvutusressursse.
GRPO tõhususe demonstratsioon: Paber näitab eksperimentaalselt, et GRPO suudab parandada tõhusalt käskude peenhäälestusmudelite toimivust, sealhulgas nii domeenisiseseid kui ka -väliseid matemaatilisi ülesandeid.
Tugevdatavate õppemeetodite ühtne raamistik: Töös pakutakse välja ühtne raamistik erinevate tugevdamisõppe meetodite mõistmiseks, nt Tagasilükkamise proovivõtu peenhäälestus (RFT), otsene eelistuste optimeerimine (DPO), PPO ja GRPO. Raamistik käsitleb neid meetodeid otseste või lihtsustatud tugevdamisõppe tehnikatena.
Tugevdusõppe elementide põhjalik uurimine: Paber uurib põhjalikult tugevdava õppe põhielemendid, nagu veebipõhine koolitus ja võrguväline koolitus, tulemuste järelevalve ja protsesside juhendamine, ühevooruline tugevdusõpe ja iteratiivne tugevdav õpe, läbi üksikasjalike katsete ja võtab kokku võimalikud suunad tugevdava õppe tõhususe parandamiseks.
GRPO (Group Relative Policy Optimization) algoritm

Piirangud PPO: PPO on tavaliselt kasutatav tugevdusõppe algoritm, kuid see nõuab koolitust Täiendav kriitikumudel väärtuse funktsiooni hindamiseks, mis kehtestab täiendav arvutus- ja mälukoormus. Lisaks LLM-i stsenaariumi korral Kriitilise mudeli koolitus võib olla keeruline, kuna see nõuab hindamist iga märgi väljund.
GRPO põhiidee: GRPO põhiidee on loobuma kriitikumudelist ja kasutama selle asemel sama probleemi väljundikomplekti keskmist tulemust lähtetasemena. Seda baasjoont saab kasutada eelisfunktsiooni hindamiseks ja poliitika optimeerimiseks. Selline lähenemine vähendab oluliselt koolituse keerukust.
Eelisfunktsiooni arvutamine: GRPO arvutab eelisfunktsiooni järgmiselt arvutades iga väljundi suhtelise järjestuse samas väljundikomplektis, selle asemel, et tugineda eraldi väärtusfunktsioonile nagu PPO-s.
KL lahknemise karistus: GRPO ei lisa preemiale KL lahknemise trahvi nagu PPO, vaid lisab selle asemel KL lahknemise poliitikamudeli ja võrdlusmudeli vahel otse kahjufunktsioonile. See väldib keeruka eelisfunktsiooni arvutamist.
GRPO põhiidee
ei nõua kriitikat (väärtusfunktsioon): GRPO väldib vajadust väärtusfunktsiooni ja kasutab lähtetaseme hindamiseks rühmasisest skoori, vähendades seeläbi koolitusressursse.
Grupisisene suhteline eelis: Iga ülesande q jaoks valib GRPO vana poliitika π(θold) väljunditest {o(1), o(2), …, o(G)} ja optimeerib seejärel poliitikamudeli, maksimeerides sihtfunktsioonina järgmise võrrandi.

Täpsemalt:

Võti on siin Â(i,t), mis tähistab eelist ja on arvutatud suhteline tasu grupisisese toodangu eest, selle asemel, et tugineda eraldi väärtusfunktsioonile nagu PPO puhul.

Otseselt lisab ka sihtfunktsioon KL-i lahknevus kui regulaarsustermin, mille suurust juhtida poliitika uuendused

ja ühildage preemiamudeli võrdluse olemusega: GRPO kasutab eelise arvutamiseks suhtelist rühmasisest tasu, mis on paremini kooskõlas tasumudeli olemusega, mida tavaliselt koolitatakse paaripõhise võrdluse põhjal.
Kuidas saab kujundada GRPO preemiamudelit (vt DeepSeek R1)?
Omadused:
vormingu preemia: sunnib põlvkonda pikki lastevoodi tulemused, mis võivad sundida mudelit genereerima järeldusprotsesse ja parandada mudeli järelduste mõju.
täpsuse tasu: matemaatika saab kasutada lõpptulemust ja kood võib kasutada kompilaatori tagasisidet.
GRPO eelised
Vähem mälumahtu: kriitilist mudelit pole vaja, vähendades mälunõudeid.
Tõhusam koolitus: rühmasisest suhtelist eelist kasutades arvutamine lihtsustab koolitusprotsessi.
Ühildub paremini preemiamudelite olemusega: parandab treeningu stabiilsust ja efektiivsust.
RL ühtse paradigma kokkuvõte
Pakutud ühtne paradigma
Autorid pakuvad välja ühtse paradigma, et mõista erinevaid koolitusmeetodeid, nagu SFT (järelvalve peenhäälestus), RFT (rejection Sampling Fine-tuning), DPO (Direct Preference Optimization), PPO, GRPO jne. RL võtmeelemendid: Ühtse raamistiku põhielemendid on järgmised: andmeallikad, preemiafunktsioonid ja algoritmid.
- Andmeallikas: See viitab koolitusel kasutatavatele andmetele, mida saab tuletada käsitsi märgistamise, SFT mudelite või reaalajas poliitikamudelite põhjal.
- Preemia funktsioon: See viitab funktsioonile, mida kasutatakse väljundi kvaliteedi hindamiseks, mis võib olla reegel või mudel.
- Algoritm: See viitab meetodile, mida kasutatakse andmete ja preemiasignaali töötlemiseks ning mudeli parameetrite värskendamiseks.
Erinevate meetodite analüüs ühtse paradigma alusel
Tabel 10 võtab kokku SFT, RFT, DPO, Online RFT, PPO ja GRPO sarnasused ja erinevused andmeallikate, preemiafunktsioonide ja gradiendi koefitsientide osas.
meetod | Treeningu andmed | Preemia funktsioon | Gradiendi koefitsient | Treeningmeetod | Eelised/omadused | Kohaldatavad stsenaariumid |
SFT | Käsitsi märgistatud SFT-andmed | Käsitsi valitud (kaudne tasu) | Fikseeritud 1 | Juhendatud õpe | Lihtne ja stabiilne, sõltub kvaliteetsetest märgistatud andmetest | Baasmudeli väljaõpe, esmase joondamise ülesanne |
RFT | SFT andmestiku probleem + SFT mudeli näidisväljund | Põhineb vastuse õigsusel (reegliotsus) | 0 (vale) või 1 (õige) | Võrguühenduseta poliitika optimeerimine | Tõhus arvutamine, reeglite tagasiside vahetu kasutamine | Selgete reeglitega matemaatilised/loogilised ülesanded |
Andmekaitseametnik | SFT andmestiku probleem + mudeli väljund | Inimese eelistuste märgistamine või reeglite võrdlemine | Põhineb eelistuse tõenäosuse arvutamisel (nt Bradley-Terry mudel) | Võrdlusõpe | Väldib selgesõnalist tasu modelleerimist, optimeerides otseselt eelistusi | Inimese eelistuste joondamise ülesanded (nt dialoogi genereerimine) |
Online RFT | Reaalajas poliitikamudeli valim probleem-väljund paarid | Põhineb vastuse õigsusel (reegliotsus) | 0 (vale) või 1 (õige) | Veebipoliitika optimeerimine | Värskendab poliitikaid dünaamiliselt reaalajas tagasiside optimeerimisega | Stsenaariumid, mis nõuavad võrgusuhtlust (nt mängu AI) |
PPO | SFT andmestiku probleem + poliitikamudeli valimi väljund | Preemiamudel (RM) koolitatud | Dominantsi funktsioon (tasu hinnangul põhinev) | Poliitika gradiendi meetod | Tõhus ja stabiilne, toetab mitmeastmelist optimeerimist | Keerulised ülesanded (nt teksti genereerimine, roboti juhtimine) |
GRPO | SFT andmestiku probleem + poliitikamudeli proovivõtu väljund | Preemiamudel (RM) koolitatud | Grupisisene suhteline tasu (normaliseeritud võrdlus) | Grupipoliitika optimeerimine | Vähendage tasu dispersiooni ja parandage rühmasisest võrdlust | Suure dispersiooniga ülesanded (nt pika teksti genereerimine) |
Tähelepanekud andmeallikate kohta

Online vs võrguühenduseta koolitus: Veebikoolitus viitab reaalajas poliitikamudeli väljundi kasutamisele koolitusandmetena, samas kui võrguühenduseta koolitus viitab fikseeritud mudeli (nt SFT-mudeli) väljundi kasutamisele koolitusandmetena. Eksperimentaalsed tulemused näitavad seda Interneti-koolitus on üldiselt parem kui võrguväline koolitus.
Tulemuste järelevalve vs protsessi järelevalve: Tulemuste järelevalve viitab ainult väljundi viimase etapi premeerimisele, samas kui protsessi järelevalve viitab arutlusprotsessi iga etapi premeerimisele. Eksperimentaalsed tulemused näitavad seda protsesside juhendamine on efektiivsem keerukate ülesannete puhul.
Ühe episoodi vs iteratiivne tugevdusõpe: Ühe episoodiga tugevdamise õpe viitab ühe strateegia optimeerimisele, samas kui iteratiivne tugevdamine õppimine viitab tasumudeli pidevale värskendamisele pärast mitut strateegia optimeerimist. Eksperimentaalsed tulemused näitavad seda Iteratiivne tugevdusõpe võib jõudlust oluliselt parandada, eriti esimese iteratsiooni korral.
Gradiendi koefitsientide vaatlemine
Reeglipõhine vs. mudelipõhine: Reegel viitab preemia määramisele vastuse õigsuse põhjal ja mudel viitab preemiamudeli koolitamisele skoori andma.
Gradiendi koefitsientide erinevus: Peamine erinevus GRPO ja Online RFT on see, et GRPO kohandab oma gradiendi koefitsiente preemiamudeli pakutavate preemiaväärtuste alusel, samas kui Online RFT seda ei tee.
GRPO eelised: Eksperimendid näitavad seda GRPO on parem kui Online RFT, näidates gradiendi koefitsientide märgi muutmise tõhusust. GRPO+PS on parem kui GRPO+OS, demonstreerides peeneteraliste, astmeteadlike gradiendi koefitsientide kasutamise eeliseid.
RL efektiivsus ja parendussuunad
Miks on RL tõhus?

Katse tulemused: RL parandab Maj@K jõudlust, kuid mitte Pass@K.
Selgitus: RL parandab mudeli üldist jõudlust, muutes väljundjaotuse robustsemaks, st parandab TopK-s õigete vastuste tõenäosust, mitte ei suurenda mudeli aluseks olevat võimekust.
Kuidas saavutada tõhusam RL?
Ühtse paradigma alusel pakuvad autorid välja tulevikusuunad RL-i täiustamiseks kolmes aspektis: andmeallikad, algoritmid ja preemiafunktsioonid.
- Andmeallikad:
- Tutvuge probleemidega, mis jäävad SFT-st kaugemale.
- Kasutage keerukamaid diskreetimis- (dekodeerimis-) strateegiaid, näiteks puuotsingupõhiseid meetodeid.
- Kasutage tõhusaid järeldustehnikaid, et parandada poliitikamudeli uurimise tõhusust.
- Algoritm:
- Tutvuge tugevdavate õppealgoritmidega, mis on mürarikaste tasusignaalide suhtes vastupidavamad.
- Uurige NÕRG-TUGEVANI tüüpi joondusmeetodeid.
- Preemia funktsioon:
- Suurendage preemiamudeli üldistusvõimet, et käsitleda levitamata probleeme ja täiustatud dekodeeritud väljundeid.
- Peegeldage preemiamudeli ebakindlust ja kasutage seda sillana nõrkade tasumudelite ja NÕRGAST TUGEVANI õppealgoritmide ühendamiseks.
- Looge tõhusalt kvaliteetseid protsessipreemiamudeleid, et pakkuda järeldusprotsessi jaoks peeneteralisi treeningsignaale.
Kokkuvõte
DeepSeekMath on oluliselt parandanud avatud lähtekoodiga keelemudelite võimet matemaatilises arutluskäigus, konstrueerides suuremahulise matemaatilise korpuse ja pakkudes välja uue armeerimisõppe algoritmi. Selle paberi tipphetked on
- DeepSeekMath Corpuse, suuremahulise, kvaliteetse ja mitmekeelse matemaatilise korpuse ehitamine ja valideerimine.
- Mälukasutuse vähendamiseks, parandades samal ajal mudeli matemaatilist arutlusvõimet, pakutakse välja tõhus tugevdav õppealgoritm GRPO.
- Koodikoolituse mõju matemaatilisele mõtlemisvõimele käsitletakse põhjalikult ja leitakse, et arXivi andmetel on piiratud mõju. DeepSeekMath väärtus:
- See annab avatud lähtekoodiga kogukonnale võimsa matemaatilise arutlusmudeli ja soodustab matemaatilise tehisintellekti arengut.
- See annab väärtuslikke kogemusi ja meetodeid matemaatiliste korpuste koostamiseks ja matemaatiliste arutlusmudelite koolitamiseks.
- Kavandatav GRPO algoritm pakub uusi ideid õppimise tugevdamiseks teistes valdkondades.