Šiandien norėčiau pasidalinti straipsniu iš DeepSeek, pavadintu DeepSeekMath: matematinio samprotavimo ribų perkėlimas atviros kalbos modeliuose.
Šiame straipsnyje pristatomas DeepSeekMath 7B, kuris yra iš anksto paruoštas DeepSeek-Coder-Base-v1.5 7B pagrindu 120B su matematika susijusių žetonų, natūralios kalbos ir kodo duomenų rinkinys.
Modelis pasiekė stulbinantį balą 51,7% konkurencinio lygio MATH etalonuose, nepasitikėdamas išoriniais įrankių rinkiniais ir balsavimo metodais, priartėdamas prie Gemini-Ultra ir GPT-4 našumo lygio.
DeepSeekMath 7B matematinio mąstymo gebėjimas priskiriamas dviem pagrindiniais veiksniais: Pirma, per kruopščiai suprojektuotas duomenų atrankos vamzdynas, aukštos kokybės su matematika susiję duomenys pakartotinai gaunami iš viešai prieinamų žiniatinklio duomenų.
Antra, grupės santykinis politikos optimizavimas (GRPO). pristatytas, kuris yra proksimalinės politikos optimizavimo (PPO) variantas, galintis pagerinti matematinio mąstymo gebėjimus optimizuojant PPO atminties naudojimą.
- Metodo ypatybės apibendrintos taip:Aukštos kokybės matematinis išankstinio mokymo korpusas buvo pastatytas, o kruopščiai suprojektuotas vamzdynas buvo naudojamas aukštos kokybės matematiniams duomenims iš „Common Crawl“ išgauti.
- GRPO algoritmas buvo pasiūlytas, o tai sumažina mokymui reikalingus išteklius ir pagerina modelio matematinio samprotavimo gebėjimus. 3) Moderniausias pasirodymas buvo pasiektas atliekant kelis matematinio mąstymo etaloninius testus.
Apžvalga
Pavadinimas: DeepSeekMath: atviros kalbos modelių matematinio samprotavimo ribų perkėlimas
URL: spustelėkite čia
Autoriai: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y. Wu, Daya Guo
Kodas: spustelėkite čia
Motyvacija
Matematinis samprotavimas kelia didelį iššūkį kalbos modeliams dėl matematikos sudėtingumo ir struktūrinio pobūdžio. Pažangiausi modeliai, tokie kaip GPT-4 ir Gemini-Ultra, yra galingi, bet nėra viešai prieinami. Todėl yra daug galimybių tobulinti našumą atvirojo kodo modeliai.
Sudėtingumas ir struktūra: Matematinis samprotavimas kelia didelį iššūkį kalbos modeliams dėl matematikos sudėtingumo ir struktūrinio pobūdžio.
Viešųjų duomenų potencialas: Viešai prieinamuose žiniatinklio duomenyse gali būti daug matematinės informacijos, kuri dar turi būti išgaunama ir panaudota.
Metodai
Duomenų rinkimas: 120B prieigos raktų DeepSeekMath korpusas buvo sukurtas renkant aukštos kokybės su matematika susijusius žiniatinklio duomenis iš „Common Crawl“ kartotiniu konvejeriu.
Modelio mokymas: Korpusas buvo naudojamas išankstiniam mokymui ant DeepSeek-Coder-Base-v1.5 7B, taip pat buvo pritaikytas matematinių nurodymų koregavimo ir grupės santykinės politikos optimizavimo (GRPO) algoritmas.
GRPO algoritmas: GRPO yra patobulintas sustiprinimo mokymosi algoritmas, kuris pašalina kritinį modelį PPO ir įvertina pradinį rezultatą iš grupės balo, taip žymiai sumažindamas mokymo išteklius.
Išsamūs metodai ir procedūros:
Duomenų rinkimas ir apdorojimas:

Sukurkite DeepSeekMath korpusą: Naudojant „fastText“ klasifikatorių, ištraukite 120B su matematika susijusių žetonų iš „Common Crawl“, kad sukurtų didelio masto aukštos kokybės iš anksto parengtą korpusą „DeepSeekMath Corpus“.
Iteracinis duomenų filtravimas: Naudojama kartotinė strategija, naudojant OpenWebMath kaip pradinius duomenis pradiniam klasifikatoriui parengti, o tada naudojant šį klasifikatorių, norint gauti daugiau teigiamų pavyzdžių iš Common Crawl, kurie rankiniu būdu komentuojami, kad būtų nuolat optimizuojamas klasifikatoriaus veikimas.
Daugiakalbės funkcijos: DeepSeekMath korpuse yra daugiakalbiai duomenys, kuris pagerina modelio našumą pagal Kinijos matematikos etalonus.
Taršos šalinimo apdorojimas: De-taršos apdorojimas atliekamas naudojant mokymo duomenis, kad būtų išvengta sutapimo su bandymo etalonu.
Išankstinis mokymas:
Kodu pagrįsta modelio inicijavimas: Inicijuoja naudojant DeepSeek-Coder-Base-v1.5 7B modelis buvo veiksmingesnis nei inicijavimas iš bendrojo LLM.
Išankstinio mokymo duomenų sudėtis: 56% DeepSeekMath korpusas, 4% AlgebraicStack, 10% arXiv, 20% Github kodas, 10% Common Crawl natūralios kalbos duomenys.
Išankstinio mokymo parametrai: Naudojamas AdamW optimizatorius, kurio mokymosi greitis yra 4,2e–4, partijos dydis yra 10 mln. žetonų ir mokomas 500 mlrd.
Instrukcijų koregavimas:
Sukurkite instrukcijų koregavimo duomenų rinkinį: Sukurkite matematinių nurodymų koregavimo duomenų rinkinį, kuriame yra 776 tūkst. pavyzdžių, apimantis įvairias matematines sritis ir sudėtingumo lygius, įskaitant CoT, PoT ir įrankius integruotus išvadų formatus, skirtus veiksmams spręsti.
Treniruočių parametrai: Partijos dydis 256, mokymosi greitis 5e-5, treniruokitės 500 žingsnių.
Sustiprintas mokymasis – grupės santykinės politikos optimizavimas (GRPO):
Pasiūlykite GRPO algoritmą: Pasiūlykite a PPO varianto algoritmas GRPO, kuris išvengia kritinio modelio poreikio, naudojant grupinius balus baziniam lygiui įvertinti ir taip sumažinti mokymo išteklius.
Objektyvi funkcija: GRPO optimizuoja politikos modelį maksimaliai padidindama tikslo funkciją, kuri atsižvelgiama į santykinį grupės išėjimų pranašumą ir tiesiogiai prideda KL skirtumą kaip įteisinimo terminą.
Privalumų skaičiavimas: GRPO apskaičiuoja pranašumą per santykinis atlygis grupėje, vengiant skirtingų grupių palyginimų ir geriau atitinkant lyginamąjį atlygio modelio pobūdį.
Palaiko tiek rezultatų, tiek proceso stebėjimą: GRPO gali remti rezultatų ir proceso stebėseną bei veiksmingiau stebėti politiką suteikdami atlygį kiekvieno išvados žingsnio pabaigoje.
Iteratyvus RL: Naudoja an pasikartojanti RL strategija sukurti naują mokymo rinkinį, pagrįstą politikos modelio atrankos rezultatais, nuolat mokyti senąjį atlygio modelį ir naudoti naują atlygio modelį politikos modeliui atnaujinti.
Treniruočių duomenys: SFT duomenyse naudoja CoT formato problemas, susijusias su GSM8K ir MATH, apie 144K problemas.
Treniruočių parametrai: Politikos modelio mokymosi greitis yra 1e-6, KL koeficientas yra 0,04, kiekvienai problemai atrenkami 64 išėjimai, didžiausias ilgis yra 1024, o mokymo partijos dydis yra 1024.
Išvada

1 išvada:DeepSeekMath 7B pranoksta visus atvirojo kodo modelius matematiniais samprotavimais. Atliekant konkurencinį MATH etaloninį testą, DeepSeekMath 7B pasiekė 51,7% tikslumą, kuris yra artimas Gemini-Ultra ir GPT-4 našumo lygiui.
2 išvada:Gerai sukurti išankstinio mokymo duomenys ir GRPO algoritmai yra modelio sėkmės pagrindas. Aukštos kokybės matematinio korpuso ir GRPO algoritmų derinys leidžia modeliui pasiekti reikšmingų našumo padidėjimų atliekant matematinio samprotavimo užduotis.
3 išvada:Kodo mokymas padeda pagerinti matematinio mąstymo gebėjimus. Kodo duomenų įtraukimas į išankstinio mokymo etapą gali pagerinti modelio gebėjimą spręsti matematines problemas tiek naudojant, tiek be įrankių.
4 išvada: ribotas arXiv duomenų naudingumas: Priešingai ankstesniems įsitikinimams, buvo nustatyta, kad arXiv duomenys yra riboti padedantys pagerinti matematinius samprotavimus.
Apribojimas
Geometrijos ir įrodymo galimybės yra gana silpnos: Nors DeepSeekMath pasižymi kiekybiniu samprotavimu, jo geometrijos ir įrodymo galimybės vis dar yra prastesnės nei uždarojo kodo modeliai. Taip gali būti dėl šališko duomenų pasirinkimo išankstinio mokymo ir koregavimo etapuose.
Mažo mėginio talpos trūkumas: DeepSeekMath yra prastesnis už GPT-4 mažos imties mokymosi požiūriu, o tai gali būti dėl modelio dydžio apribojimo.
Reikia veiksmingesnių mokymosi stiprinimo metodų: Nors darbe siūlomi sustiprinimo mokymosi metodai yra veiksmingi, dar yra kur tobulėti, pavyzdžiui, kaip efektyviau panaudoti grįžtamąjį ryšį iš atlygio modelio ir kaip elgtis esant triukšmingiems atlygio signalams.
Detalės
Mokymosi stiprinimo tyrinėjimas ir analizė
Apžvalga:
Grupės santykinės politikos optimizavimo (GRPO) pristatymas: Straipsnyje siūlomas naujas sustiprinimo mokymosi algoritmas, GRPO, kaip proksimalinės politikos optimizavimo (PPO) variantas. Pagrindinė GRPO savybė yra ta atsisako Critic modelio, dažniausiai naudojamo PPO, ir įvertina pradinį lygį per grupės balus, taip labai sumažindamas mokymui reikalingus skaičiavimo išteklius.
GRPO efektyvumo demonstravimas: Straipsnyje eksperimentiškai parodyta, kad GRPO gali efektyviai pagerinti komandų koregavimo modelių našumą, įskaitant ir domeno, ir už domeno atliekamas matematines užduotis.
Vieninga mokymosi metodų sustiprinimo sistema: Straipsnyje siūloma vieninga sistema, leidžianti suprasti skirtingus pastiprinimo mokymosi metodus, pvz Atmetimo atrankos tikslus derinimas (RFT), tiesioginis nuostatų optimizavimas (DPO), PPO ir GRPO. Sistema šiuos metodus traktuoja kaip tiesioginius arba supaprastintus sustiprinimo mokymosi metodus.
Išsamus pastiprinimo mokymosi elementų tyrimas: Straipsnyje nagrinėjama nuodugniai pagrindiniai sustiprinimo mokymosi elementai, tokie kaip mokymas internetu ir mokymas neprisijungus, rezultatų priežiūra ir procesų priežiūra, vienkartinis mokymasis sustiprinant ir kartotinis mokymasis., atliekant išsamius eksperimentus, ir apibendrinamos galimos stiprinimo mokymosi efektyvumo gerinimo kryptys.
GRPO (Group Relative Policy Optimization) algoritmas

Apribojimai PPO: PPO yra dažniausiai naudojamas sustiprinimo mokymosi algoritmas, tačiau jį reikia mokyti papildomas kritiko modelis įvertinti reikšmės funkciją, kuri primeta papildoma skaičiavimo ir atminties našta. Be to, pagal LLM scenarijų Kritinio modelio mokymas gali būti sudėtingas, nes jį reikia įvertinti kiekvieno žetono išvestis.
Pagrindinė GRPO idėja: Pagrindinė GRPO idėja yra Atsisakykite kritinio modelio ir vietoj to naudokite vidutinį tos pačios problemos rezultatų rinkinio balą kaip bazinį tašką. Ši bazinė linija gali būti naudojama pranašumo funkcijai įvertinti ir politikos optimizavimui. Šis metodas žymiai sumažina mokymo sudėtingumą.
Privalumų funkcijų skaičiavimas: GRPO apskaičiuoja pranašumo funkciją pagal apskaičiuojant santykinį kiekvienos išvesties reitingą tame pačiame išėjimų rinkinyje, o ne pasikliaujant atskira vertės funkcija kaip ir PPO.
KL skirtumo bauda: GRPO neprideda KL skirtumo baudos prie atlygio, kaip PPO, o prideda KL skirtumą tarp politikos modelio ir etaloninio modelio tiesiogiai prie nuostolių funkcijos. Taip išvengiama sudėtingo pranašumo funkcijos skaičiavimo.
Pagrindinė GRPO idėja
nereikalauja kritiko (vertės funkcijos): GRPO išvengia reikšmės funkcijos ir naudoja grupės vidaus balą, kad įvertintų pradinį lygį, taip sumažinant mokymo išteklius.
Santykinis pranašumas grupės viduje: Kiekvienai q problemai GRPO atrenka išėjimų rinkinį {o(1), o(2), …, o(G)} iš senosios politikos π(θold) ir tada optimizuoja politikos modelį, maksimaliai padidindama šią lygtį kaip tikslo funkciją.

Tiksliau:

Raktas čia yra Â(i,t), kuris reiškia pranašumą ir yra apskaičiuojamas pagal santykinis atlygis už grupės vidaus produkciją, o ne pasikliauti atskira vertės funkcija, kaip PPO.

Tikslinė funkcija taip pat tiesiogiai prideda KL divergencija kaip reguliavimo terminas, skirtas kontroliuoti dydį politikos atnaujinimai

ir suderinti su atlygio modelio palyginimo pobūdžiu: GRPO naudoja santykinį grupės vidaus atlygį pranašumui apskaičiuoti, kuris labiau atitinka atlygio modelio pobūdį, kuris paprastai mokomas remiantis poriniu palyginimu.
Kaip galima sukurti GRPO apdovanojimo modelį (žr. DeepSeek R1)?
Savybės:
formato apdovanojimas: verčia kartoti ilgą vaikiška lovelė rezultatus, kurie gali paskatinti modelį generuoti išvadų procesus ir pagerinti modelio išvadų poveikį.
atlygis už tikslumą: matematika gali naudoti galutinį rezultatą, o kodas gali naudoti kompiliatoriaus grįžtamąjį ryšį.
GRPO privalumai
Mažesnis atminties plotas: nereikia kritinio modelio, todėl sumažėja atminties poreikis.
Efektyvesnis mokymas: apskaičiavimas naudojant santykinį pranašumą grupės viduje supaprastina mokymo procesą.
Labiau suderinamas su atlygio modelių pobūdžiu: pagerina treniruočių stabilumą ir efektyvumą.
RL vieningos paradigmos santrauka
Siūloma vieninga paradigma
Autoriai siūlo vieningą paradigmą suprasti skirtingus mokymo metodus, tokius kaip SFT (Supervised Fine-tuning), RFT (Rejection Sampling Fine-tuning), DPO (Direct Preference Optimization), PPO, GRPO ir kt. RL pagrindiniai elementai: Pagrindiniai vieningos sistemos elementai yra: duomenų šaltiniai, atlygio funkcijos ir algoritmai.
- Duomenų šaltinis: Tai reiškia mokymui naudojamus duomenis, kuriuos galima gauti iš rankinio ženklinimo, SFT modelių arba realaus laiko politikos modelių.
- Atlygio funkcija: Tai reiškia funkciją, naudojamą produkcijos kokybei įvertinti, kuri gali būti taisyklė arba modelis.
- Algoritmas: Tai reiškia duomenų apdorojimo ir atlygio signalo bei modelio parametrų atnaujinimo metodą.
Įvairių metodų analizė remiantis vieninga paradigma
10 lentelėje apibendrinami SFT, RFT, DPO, Online RFT, PPO ir GRPO panašumai ir skirtumai pagal duomenų šaltinius, atlygio funkcijas ir gradiento koeficientus.
Metodas | Treniruočių duomenys | Atlygio funkcija | Gradiento koeficientas | Treniruotės metodas | Privalumai/ypatybės | Taikomi scenarijai |
SFT | Rankiniu būdu pažymėti SFT duomenys | Pasirinkta rankiniu būdu (numanomas atlygis) | Pritvirtinta prie 1 | Prižiūrimas mokymasis | Paprasta ir stabili, priklauso nuo aukštos kokybės paženklintų duomenų | Bazinis modelio mokymas, pradinė derinimo užduotis |
RFT | SFT duomenų rinkinio problema + SFT modelio pavyzdžio išvestis | Remiantis atsakymo teisingumu (taisyklės sprendimas) | 0 (neteisinga) arba 1 (teisinga) | Politikos optimizavimas neprisijungus | Efektyvus skaičiavimas, tiesioginis taisyklių grįžtamojo ryšio naudojimas | Matematinės/loginės užduotys su aiškiomis taisyklėmis |
DAP | SFT duomenų rinkinio problema + modelio išvestis į | Žmogaus pageidavimų žymėjimas arba taisyklių palyginimas | Remiantis pirmenybės tikimybės skaičiavimu (pvz., Bradley-Terry modelis) | Lyginamasis mokymasis | Vengia aiškaus atlygio modeliavimo, tiesiogiai optimizuojant nuostatas | Žmogaus pageidavimų derinimo užduotys (pvz., dialogo generavimas) |
Internetinis RFT | Realaus laiko politikos modelio atranka problemos ir išvesties poros | Remiantis atsakymo teisingumu (taisyklės sprendimas) | 0 (neteisinga) arba 1 (teisinga) | Internetinės politikos optimizavimas | Dinamiškai atnaujinama politika, optimizuojant atsiliepimus realiuoju laiku | Scenarijai, kuriems reikalinga sąveika internetu (pvz., žaidimų AI) |
PPO | SFT duomenų rinkinio problema + politikos modelio atrankos išvestis | Apmokytas apdovanojimo modelis (RM). | Dominavimo funkcija (remiantis atlygio įvertinimu) | Politikos gradiento metodas | Veiksmingas ir stabilus, palaiko kelių žingsnių optimizavimą | Sudėtingos užduotys (pvz., teksto generavimas, roboto valdymas) |
GRPO | SFT duomenų rinkinio problema + politikos modelio atrankos išvestis | Apmokytas apdovanojimo modelis (RM). | Santykinis atlygis grupės viduje (normalizuotas palyginimas) | Grupės politikos optimizavimas | Sumažinkite atlygio dispersiją ir pagerinkite grupės vidaus palyginimą | Didelės dispersijos užduotys (pvz., ilgo teksto generavimas) |
Pastabos apie duomenų šaltinius

Treniruotės internetu ir neprisijungus: Internetinis mokymas reiškia realaus laiko politikos modelio išvesties naudojimą kaip mokymo duomenis, o mokymas neprisijungus reiškia fiksuoto modelio (pvz., SFT modelio) išvesties naudojimą kaip mokymo duomenis. Eksperimentų rezultatai rodo, kad mokymas internetu paprastai yra geresnis nei mokymas neprisijungus.
Rezultatų priežiūra prieš proceso priežiūrą: Rezultatų priežiūra reiškia apdovanojimą tik už paskutinį rezultato žingsnį, o proceso priežiūra reiškia atlyginimą už kiekvieną samprotavimo proceso žingsnį. Eksperimentų rezultatai rodo, kad procesų priežiūra yra efektyvesnė atliekant sudėtingas užduotis.
Vieno epizodo ir pasikartojantis sustiprinimo mokymasis: Vieno epizodo sustiprinimo mokymasis reiškia vienos strategijos optimizavimą, o kartotinis sustiprinimo mokymasis reiškia nuolatinį atlygio modelio atnaujinimą po kelių strategijos optimizacijų. Eksperimentų rezultatai rodo, kad iteracinis sustiprinimo mokymasis gali žymiai pagerinti našumą, ypač pirmojo kartojimo metu.
Gradiento koeficientų stebėjimas
Taisyklėmis, palyginti su modeliu: Taisyklė reiškia atlygio nustatymą pagal atsakymo teisingumą, o modelis reiškia atlygio modelio mokymą, kad jis įvertintų.
Gradiento koeficientų skirtumas: Pagrindinis skirtumas tarp GRPO ir Internetinis RFT reiškia, kad GRPO koreguoja savo gradiento koeficientus pagal atlygio modelio pateiktas atlygio vertes, o Online RFT to nedaro.
GRPO privalumai: Eksperimentai rodo, kad GRPO pranašesnis už Online RFT, parodydamas gradiento koeficientų ženklo keitimo efektyvumą. GRPO+PS pranašesnis už GRPO+OS, parodydamas smulkiagrūdžių, laipsniško gradiento koeficientų naudojimo pranašumus..
RL efektyvumas ir tobulinimo kryptys
Kodėl RL efektyvus?

Eksperimento rezultatai: RL pagerina Maj@K našumą, bet ne Pass@K.
Paaiškinimas: RL pagerina bendrą modelio našumą, padidindamas išvesties paskirstymą, ty pagerina teisingų atsakymų tikimybę TopK, o ne sustiprina pagrindines modelio galimybes.
Kaip galima pasiekti efektyvesnį RL?
Remdamiesi vieninga paradigma, autoriai siūlo ateities RL tobulinimo kryptis trimis aspektais: duomenų šaltiniais, algoritmais ir atlygio funkcijomis.
- Duomenų šaltiniai:
- Ištirkite problemas, nesusijusias su SFT etapu.
- Naudokite pažangesnes atrankos (dekodavimo) strategijas, pvz., medžio paieška pagrįstus metodus.
- Naudokite efektyvius išvadų metodus, kad pagerintumėte politikos modelio tyrimo efektyvumą.
- Algoritmas:
- Ištirkite sustiprinimo mokymosi algoritmus, kurie yra atsparesni triukšmingiems atlygio signalams.
- Išstudijuokite WEAK-TO-STRONG tipo lygiavimo metodus.
- Atlygio funkcija:
- Pagerinkite atlygio modelio apibendrinimo galimybes, kad būtų galima spręsti neplatinimo problemas ir pažangius dekoduotus išėjimus.
- Atspindėkite atlygio modelio neapibrėžtumą ir naudokite jį kaip tiltą, kad susietumėte silpnus atlygio modelius ir mokymosi algoritmus nuo SILPNŲ iki stipraus.
- Efektyviai kurkite aukštos kokybės atlygio už procesą modelius, kad pateiktumėte smulkius mokymo signalus išvados procesui.
Santrauka
DeepSeekMath žymiai pagerino atvirojo kodo kalbų modelių gebėjimą matematiniame samprotavime, sukurdama didelio masto matematinį korpusą ir pasiūlydama naują sustiprinimo mokymosi algoritmą. Pagrindiniai šio dokumento akcentai yra
- DeepSeekMath korpuso, didelio masto, aukštos kokybės, daugiakalbio matematinio korpuso, sukūrimas ir patvirtinimas.
- Siūlomas efektyvus sustiprinimo mokymosi algoritmas GRPO, kuris sumažina atminties naudojimą ir pagerina modelio matematinio mąstymo galimybes.
- Kodo mokymo įtaka matematinio mąstymo gebėjimui yra išsamiai aptariama ir nustatyta, kad arXiv duomenys turi ribotą poveikį. DeepSeekMath reikšmė:
- Tai suteikia atvirojo kodo bendruomenei galingą matematinio mąstymo modelį ir skatina matematinio AI plėtrą.
- Ji suteikia vertingos patirties ir metodų matematiniams korpusams kurti ir matematinių samprotavimo modelių mokymui.
- Siūlomas GRPO algoritmas suteikia naujų idėjų, kaip sustiprinti mokymąsi kitose srityse.