Danes bi rad delil članek iz DeepSeek z naslovom DeepSeekMath: premikanje meja matematičnega sklepanja v modelih odprtega jezika.

Ta članek predstavlja DeepSeekMath 7B, ki je vnaprej usposobljen na osnovi DeepSeek-Coder-Base-v1.5 7B zbirka 120B žetonov, povezanih z matematiko, naravnim jezikom in kodnimi podatki.

Model je dosegel osupljivo oceno 51,7% v merilih uspešnosti MATH na konkurenčni ravni, ne da bi se zanašal na zunanje komplete orodij in tehnike glasovanja, s čimer se je približal ravni zmogljivosti Gemini-Ultra in GPT-4.

Sposobnost DeepSeekMath 7B za matematično sklepanje je pripisana dvema ključnima dejavnikoma: Prvič, skozi skrbno zasnovan cevovod za izbiro podatkov, se visokokakovostni podatki, povezani z matematiko, iterativno črpajo iz javno dostopnih spletnih podatkov.

Drugič, optimizacija relativne politike skupine (GRPO) je uvedli, kar je različica proksimalne optimizacije politike (PPO), ki lahko izboljša sposobnost matematičnega sklepanja, hkrati pa optimizira uporabo pomnilnika PPO.

  1. Značilnosti metode so povzete na naslednji način:Visokokakovosten matematični korpus za predusposabljanje je bil izdelan in skrbno zasnovan cevovod je bil uporabljen za rudarjenje visokokakovostnih matematičnih podatkov iz Common Crawl.
  2. Algoritem GRPO je bil predlagan, kar zmanjša vire, potrebne za usposabljanje, in izboljša sposobnost matematičnega sklepanja modela. 3) Vrhunska izvedba je bil dosežen v več primerjalnih testih matematičnega sklepanja.

Pregled

Naslov: DeepSeekMath: Premik meja matematičnega sklepanja v modelih odprtega jezika

URL: kliknite tukaj

Avtorji: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y. Wu, Daya Guo

Koda: kliknite tukaj

Motivacija

Matematično sklepanje predstavlja velik izziv za jezikovne modele zaradi kompleksnosti in strukturirane narave matematike. Najnaprednejši modeli, kot sta GPT-4 in Gemini-Ultra, so zmogljivi, vendar niso javno dostopni. Zato obstaja veliko prostora za izboljšave delovanja odprtokodnih modelov.

Kompleksnost in struktura: Matematično sklepanje predstavlja velik izziv za jezikovne modele zaradi kompleksnosti in strukturirane narave matematike.

Potencial javnih podatkov: Javno dostopni spletni podatki lahko vsebujejo bogate matematične informacije, ki jih je treba še izkopati in uporabiti.

Metode

Zbiranje podatkov: Korpus DeepSeekMath iz 120B žetonov je bil izdelan z zbiranjem visokokakovostnih spletnih podatkov, povezanih z matematiko, iz Common Crawl prek iterativnega cevovoda.

Usposabljanje modela: Korpus je bil uporabljen za predhodno usposabljanje na vrhu DeepSeek-Coder-Base-v1.5 7B, uporabljen pa je bil algoritem za fino nastavitev matematičnih navodil in optimizacijo relativne politike skupine (GRPO).

GRPO algoritem: GRPO je izboljšan algoritem učenja z okrepitvijo, ki odstrani kritični model v PPO in oceni izhodišče iz skupinskega rezultata, s čimer znatno zmanjša vire za usposabljanje.

Podrobne metode in postopki:

Zbiranje in obdelava podatkov:

Build DeepSeekMath Corpus: Z uporabo klasifikatorja, ki temelji na fastText, izvleči 120B žetonov, povezanih z matematiko iz Common Crawl za izgradnjo obsežnega, visokokakovostnega vnaprej usposobljenega korpusa, DeepSeekMath Corpus.

Iterativno filtriranje podatkov: Uporablja se iterativna strategija, uporaba OpenWebMath kot semenskih podatkov za usposabljanje začetnega klasifikatorja in nato uporaba tega klasifikatorja za rudarjenje bolj pozitivnih primerov iz Common Crawl, ki so ročno označeni za stalno optimizacijo delovanja klasifikatorja.

Večjezične funkcije: DeepSeekMMath Corpus vsebuje večjezični podatki, ki izboljša zmogljivost modela na kitajskih matematičnih merilih.

Obdelava za odstranjevanje onesnaženja: De-obdelava onesnaževanja se izvaja na podatkih o usposabljanju, da se prepreči prekrivanje s testno referenčno vrednostjo.

Predusposabljanje:

Inicializacija modela na osnovi kode: Inicializacija z uporabo DeepSeek-Coder-Base-v1.5 7B je bilo ugotovljeno, da je učinkovitejši od inicializacije iz splošnega LLM.

Sestava podatkov pred usposabljanjem: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% Github koda, 10% Common Crawl podatki naravnega jezika.

Parametri pred treningom: Uporabljen je optimizator AdamW s stopnjo učenja 4,2e-4, velikostjo serije 10 milijonov žetonov in usposabljanjem 500B žetonov.

Natančna nastavitev navodil:

Izdelajte nabor podatkov za natančno nastavitev navodil: Izdelajte nabor podatkov za natančno uravnavanje matematičnih navodil, ki vsebuje 776K vzorcev, ki pokriva različna matematična področja in težavnostne stopnje, vključno s CoT, PoT in formati sklepanja, integriranimi v orodje za reševanje korakov.

Parametri treninga: Velikost serije 256, stopnja učenja 5e-5, trening za 500 korakov.

Okrepljeno učenje – Optimizacija relativne politike skupine (GRPO):

Predlagajte algoritem GRPO: Predlagaj a PPO različica algoritma GRPO, ki se izogne potrebi po kritičnem modelu z uporabo rezultatov po skupinah za oceno osnovne vrednosti, s čimer se zmanjšajo viri za usposabljanje.

Ciljna funkcija: GRPO optimizira model politike z maksimiranjem ciljne funkcije, ki upošteva relativno prednost rezultatov v skupini in neposredno doda divergenco KL kot izraz za ureditev.

Izračun prednosti: GRPO izračuna prednost skozi relativne nagrade znotraj skupine, izogibanje primerjavam med skupinami in boljša skladnost s primerjalno naravo modela nagrajevanja.

Podpira spremljanje rezultatov in procesov: GRPO lahko podpira spremljanje rezultatov in procesov ter učinkoviteje spremlja politiko z zagotavljanjem nagrad na koncu vsakega koraka sklepanja.

Iterativni RL: Uporablja an iterativna strategija RL za ustvarjanje novega nabora usposabljanja na podlagi rezultatov vzorčenja modela pravilnika, nenehno usposabljanje starega modela nagrajevanja in uporabo novega modela nagrajevanja za posodobitev modela pravilnika.

Podatki o usposabljanju: Uporablja težave v formatu CoT, povezane z GSM8K in MATH v podatkih SFT, približno 144K težav.

Parametri treninga: Stopnja učenja modela pravilnika je 1e-6, koeficient KL je 0,04, za vsako težavo je vzorčenih 64 izhodov, največja dolžina je 1024, velikost učnega paketa pa 1024.

Zaključek

Sklep 1:DeepSeekMath 7B prekaša vse odprtokodne modele v sposobnosti matematičnega sklepanja. V tekmovalnem primerjalnem testu MATH je DeepSeekMath 7B dosegel natančnost 51,7%, kar je blizu ravni zmogljivosti Gemini-Ultra in GPT-4.

Sklep 2:Dobro zasnovani podatki pred usposabljanjem in algoritmi GRPO so ključni za uspeh modela. Kombinacija visokokakovostnega matematičnega korpusa in algoritmov GRPO omogoča modelu, da doseže znatno izboljšanje zmogljivosti pri nalogah matematičnega sklepanja.

Sklep 3:Usposabljanje kodiranja pomaga izboljšati sposobnost matematičnega sklepanja. Dodajanje kodnih podatkov v fazo predusposabljanja lahko izboljša sposobnost modela za reševanje matematičnih problemov, tako z orodji kot brez njih.

Sklep 4: Omejena uporabnost podatkov arXiv: V nasprotju s prejšnjimi prepričanji je bilo ugotovljeno, da so podatki arXiv omejeno pomagali pri izboljšanju matematičnega sklepanja.

Omejitev

Zmožnosti geometrije in dokazovanja so razmeroma šibke: Čeprav je DeepSeekMath odličen v kvantitativnem razmišljanju, so njegove zmogljivosti v geometriji in dokazovanju še vedno slabše od zaprtokodnih modelov. To je lahko posledica pristranske izbire podatkov v fazah predusposabljanja in natančnega prilagajanja.

Slabost pri majhni vzorčni zmogljivosti: DeepSeekMath je slabši od GPT-4 v smislu učenja majhnega vzorca, kar je lahko posledica omejitve velikosti modela.

Potrebne so učinkovitejše metode učenja s krepitvijo: Čeprav so metode učenja s krepitvijo, predlagane v prispevku, učinkovite, je še vedno prostor za izboljšave, na primer, kako učinkoviteje uporabiti povratne informacije iz modela nagrajevanja in kako ravnati s hrupnimi signali nagrajevanja.

Podrobnosti

Raziskovanje in analiza krepitve učenja

Pregled:

Uvedba optimizacije relativne politike skupine (GRPO): Prispevek predlaga nov algoritem učenja z okrepitvijo, GRPO, kot različico proksimalne optimizacije politike (PPO). Glavna značilnost GRPO je, da ga opusti model Critic, ki se običajno uporablja v PPO, in oceni izhodišče prek skupinskih rezultatov, s čimer močno zmanjša računalniške vire, potrebne za usposabljanje.

Prikaz učinkovitosti GRPO: Članek eksperimentalno dokazuje, da lahko GRPO učinkovito izboljša učinkovitost modelov za fino nastavitev ukazov, vključno z matematičnimi nalogami v domeni in zunaj domene.

Enoten okvir za metode učenja s krepitvijo: Prispevek predlaga enoten okvir za razumevanje različnih metod učenja s krepitvijo, kot je npr Natančna nastavitev vzorčenja zavrnitve (RFT), optimizacija neposrednih preferenc (DPO), PPO in GRPO. Ogrodje te metode obravnava kot neposredne ali poenostavljene tehnike učenja s krepitvijo.

Poglobljeno raziskovanje elementov učenja s krepitvijo: Članek poglobljeno raziskuje ključni elementi okrepljenega učenja, kot so spletno usposabljanje in usposabljanje brez povezave, nadzor rezultatov in procesov, enokrožno okrepljeno učenje in iterativno okrepljeno učenje, s podrobnimi poskusi, in povzema možne smeri za izboljšanje učinkovitosti učenja s krepitvijo.

Algoritem GRPO (Group Relative Policy Optimization).

Omejitve PPO: PPO je pogosto uporabljen algoritem učenja za krepitev, vendar zahteva usposabljanje in dodatni model Critic oceniti funkcijo vrednosti, ki nalaga dodatno računalniško in spominsko breme. Poleg tega je v scenariju LLM Usposabljanje kritičnega modela je lahko zapleteno, ker zahteva ocenjevanje izhod vsakega žetona.

Osnovna ideja GRPO: Osnovna ideja GRPO je opustite model Critic in namesto tega uporabite povprečno oceno nabora rezultatov za isto težavo kot izhodišče. To osnovno linijo je mogoče uporabiti za oceno funkcije prednosti in za optimizacijo politike. Ta pristop bistveno zmanjša kompleksnost usposabljanja.

Izračun funkcije prednosti: GRPO izračuna funkcijo prednosti z izračun relativne razvrstitve vsakega izhoda v istem nizu izhodov, namesto da bi se zanašal na ločeno funkcijo vrednosti kot v PPO.

Kazen za odstopanje KL: GRPO nagradi ne doda kazni za razhajanje KL, kot PPO, ampak namesto tega doda razhajanje KL med modelom politike in referenčnim modelom neposredno funkciji izgube. S tem se izognemo kompleksnemu izračunu funkcije prednosti.

Osnovna ideja GRPO

ne potrebuje kritika (funkcija vrednosti): GRPO se izogne potrebi po funkciji vrednosti in uporablja oceno znotraj skupine za oceno izhodišča, s čimer se zmanjšajo sredstva za usposabljanje.

Relativna prednost znotraj skupine: Za vsako težavo q GRPO vzorči nabor rezultatov {o(1), o(2), …, o(G)} iz starega pravilnika π(θold) in nato optimizira model pravilnika z maksimiziranjem naslednje enačbe kot ciljne funkcije.

Natančneje:

Ključ tukaj je Â(i,t), ki predstavlja prednost in se izračuna z relativna nagrada učinka znotraj skupine, namesto da bi se zanašal na ločeno vrednostno funkcijo kot v PPO.

Ciljna funkcija tudi neposredno dodaja Divergenca KL kot izraz za regulacijo za nadzor velikosti posodobitve politike

in uskladiti s primerjalno naravo modela nagrajevanja: GRPO uporablja relativno nagrado znotraj skupine za izračun prednosti, ki je bolj skladna z naravo modela nagrajevanja, ki se običajno usposablja na podlagi primerjave po parih.

Kako je mogoče oblikovati model nagrajevanja GRPO (glej DeepSeek R1)?

Lastnosti:

oblika nagrade: sili generacijo dolgih posteljica rezultate, ki lahko spodbudijo model, da ustvari procese sklepanja in izboljša učinek sklepanja modela.

nagrada za natančnost: matematika lahko uporabi končni rezultat, koda pa povratne informacije prevajalnika.

Prednosti GRPO

Manj pomnilniškega odtisa: model Critic ni potreben, kar zmanjšuje zahteve po pomnilniku.

Učinkovitejši trening: izračun z uporabo relativne prednosti znotraj skupine poenostavi proces usposabljanja.

Bolj združljivo z naravo modelov nagrajevanja: izboljša stabilnost in učinkovitost treninga.

Povzetek enotne paradigme RL

Predlagana enotna paradigma

Avtorji predlagajo enotno paradigmo za razumevanje različnih metod usposabljanja, kot so SFT (Supervised Fine-tuning), RFT (Rejection Sampling Fine-tuning), DPO (Direct Preference Optimization), PPO, GRPO itd. Ključni elementi RL: Ključni elementi enotnega okvira so: viri podatkov, funkcije nagrajevanja in algoritmi.

  • Vir podatkov: To se nanaša na podatke, uporabljene za usposabljanje, ki jih je mogoče izpeljati iz ročnega označevanja, modelov SFT ali modelov politik v realnem času.
  • Funkcija nagrajevanja: To se nanaša na funkcijo, ki se uporablja za ocenjevanje kakovosti izhoda, ki je lahko pravilo ali model.
  • Algoritem: To se nanaša na metodo, uporabljeno za obdelavo podatkov in signala nagrade ter posodobitev parametrov modela.

Analiza različnih metod na podlagi enotne paradigme

Tabela 10 povzema podobnosti in razlike med SFT, RFT, DPO, Online RFT, PPO in GRPO glede podatkovnih virov, funkcij nagrajevanja in koeficientov gradienta.

MetodaPodatki o usposabljanjuFunkcija nagrajevanjaGradientni koeficientMetoda usposabljanjaPrednosti/lastnostiVeljavni scenariji
SFTRočno označeni podatki SFTRočno izbrano (implicitna nagrada)Pritrjeno na 1Učenje pod nadzoromPreprost in stabilen, odvisen od visokokakovostnih označenih podatkovOsnovno usposabljanje modela, naloga začetne poravnave
RFTTežava z naborom podatkov SFT + Izhod vzorca modela SFTNa podlagi pravilnosti odgovora (presoja pravila)0 (napačno) ali 1 (pravilno)Optimizacija pravilnika brez povezaveUčinkovit izračun, neposredna uporaba povratnih informacij o pravilihMatematične/logične naloge z jasnimi pravili
DPOTežava z naborom podatkov SFT + izhod modela zaOznačevanje človeških preferenc ali primerjava pravilNa podlagi izračuna verjetnosti preference (npr. model Bradley-Terry)Primerjalno učenjeIzogiba se eksplicitnemu modeliranju nagrajevanja in neposredno optimizira nastavitveNaloge usklajevanja človeških preferenc (npr. ustvarjanje dialoga)
Spletni RFTVzorčenje modela politike v realnem času pari problem-izhodNa podlagi pravilnosti odgovora (presoja pravila)0 (napačno) ali 1 (pravilno)Optimizacija spletne politikeDinamično posodablja politike z optimizacijo povratnih informacij v realnem časuScenariji, ki zahtevajo spletno interakcijo (npr. AI igre)
PPOTežava z naborom podatkov SFT + rezultat vzorčenja modela politikeModel nagrajevanja (RM) je usposobljenPrevladujoča funkcija (na podlagi ocene nagrade)Metoda gradienta politikeUčinkovit in stabilen, podpira večstopenjsko optimizacijoKompleksne naloge (npr. ustvarjanje besedila, krmiljenje robota)
GRPOTežava z naborom podatkov SFT + izhod vzorčenja modela politikeModel nagrajevanja (RM) je usposobljenRelativna nagrada znotraj skupine (normalizirana primerjava)Optimizacija pravilnika skupineZmanjšajte varianco nagrad in izboljšajte primerjavo znotraj skupineNaloge z visoko varianco (npr. ustvarjanje dolgega besedila)

Opažanja o virih podatkov

Spletno proti offline usposabljanju: Spletno usposabljanje se nanaša na uporabo izhoda modela politike v realnem času kot podatkov o usposabljanju, medtem ko se usposabljanje brez povezave nanaša na uporabo izhoda fiksnega modela (kot je model SFT) kot podatkov o usposabljanju. To kažejo eksperimentalni rezultati spletno usposabljanje je na splošno boljše od usposabljanja brez povezave.

Nadzor rezultatov proti nadzoru procesa: Nadzor rezultatov se nanaša le na nagrajevanje zadnjega koraka rezultata, medtem ko se nadzor procesa nanaša na nagrajevanje vsakega koraka procesa sklepanja. To kažejo eksperimentalni rezultati nadzor procesa je učinkovitejši pri kompleksnih nalogah.

Posamezna epizoda proti iterativnemu učenju s krepitvijo: Učenje z okrepitvijo v eni epizodi se nanaša na optimizacijo ene same strategije, medtem ko se iterativno učenje z okrepitvijo nanaša na nenehno posodabljanje modela nagrajevanja po več optimizacijah strategije. To kažejo eksperimentalni rezultati iterativno učenje s krepitvijo lahko znatno izboljša uspešnost, zlasti v prvi ponovitvi.

Opazovanje koeficientov gradienta

Na podlagi pravil v primerjavi z modelom: Pravilo se nanaša na določanje nagrade na podlagi pravilnosti odgovora, Model pa na usposabljanje modela nagrajevanja za točkovanje.

Razlika v koeficientih gradienta: Ključna razlika med GRPO in Spletni RFT je, da GRPO prilagodi svoje gradientne koeficiente glede na vrednosti nagrad, ki jih zagotavlja model nagrajevanja, medtem ko Online RFT tega ne stori.

Prednosti GRPO: Eksperimenti to kažejo GRPO je boljši od spletnega RFT in dokazuje učinkovitost spreminjanja predznaka koeficientov gradienta. GRPO+PS je boljši od GRPO+OS in dokazuje prednosti uporabe drobnozrnatih koeficientov gradienta, ki se zavedajo korakov..

Učinkovitost RL in smernice za izboljšanje

Zakaj je RL učinkovit?

Eksperimentalni rezultati: RL izboljša zmogljivost Maj@K, ne pa tudi Pass@K.

Pojasnilo: RL izboljša celotno zmogljivost modela tako, da naredi distribucijo izhoda bolj robustno, tj. izboljša verjetnost pravilnih odgovorov v TopK, namesto da izboljša osnovno sposobnost modela.

Kako je mogoče doseči učinkovitejši RL?

Na podlagi enotne paradigme avtorji predlagajo prihodnje usmeritve za izboljšanje RL v treh vidikih: viri podatkov, algoritmi in funkcije nagrajevanja.

  • Viri podatkov:
    • Raziščite težave onkraj stopnje SFT.
    • Uporabite naprednejše strategije vzorčenja (dekodiranja), kot so metode iskanja po drevesih.
    • Uporabite učinkovite tehnike sklepanja za izboljšanje učinkovitosti raziskovanja modela politike.
  • Algoritem:
    • Raziščite algoritme učenja okrepitve, ki so bolj robustni do hrupnih signalov nagrajevanja.
    • Preučite metode poravnave OD ŠIBKEGA DO MOČNEGA.
  • Funkcija nagrajevanja:
    • Izboljšajte zmožnost posploševanja modela nagrajevanja za reševanje težav z izven distribucije in naprednih dekodiranih izhodov.
    • Odražajte negotovost modela nagrajevanja in ga uporabite kot most za povezovanje šibkih modelov nagrajevanja in učnih algoritmov OD ŠIBKEGA DO MOČNEGA.
    • Učinkovito sestavite visokokakovostne modele nagrajevanja procesov, da zagotovite natančne signale za usposabljanje za postopek sklepanja.

Povzetek

DeepSeekMath je znatno izboljšal zmožnost odprtokodnih jezikovnih modelov pri matematičnem sklepanju z izdelavo obsežnega matematičnega korpusa in predlaganjem novega algoritma za učenje z okrepitvijo. Poudarki tega prispevka so

  • konstrukcijo in validacijo DeepSeekMath Corpus, obsežnega, visokokakovostnega, večjezičnega matematičnega korpusa.
  • Predlaga se učinkovit algoritem za krepitev učenja, GRPO, za zmanjšanje porabe pomnilnika in hkrati izboljšanje sposobnosti matematičnega sklepanja modela.
  • Vpliv usposabljanja kodiranja na sposobnost matematičnega sklepanja je podrobno obravnavan in ugotovljeno je bilo, da imajo podatki arXiv omejen učinek. Vrednost DeepSeekMath:
  • Odprtokodni skupnosti zagotavlja zmogljiv model matematičnega razmišljanja in spodbuja razvoj matematične umetne inteligence.
  • Zagotavlja dragocene izkušnje in metode za gradnjo matematičnih korpusov in usposabljanje matematičnih modelov sklepanja.
  • Predlagani algoritem GRPO ponuja nove ideje za usposabljanje za krepitev učenja na drugih področjih.

Podobne objave

Dodaj odgovor

Vaš e-naslov ne bo objavljen. * označuje zahtevana polja