Danas bih želio podijeliti članak iz DeepSeek pod naslovom DeepSeekMath: Pomicanje granica matematičkog zaključivanja u modelima otvorenog jezika.
Ovaj članak predstavlja DeepSeekMath 7B, koji je prethodno obučen na temelju DeepSeek-Coder-Base-v1.5 7B zbirka od 120B tokena povezanih s matematikom, prirodni jezik i podaci koda.
Model je postigao zadivljujući rezultat od 51,7% u MATEMATIČKIM mjerilima natjecateljske razine bez oslanjanja na vanjske alate i tehnike glasanja, približavajući se razini izvedbe Gemini-Ultra i GPT-4.
DeepSeekMath 7B sposobnost matematičkog zaključivanja pripisuje se dvama ključnim čimbenicima: Prvo, kroz pažljivo osmišljen kanal za odabir podataka, visokokvalitetni podaci vezani uz matematiku iterativno se izvlače iz javno dostupnih web podataka.
Drugo, grupna relativna optimizacija politike (GRPO) je predstavljen, što je varijanta proksimalne optimizacije politike (PPO) koja može poboljšati sposobnost matematičkog zaključivanja dok optimizira korištenje memorije PPO-a.
- Značajke metode su sažete kako slijedi:Visokokvalitetni matematički korpus za prethodnu obuku je konstruiran, a pažljivo dizajniran cjevovod korišten je za rudarenje visokokvalitetnih matematičkih podataka iz Common Crawl-a.
- GRPO algoritam koji smanjuje resurse potrebne za obuku i poboljšava sposobnost matematičkog zaključivanja modela. 3) Vrhunska izvedba bio je postignuto u višestrukim referentnim testovima matematičkog zaključivanja.
Pregled
Titula: DeepSeekMath: Pomicanje granica matematičkog zaključivanja u modelima otvorenog jezika
URL: kliknite ovdje
Autori: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y. Wu, Daya Guo
Kodirati: kliknite ovdje
Motivacija
Matematičko razmišljanje predstavlja značajan izazov za jezične modele zbog složenosti i strukturirane prirode matematike. Najnapredniji modeli, poput GPT-4 i Gemini-Ultra, moćni su, ali nisu javno dostupni. Stoga postoji značajan prostor za poboljšanje izvedbe modeli otvorenog koda.
Složenost i struktura: Matematičko razmišljanje predstavlja značajan izazov za jezične modele zbog složenosti i strukturirane prirode matematike.
Potencijal javnih podataka: Javno dostupni web podaci mogu sadržavati bogate matematičke informacije koje tek treba istražiti i iskoristiti.
Metode
Prikupljanje podataka: Korpus DeepSeekMath od 120B tokena konstruiran je prikupljanjem visokokvalitetnih web podataka povezanih s matematikom iz Common Crawl-a kroz iterativni cjevovod.
Obuka modela: Korpus je korišten za prethodnu obuku na vrhu DeepSeek-Coder-Base-v1.5 7B, a primijenjen je algoritam finog podešavanja matematičkih instrukcija i optimizacije grupne relativne politike (GRPO).
GRPO algoritam: GRPO je poboljšani algoritam za učenje s pojačanjem koji uklanja kritički model u PPO-u i procjenjuje osnovnu vrijednost iz grupnog rezultata, čime se značajno smanjuju resursi za obuku.
Detaljne metode i postupci:
Prikupljanje i obrada podataka:

Build DeepSeekMath Corpus: Koristeći klasifikator koji se temelji na brzom tekstu, izdvojiti 120B tokena povezanih s matematikom od Common Crawl za izgradnju velikog, visokokvalitetnog unaprijed obučenog korpusa, DeepSeekMath Corpus.
Iterativno filtriranje podataka: Koristi se iterativna strategija, korištenje OpenWebMath kao početnih podataka za obuku početnog klasifikatora, a zatim korištenje ovog klasifikatora za rudarenje pozitivnijih primjera iz Common Crawl, koji su ručno označeni radi kontinuirane optimizacije performansi klasifikatora.
Višejezične značajke: DeepSeekMath Corpus sadrži višejezični podaci, što poboljšava izvedbu modela na kineskim matematičkim mjerilima.
Obrada de-polucije: de-obrada onečišćenja provodi se na podacima o obuci kako bi se izbjeglo preklapanje s referentnom vrijednošću testa.
Predtrening:
Inicijalizacija modela temeljena na kodu: Inicijalizacija pomoću DeepSeek-Coder-Base-v1.5 7B pokazalo se da je model učinkovitiji od inicijalizacije iz općeg LLM-a.
Sastav podataka prije obuke: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% Github kod, 10% Common Crawl podaci prirodnog jezika.
Parametri prije treninga: Koristi se AdamW optimizator, sa stopom učenja od 4.2e-4, veličinom serije od 10 milijuna tokena i obukom od 500B tokena.
Fino podešavanje uputa:
Konstruirajte skup podataka za fino podešavanje instrukcija: Konstruirajte skup podataka finog podešavanja matematičkih uputa koji sadrži 776K uzoraka, pokrivajući različita matematička polja i razine težine, uključujući CoT, PoT i formate zaključivanja integrirane u alate za rješavanje koraka.
Parametri treninga: Veličina serije 256, stopa učenja 5e-5, vježbanje za 500 koraka.
Učenje s pojačanjem – optimizacija grupne relativne politike (GRPO):
Predloži GRPO algoritam: Predložiti a PPO varijanta algoritma GRPO, koja izbjegava potrebu za Critic modelom korištenjem grupnih rezultata za procjenu osnovne vrijednosti, čime se smanjuju resursi za obuku.
Ciljna funkcija: GRPO optimizira model politike maksimiziranjem objektivne funkcije koja uzima u obzir relativnu prednost izlaza unutar grupe i izravno dodaje KL divergenciju kao regulacijski izraz.
Izračun prednosti: GRPO izračunava prednost kroz relativne nagrade unutar grupe, izbjegavanje usporedbi između grupa i bolja usklađenost s komparativnom prirodom modela nagrađivanja.
Podržava praćenje rezultata i procesa: GRPO može podržati praćenje ishoda i procesa te učinkovitije nadzirati politiku pružanjem nagrada na kraju svakog koraka zaključivanja.
Iterativni RL: Koristi an iterativna RL strategija za generiranje novog skupa obuke na temelju rezultata uzorkovanja modela politike, kontinuirano treniranje starog modela nagrađivanja i korištenje novog modela nagrađivanja za ažuriranje modela politike.
Podaci o obuci: Koristi CoT format probleme koji se odnose na GSM8K i MATH u SFT podacima, oko 144K problema.
Parametri treninga: Stopa učenja modela politike je 1e-6, KL koeficijent je 0,04, 64 izlaza su uzorkovana za svaki problem, maksimalna duljina je 1024, a veličina serije za obuku je 1024.
Zaključak

Zaključak 1:DeepSeekMath 7B nadmašuje sve modele otvorenog koda u sposobnosti matematičkog zaključivanja. U kompetitivnom MATH benchmark testu, DeepSeekMath 7B postigao je točnost od 51,7%, što je blizu razine performansi Gemini-Ultra i GPT-4.
Zaključak 2:Dobro osmišljeni podaci prije obuke i GRPO algoritmi ključni su za uspjeh modela. Kombinacija visokokvalitetnog matematičkog korpusa i GRPO algoritama omogućuje modelu postizanje značajnih poboljšanja performansi u zadacima matematičkog zaključivanja.
Zaključak 3:Obuka kodiranja pomaže u poboljšanju sposobnosti matematičkog zaključivanja. Dodavanje podataka koda u fazu preduvježbavanja može poboljšati sposobnost modela za rješavanje matematičkih problema, sa i bez alata.
Zaključak 4: Ograničena korisnost arXiv podataka: Suprotno prijašnjim uvjerenjima, otkriveno je da su podaci arXiva bili od ograničene pomoći u poboljšanju matematičkog zaključivanja.
Ograničenje
Mogućnosti geometrije i dokaza su relativno slabe: Iako se DeepSeekMath ističe u kvantitativnom razmišljanju, njegove mogućnosti u geometriji i dokazu još uvijek su inferiorni u odnosu na modele zatvorenog koda. To može biti posljedica pristranog odabira podataka u fazama predobuke i finog podešavanja.
Slabost u malom kapacitetu uzorka: DeepSeekMath je inferioran GPT-4 u smislu učenja malog uzorka, što može biti posljedica ograničenja veličine modela.
Potrebne su učinkovitije metode učenja s potkrepljenjem: Iako su metode učenja s potkrepljenjem predložene u radu učinkovite, još uvijek ima prostora za poboljšanje, na primjer, kako učinkovitije koristiti povratne informacije iz modela nagrađivanja i kako se nositi s bučnim signalima nagrađivanja.
pojedinosti
Istraživanje i analiza učenja s potkrepljenjem
Pregled:
Uvođenje optimizacije grupne relativne politike (GRPO): U radu se predlaže novi algoritam za učenje s pojačanjem, GRPO, kao varijanta Proximal Policy Optimization (PPO). Glavna značajka GRPO-a je da ga napušta Critic model koji se obično koristi u PPO-u i procjenjuje osnovnu vrijednost kroz grupne rezultate, čime se uvelike smanjuju računalni resursi potrebni za obuku.
Demonstracija GRPO učinkovitosti: Rad eksperimentalno pokazuje da GRPO može učinkovito poboljšati performanse modela finog podešavanja naredbi, uključujući matematičke zadatke u domeni i izvan domene.
Jedinstveni okvir za metode učenja s pojačanjem: Rad predlaže jedinstveni okvir za razumijevanje različitih metoda učenja s potkrepljenjem, kao što su Fino podešavanje uzorkovanja odbijanja (RFT), izravna optimizacija preferencija (DPO), PPO i GRPO. Okvir tretira ove metode kao izravne ili pojednostavljene tehnike učenja s potkrepljenjem.
Detaljno istraživanje elemenata učenja s potkrepljenjem: Rad istražuje dubinski ključni elementi učenja s potkrepljenjem, kao što su mrežna obuka i izvanmrežna obuka, nadzor rezultata i nadzor procesa, jednokružno učenje s potkrepljenjem i iterativno učenje s potkrepljenjem, kroz detaljne eksperimente, i sažima moguće smjerove za poboljšanje učinkovitosti učenja s potkrepljenjem.
GRPO (Group Relative Policy Optimization) algoritam

Ograničenja od PPO: PPO je često korišteni algoritam za učenje potkrepljenja, ali zahtijeva obuku dodatni kritičarski model procijeniti funkciju vrijednosti, koja nameće dodatni računalni i memorijski teret. Osim toga, u scenariju LLM-a, Obuka kritičkog modela može biti komplicirana jer zahtijeva evaluaciju izlaz svakog tokena.
Osnovna ideja GRPO-a: Temeljna ideja GRPO-a je da napustite Kritički model i umjesto toga koristite prosječnu ocjenu skupa rezultata za isti problem kao osnovnu vrijednost. Ova osnovna linija može se koristiti za procjenu funkcije prednosti i za optimizaciju politike. Ovaj pristup značajno smanjuje složenost treninga.
Izračun funkcije prednosti: GRPO izračunava funkciju prednosti prema izračunavanje relativnog rangiranja svakog izlaza u istom skupu izlaza, umjesto oslanjanja na zasebnu funkciju vrijednosti kao u PPO.
Kazna za divergenciju KL-a: GRPO ne dodaje kaznu odstupanja KL-a nagradi kao PPO, već umjesto toga dodaje odstupanje KL-a između modela politike i referentnog modela izravno u funkciju gubitka. Time se izbjegava složeni izračun funkcije prednosti.
Temeljna ideja GRPO-a
ne zahtijeva kritičara (funkcija vrijednosti): GRPO izbjegava potrebu za funkcijom vrijednosti i koristi rezultat unutar grupe za procjenu osnovne vrijednosti, čime se smanjuju resursi za obuku.
Relativna prednost unutar grupe: Za svaki problem q, GRPO uzorkuje skup izlaza {o(1), o(2), …, o(G)} iz stare politike π(θold) i zatim optimizira model politike maksimiziranjem sljedeće jednadžbe kao funkcije cilja.

Posebno:

Ovdje je ključ Â(i,t), koji predstavlja prednost i izračunava se prema relativna nagrada učinka unutar grupe, umjesto oslanjanja na zasebnu funkciju vrijednosti kao u PPO.

Funkcija cilja također izravno zbraja KL divergencija kao regulacijski izraz za kontrolu veličine ažuriranja pravila

i uskladiti s usporednom prirodom modela nagrađivanja: GRPO koristi relativnu unutargrupnu nagradu za izračun prednosti, što je više u skladu s prirodom modela nagrađivanja, koji se obično trenira na temelju usporedbe u paru.
Kako se može dizajnirati model nagrađivanja GRPO-a (pogledajte DeepSeek R1)?
Značajke:
format nagrade: tjera generaciju dugih dječji krevetić rezultate, koji mogu potaknuti model na generiranje procesa zaključivanja i poboljšati učinak zaključivanja modela.
nagrada za točnost: matematika može koristiti konačni rezultat, a kod može koristiti povratnu informaciju prevoditelja.
Prednosti GRPO
Manje memorijskog otiska: nije potreban Critic model, smanjujući zahtjeve za memorijom.
Učinkovitiji trening: izračun korištenjem relativne prednosti unutar grupe pojednostavljuje proces obuke.
Kompatibilnije s prirodom modela nagrađivanja: poboljšava stabilnost i učinkovitost treninga.
Sažetak objedinjene paradigme RL
Predložena jedinstvena paradigma
Autori predlažu jedinstvenu paradigmu za razumijevanje različitih metoda obuke kao što su SFT (nadzirano fino ugađanje), RFT (fino ugađanje odbijanja uzorkovanja), DPO (izravna optimizacija preferencija), PPO, GRPO, itd. RL ključni elementi: Ključni elementi jedinstvenog okvira uključuju: izvore podataka, funkcije nagrađivanja i algoritme.
- Izvor podataka: Ovo se odnosi na podatke koji se koriste za obuku, a koji se mogu izvesti iz ručnog označavanja, SFT modela ili modela politika u stvarnom vremenu.
- Funkcija nagrađivanja: Ovo se odnosi na funkciju koja se koristi za procjenu kvalitete izlaza, a koja može biti pravilo ili model.
- Algoritam: Ovo se odnosi na metodu koja se koristi za obradu podataka i signala nagrade te ažuriranje parametara modela.
Analiza različitih metoda na temelju jedinstvene paradigme
Tablica 10 sažima sličnosti i razlike između SFT-a, RFT-a, DPO-a, Online RFT-a, PPO-a i GRPO-a u pogledu izvora podataka, funkcija nagrađivanja i koeficijenata gradijenta.
metoda | Podaci o obuci | Funkcija nagrađivanja | Koeficijent gradijenta | Metoda treninga | Prednosti/značajke | Primjenjivi scenariji |
SFT | Ručno označeni SFT podaci | Ručno odabrano (implicitna nagrada) | Fiksirano na 1 | Učenje pod nadzorom | Jednostavan i stabilan, ovisan o visokokvalitetnim označenim podacima | Osnovna obuka modela, početni zadatak usklađivanja |
RFT | Problem sa skupom SFT podataka + Izlaz uzorka SFT modela | Na temelju točnosti odgovora (prosudba pravila) | 0 (pogrešno) ili 1 (točno) | Offline optimizacija pravila | Učinkovit izračun, izravna upotreba povratne informacije o pravilu | Matematičko-logički zadaci s jasnim pravilima |
DPO | Problem sa skupom SFT podataka + izlaz modela na | Označavanje ljudskih preferencija ili usporedba pravila | Na temelju izračuna vjerojatnosti preferencija (npr. Bradley-Terryjev model) | Učenje usporedbom | Izbjegava eksplicitno modeliranje nagrada, izravno optimizirajući preferencije | Zadaci usklađivanja ljudskih preferencija (npr. stvaranje dijaloga) |
Online RFT | Uzorkovanje modela politike u stvarnom vremenu parovi problem-izlaz | Na temelju točnosti odgovora (prosudba pravila) | 0 (pogrešno) ili 1 (točno) | Online optimizacija pravila | Dinamički ažurira pravila s optimizacijom povratnih informacija u stvarnom vremenu | Scenariji koji zahtijevaju online interakciju (npr. AI igra) |
PPO | Problem sa skupom SFT podataka + izlaz uzorkovanja modela politike | Model nagrađivanja (RM) obučen | Funkcija dominacije (na temelju procjene nagrade) | Metoda gradijenta politike | Učinkovit i stabilan, podržava optimizaciju u više koraka | Složeni zadaci (npr. generiranje teksta, upravljanje robotom) |
GRPO | Problem skupa SFT podataka + rezultat uzorkovanja modela politike | Model nagrađivanja (RM) obučen | Relativna nagrada unutar grupe (normalizirana usporedba) | Optimizacija pravila grupe | Smanjite varijancu nagrađivanja i poboljšajte usporedbu unutar grupe | Zadaci s velikom varijacijom (npr. generiranje dugog teksta) |
Zapažanja o izvorima podataka

Online vs offline trening: Mrežna obuka odnosi se na korištenje izlaza modela politike u stvarnom vremenu kao podataka za obuku, dok se izvanmrežna obuka odnosi na korištenje izlaza fiksnog modela (kao što je SFT model) kao podataka za obuku. Eksperimentalni rezultati to pokazuju online obuka općenito je bolja od offline obuke.
Nadzor ishoda u odnosu na nadzor procesa: Nadzor ishoda odnosi se samo na nagrađivanje završnog koraka rezultata, dok se nadzor procesa odnosi na nagrađivanje svakog koraka procesa rasuđivanja. Eksperimentalni rezultati to pokazuju nadzor procesa je učinkovitiji u složenim zadacima.
Pojedinačna epizoda naspram iterativnog učenja za potkrepljivanje: Učenje s pojačanjem u jednoj epizodi odnosi se na optimizaciju jedne strategije, dok se iterativno učenje s pojačanjem odnosi na kontinuirano ažuriranje modela nagrađivanja nakon više optimizacija strategije. Eksperimentalni rezultati to pokazuju iterativno učenje s pojačanjem može značajno poboljšati izvedbu, osobito u prvoj iteraciji.
Promatranje koeficijenata gradijenta
Na temelju pravila naspram modela: Pravilo se odnosi na određivanje nagrade na temelju točnosti odgovora, a Model se odnosi na osposobljavanje modela nagrađivanja za bodovanje.
Razlika u koeficijentima gradijenta: Ključna razlika između GRPO i Online RFT je taj da GRPO prilagođava svoje koeficijente gradijenta na temelju vrijednosti nagrade koje nudi model nagrađivanja, dok Online RFT to ne čini.
GRPO prednosti: Eksperimenti to pokazuju GRPO je superiorniji od Online RFT-a, pokazujući učinkovitost promjene predznaka koeficijenata gradijenta. GRPO+PS je superiorniji od GRPO+OS, demonstrirajući prednosti korištenja fino zrnatih koeficijenata gradijenta s obzirom na korake.
Učinkovitost RL i smjernice za poboljšanje
Zašto je RL učinkovit?

Eksperimentalni rezultati: RL poboljšava performanse Maj@K, ali ne i Pass@K.
Obrazloženje: RL poboljšava ukupnu izvedbu modela čineći izlaznu distribuciju robusnijom, tj. poboljšava vjerojatnost točnih odgovora u TopK-u, umjesto da poboljšava temeljnu sposobnost modela.
Kako se može postići učinkovitiji RL?
Na temelju jedinstvene paradigme, autori predlažu buduće smjerove za poboljšanje RL-a u tri aspekta: izvori podataka, algoritmi i funkcije nagrađivanja.
- Izvori podataka:
- Istražite probleme izvan faze SFT-a.
- Koristite naprednije strategije uzorkovanja (dekodiranja), kao što su metode koje se temelje na pretraživanju stabla.
- Koristite učinkovite tehnike zaključivanja kako biste poboljšali učinkovitost istraživanja modela politike.
- Algoritam:
- Istražite algoritme učenja potkrepljenja koji su otporniji na bučne signale nagrade.
- Proučite metode usklađivanja tipa OD SLABOG PREMA JAKOM.
- Funkcija nagrađivanja:
- Poboljšajte sposobnost generalizacije modela nagrađivanja za rješavanje problema izvan distribucije i naprednih dekodiranih izlaza.
- Odrazite neizvjesnost modela nagrađivanja i upotrijebite ga kao most za povezivanje slabih modela nagrađivanja i algoritama učenja OD SLABOGA PREMA JAKOM.
- Učinkovito konstruirajte visokokvalitetne modele nagrađivanja procesa kako biste pružili precizne signale za obuku za proces zaključivanja.
Sažetak
DeepSeekMath značajno je poboljšao sposobnost modela jezika otvorenog koda u matematičkom zaključivanju konstruiranjem matematičkog korpusa velikih razmjera i prijedlogom novog algoritma za učenje s potkrepljenjem. Naglasci ovog rada su
- konstrukciju i provjeru valjanosti DeepSeekMath Corpusa, opsežnog, visokokvalitetnog, višejezičnog matematičkog korpusa.
- Predlaže se učinkoviti algoritam učenja s pojačanjem, GRPO, za smanjenje upotrebe memorije uz poboljšanje sposobnosti matematičkog zaključivanja modela.
- Detaljno se raspravlja o utjecaju obuke koda na sposobnost matematičkog zaključivanja i utvrđeno je da arXiv podaci imaju ograničen učinak. Vrijednost DeepSeekMath:
- Zajednici otvorenog izvornog koda pruža snažan model matematičkog zaključivanja i promiče razvoj matematičke umjetne inteligencije.
- Pruža dragocjeno iskustvo i metode za izgradnju matematičkih korpusa i obuku matematičkih modela zaključivanja.
- Predloženi GRPO algoritam pruža nove ideje za obuku učenja s potkrepljenjem u drugim područjima.