Tajna iza DeepSeek 1 | DeepSeekMath i GRPO detalji

Danas bih želio podijeliti članak iz DeepSeek pod naslovom DeepSeekMath: Pomicanje granica matematičkog zaključivanja u modelima otvorenog jezika.

Ovaj članak predstavlja DeepSeekMath 7B, koji je prethodno obučen na temelju DeepSeek-Coder-Base-v1.5 7B zbirka od 120B tokena povezanih s matematikom, prirodni jezik i podaci koda.

Model je postigao zadivljujući rezultat od 51,7% u MATEMATIČKIM mjerilima natjecateljske razine bez oslanjanja na vanjske alate i tehnike glasanja, približavajući se razini izvedbe Gemini-Ultra i GPT-4.

DeepSeekMath 7B sposobnost matematičkog zaključivanja pripisuje se dvama ključnim čimbenicima: Prvo, kroz pažljivo osmišljen kanal za odabir podataka, visokokvalitetni podaci vezani uz matematiku iterativno se izvlače iz javno dostupnih web podataka.

Drugo, grupna relativna optimizacija politike (GRPO) je predstavljen, što je varijanta proksimalne optimizacije politike (PPO) koja može poboljšati sposobnost matematičkog zaključivanja dok optimizira korištenje memorije PPO-a.

Značajke metode su sažete kako slijedi:Visokokvalitetni matematički korpus za prethodnu obuku je konstruiran, a pažljivo dizajniran cjevovod korišten je za rudarenje visokokvalitetnih matematičkih podataka iz Common Crawl-a.
GRPO algoritam koji smanjuje resurse potrebne za obuku i poboljšava sposobnost matematičkog zaključivanja modela. 3) Vrhunska izvedba bio je postignuto u višestrukim referentnim testovima matematičkog zaključivanja.

Pregled

Titula: DeepSeekMath: Pomicanje granica matematičkog zaključivanja u modelima otvorenog jezika

URL: kliknite ovdje

Autori: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y. Wu, Daya Guo

Kodirati: kliknite ovdje

Motivacija

Matematičko razmišljanje predstavlja značajan izazov za jezične modele zbog složenosti i strukturirane prirode matematike. Najnapredniji modeli, poput GPT-4 i Gemini-Ultra, moćni su, ali nisu javno dostupni. Stoga postoji značajan prostor za poboljšanje izvedbe modeli otvorenog koda.

Složenost i struktura: Matematičko razmišljanje predstavlja značajan izazov za jezične modele zbog složenosti i strukturirane prirode matematike.

Potencijal javnih podataka: Javno dostupni web podaci mogu sadržavati bogate matematičke informacije koje tek treba istražiti i iskoristiti.

Metode

Prikupljanje podataka: Korpus DeepSeekMath od 120B tokena konstruiran je prikupljanjem visokokvalitetnih web podataka povezanih s matematikom iz Common Crawl-a kroz iterativni cjevovod.

Obuka modela: Korpus je korišten za prethodnu obuku na vrhu DeepSeek-Coder-Base-v1.5 7B, a primijenjen je algoritam finog podešavanja matematičkih instrukcija i optimizacije grupne relativne politike (GRPO).

GRPO algoritam: GRPO je poboljšani algoritam za učenje s pojačanjem koji uklanja kritički model u PPO-u i procjenjuje osnovnu vrijednost iz grupnog rezultata, čime se značajno smanjuju resursi za obuku.

Detaljne metode i postupci:

Prikupljanje i obrada podataka:

Build DeepSeekMath Corpus: Koristeći klasifikator koji se temelji na brzom tekstu, izdvojiti 120B tokena povezanih s matematikom od Common Crawl za izgradnju velikog, visokokvalitetnog unaprijed obučenog korpusa, DeepSeekMath Corpus.

Iterativno filtriranje podataka: Koristi se iterativna strategija, korištenje OpenWebMath kao početnih podataka za obuku početnog klasifikatora, a zatim korištenje ovog klasifikatora za rudarenje pozitivnijih primjera iz Common Crawl, koji su ručno označeni radi kontinuirane optimizacije performansi klasifikatora.

Višejezične značajke: DeepSeekMath Corpus sadrži višejezični podaci, što poboljšava izvedbu modela na kineskim matematičkim mjerilima.

Obrada de-polucije: de-obrada onečišćenja provodi se na podacima o obuci kako bi se izbjeglo preklapanje s referentnom vrijednošću testa.

Predtrening:

Inicijalizacija modela temeljena na kodu: Inicijalizacija pomoću DeepSeek-Coder-Base-v1.5 7B pokazalo se da je model učinkovitiji od inicijalizacije iz općeg LLM-a.

Sastav podataka prije obuke: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% Github kod, 10% Common Crawl podaci prirodnog jezika.

Parametri prije treninga: Koristi se AdamW optimizator, sa stopom učenja od 4.2e-4, veličinom serije od 10 milijuna tokena i obukom od 500B tokena.

Fino podešavanje uputa:

Konstruirajte skup podataka za fino podešavanje instrukcija: Konstruirajte skup podataka finog podešavanja matematičkih uputa koji sadrži 776K uzoraka, pokrivajući različita matematička polja i razine težine, uključujući CoT, PoT i formate zaključivanja integrirane u alate za rješavanje koraka.

Parametri treninga: Veličina serije 256, stopa učenja 5e-5, vježbanje za 500 koraka.

Učenje s pojačanjem – optimizacija grupne relativne politike (GRPO):

Predloži GRPO algoritam: Predložiti a PPO varijanta algoritma GRPO, koja izbjegava potrebu za Critic modelom korištenjem grupnih rezultata za procjenu osnovne vrijednosti, čime se smanjuju resursi za obuku.

Ciljna funkcija: GRPO optimizira model politike maksimiziranjem objektivne funkcije koja uzima u obzir relativnu prednost izlaza unutar grupe i izravno dodaje KL divergenciju kao regulacijski izraz.

Izračun prednosti: GRPO izračunava prednost kroz relativne nagrade unutar grupe, izbjegavanje usporedbi između grupa i bolja usklađenost s komparativnom prirodom modela nagrađivanja.

Podržava praćenje rezultata i procesa: GRPO može podržati praćenje ishoda i procesa te učinkovitije nadzirati politiku pružanjem nagrada na kraju svakog koraka zaključivanja.

Iterativni RL: Koristi an iterativna RL strategija za generiranje novog skupa obuke na temelju rezultata uzorkovanja modela politike, kontinuirano treniranje starog modela nagrađivanja i korištenje novog modela nagrađivanja za ažuriranje modela politike.

Podaci o obuci: Koristi CoT format probleme koji se odnose na GSM8K i MATH u SFT podacima, oko 144K problema.

Parametri treninga: Stopa učenja modela politike je 1e-6, KL koeficijent je 0,04, 64 izlaza su uzorkovana za svaki problem, maksimalna duljina je 1024, a veličina serije za obuku je 1024.

Zaključak

Zaključak 1:DeepSeekMath 7B nadmašuje sve modele otvorenog koda u sposobnosti matematičkog zaključivanja. U kompetitivnom MATH benchmark testu, DeepSeekMath 7B postigao je točnost od 51,7%, što je blizu razine performansi Gemini-Ultra i GPT-4.

Zaključak 2:Dobro osmišljeni podaci prije obuke i GRPO algoritmi ključni su za uspjeh modela. Kombinacija visokokvalitetnog matematičkog korpusa i GRPO algoritama omogućuje modelu postizanje značajnih poboljšanja performansi u zadacima matematičkog zaključivanja.

Zaključak 3:Obuka kodiranja pomaže u poboljšanju sposobnosti matematičkog zaključivanja. Dodavanje podataka koda u fazu preduvježbavanja može poboljšati sposobnost modela za rješavanje matematičkih problema, sa i bez alata.

Zaključak 4: Ograničena korisnost arXiv podataka: Suprotno prijašnjim uvjerenjima, otkriveno je da su podaci arXiva bili od ograničene pomoći u poboljšanju matematičkog zaključivanja.

Ograničenje

Mogućnosti geometrije i dokaza su relativno slabe: Iako se DeepSeekMath ističe u kvantitativnom razmišljanju, njegove mogućnosti u geometriji i dokazu još uvijek su inferiorni u odnosu na modele zatvorenog koda. To može biti posljedica pristranog odabira podataka u fazama predobuke i finog podešavanja.

Slabost u malom kapacitetu uzorka: DeepSeekMath je inferioran GPT-4 u smislu učenja malog uzorka, što može biti posljedica ograničenja veličine modela.

Potrebne su učinkovitije metode učenja s potkrepljenjem: Iako su metode učenja s potkrepljenjem predložene u radu učinkovite, još uvijek ima prostora za poboljšanje, na primjer, kako učinkovitije koristiti povratne informacije iz modela nagrađivanja i kako se nositi s bučnim signalima nagrađivanja.

pojedinosti

Istraživanje i analiza učenja s potkrepljenjem

Pregled:

Uvođenje optimizacije grupne relativne politike (GRPO): U radu se predlaže novi algoritam za učenje s pojačanjem, GRPO, kao varijanta Proximal Policy Optimization (PPO). Glavna značajka GRPO-a je da ga napušta Critic model koji se obično koristi u PPO-u i procjenjuje osnovnu vrijednost kroz grupne rezultate, čime se uvelike smanjuju računalni resursi potrebni za obuku.

Demonstracija GRPO učinkovitosti: Rad eksperimentalno pokazuje da GRPO može učinkovito poboljšati performanse modela finog podešavanja naredbi, uključujući matematičke zadatke u domeni i izvan domene.

Jedinstveni okvir za metode učenja s pojačanjem: Rad predlaže jedinstveni okvir za razumijevanje različitih metoda učenja s potkrepljenjem, kao što su Fino podešavanje uzorkovanja odbijanja (RFT), izravna optimizacija preferencija (DPO), PPO i GRPO. Okvir tretira ove metode kao izravne ili pojednostavljene tehnike učenja s potkrepljenjem.

Detaljno istraživanje elemenata učenja s potkrepljenjem: Rad istražuje dubinski ključni elementi učenja s potkrepljenjem, kao što su mrežna obuka i izvanmrežna obuka, nadzor rezultata i nadzor procesa, jednokružno učenje s potkrepljenjem i iterativno učenje s potkrepljenjem, kroz detaljne eksperimente, i sažima moguće smjerove za poboljšanje učinkovitosti učenja s potkrepljenjem.

GRPO (Group Relative Policy Optimization) algoritam

Ograničenja od PPO: PPO je često korišteni algoritam za učenje potkrepljenja, ali zahtijeva obuku dodatni kritičarski model procijeniti funkciju vrijednosti, koja nameće dodatni računalni i memorijski teret. Osim toga, u scenariju LLM-a, Obuka kritičkog modela može biti komplicirana jer zahtijeva evaluaciju izlaz svakog tokena.

Osnovna ideja GRPO-a: Temeljna ideja GRPO-a je da napustite Kritički model i umjesto toga koristite prosječnu ocjenu skupa rezultata za isti problem kao osnovnu vrijednost. Ova osnovna linija može se koristiti za procjenu funkcije prednosti i za optimizaciju politike. Ovaj pristup značajno smanjuje složenost treninga.

Izračun funkcije prednosti: GRPO izračunava funkciju prednosti prema izračunavanje relativnog rangiranja svakog izlaza u istom skupu izlaza, umjesto oslanjanja na zasebnu funkciju vrijednosti kao u PPO.

Kazna za divergenciju KL-a: GRPO ne dodaje kaznu odstupanja KL-a nagradi kao PPO, već umjesto toga dodaje odstupanje KL-a između modela politike i referentnog modela izravno u funkciju gubitka. Time se izbjegava složeni izračun funkcije prednosti.

Temeljna ideja GRPO-a

ne zahtijeva kritičara (funkcija vrijednosti): GRPO izbjegava potrebu za funkcijom vrijednosti i koristi rezultat unutar grupe za procjenu osnovne vrijednosti, čime se smanjuju resursi za obuku.

Relativna prednost unutar grupe: Za svaki problem q, GRPO uzorkuje skup izlaza {o(1), o(2), …, o(G)} iz stare politike π(θold) i zatim optimizira model politike maksimiziranjem sljedeće jednadžbe kao funkcije cilja.

Posebno:

Ovdje je ključ Â(i,t), koji predstavlja prednost i izračunava se prema relativna nagrada učinka unutar grupe, umjesto oslanjanja na zasebnu funkciju vrijednosti kao u PPO.

Funkcija cilja također izravno zbraja KL divergencija kao regulacijski izraz za kontrolu veličine ažuriranja pravila

i uskladiti s usporednom prirodom modela nagrađivanja: GRPO koristi relativnu unutargrupnu nagradu za izračun prednosti, što je više u skladu s prirodom modela nagrađivanja, koji se obično trenira na temelju usporedbe u paru.

Kako se može dizajnirati model nagrađivanja GRPO-a (pogledajte DeepSeek R1)?

Značajke:

format nagrade: tjera generaciju dugih dječji krevetić rezultate, koji mogu potaknuti model na generiranje procesa zaključivanja i poboljšati učinak zaključivanja modela.

nagrada za točnost: matematika može koristiti konačni rezultat, a kod može koristiti povratnu informaciju prevoditelja.

Prednosti GRPO

Manje memorijskog otiska: nije potreban Critic model, smanjujući zahtjeve za memorijom.

Učinkovitiji trening: izračun korištenjem relativne prednosti unutar grupe pojednostavljuje proces obuke.

Kompatibilnije s prirodom modela nagrađivanja: poboljšava stabilnost i učinkovitost treninga.

Sažetak objedinjene paradigme RL

Predložena jedinstvena paradigma

Autori predlažu jedinstvenu paradigmu za razumijevanje različitih metoda obuke kao što su SFT (nadzirano fino ugađanje), RFT (fino ugađanje odbijanja uzorkovanja), DPO (izravna optimizacija preferencija), PPO, GRPO, itd. RL ključni elementi: Ključni elementi jedinstvenog okvira uključuju: izvore podataka, funkcije nagrađivanja i algoritme.

Izvor podataka: Ovo se odnosi na podatke koji se koriste za obuku, a koji se mogu izvesti iz ručnog označavanja, SFT modela ili modela politika u stvarnom vremenu.
Funkcija nagrađivanja: Ovo se odnosi na funkciju koja se koristi za procjenu kvalitete izlaza, a koja može biti pravilo ili model.
Algoritam: Ovo se odnosi na metodu koja se koristi za obradu podataka i signala nagrade te ažuriranje parametara modela.

Analiza različitih metoda na temelju jedinstvene paradigme

Tablica 10 sažima sličnosti i razlike između SFT-a, RFT-a, DPO-a, Online RFT-a, PPO-a i GRPO-a u pogledu izvora podataka, funkcija nagrađivanja i koeficijenata gradijenta.

metoda	Podaci o obuci	Funkcija nagrađivanja	Koeficijent gradijenta	Metoda treninga	Prednosti/značajke	Primjenjivi scenariji
SFT	Ručno označeni SFT podaci	Ručno odabrano (implicitna nagrada)	Fiksirano na 1	Učenje pod nadzorom	Jednostavan i stabilan, ovisan o visokokvalitetnim označenim podacima	Osnovna obuka modela, početni zadatak usklađivanja
RFT	Problem sa skupom SFT podataka + Izlaz uzorka SFT modela	Na temelju točnosti odgovora (prosudba pravila)	0 (pogrešno) ili 1 (točno)	Offline optimizacija pravila	Učinkovit izračun, izravna upotreba povratne informacije o pravilu	Matematičko-logički zadaci s jasnim pravilima
DPO	Problem sa skupom SFT podataka + izlaz modela na	Označavanje ljudskih preferencija ili usporedba pravila	Na temelju izračuna vjerojatnosti preferencija (npr. Bradley-Terryjev model)	Učenje usporedbom	Izbjegava eksplicitno modeliranje nagrada, izravno optimizirajući preferencije	Zadaci usklađivanja ljudskih preferencija (npr. stvaranje dijaloga)
Online RFT	Uzorkovanje modela politike u stvarnom vremenu parovi problem-izlaz	Na temelju točnosti odgovora (prosudba pravila)	0 (pogrešno) ili 1 (točno)	Online optimizacija pravila	Dinamički ažurira pravila s optimizacijom povratnih informacija u stvarnom vremenu	Scenariji koji zahtijevaju online interakciju (npr. AI igra)
PPO	Problem sa skupom SFT podataka + izlaz uzorkovanja modela politike	Model nagrađivanja (RM) obučen	Funkcija dominacije (na temelju procjene nagrade)	Metoda gradijenta politike	Učinkovit i stabilan, podržava optimizaciju u više koraka	Složeni zadaci (npr. generiranje teksta, upravljanje robotom)
GRPO	Problem skupa SFT podataka + rezultat uzorkovanja modela politike	Model nagrađivanja (RM) obučen	Relativna nagrada unutar grupe (normalizirana usporedba)	Optimizacija pravila grupe	Smanjite varijancu nagrađivanja i poboljšajte usporedbu unutar grupe	Zadaci s velikom varijacijom (npr. generiranje dugog teksta)

Zapažanja o izvorima podataka

Online vs offline trening: Mrežna obuka odnosi se na korištenje izlaza modela politike u stvarnom vremenu kao podataka za obuku, dok se izvanmrežna obuka odnosi na korištenje izlaza fiksnog modela (kao što je SFT model) kao podataka za obuku. Eksperimentalni rezultati to pokazuju online obuka općenito je bolja od offline obuke.

Nadzor ishoda u odnosu na nadzor procesa: Nadzor ishoda odnosi se samo na nagrađivanje završnog koraka rezultata, dok se nadzor procesa odnosi na nagrađivanje svakog koraka procesa rasuđivanja. Eksperimentalni rezultati to pokazuju nadzor procesa je učinkovitiji u složenim zadacima.

Pojedinačna epizoda naspram iterativnog učenja za potkrepljivanje: Učenje s pojačanjem u jednoj epizodi odnosi se na optimizaciju jedne strategije, dok se iterativno učenje s pojačanjem odnosi na kontinuirano ažuriranje modela nagrađivanja nakon više optimizacija strategije. Eksperimentalni rezultati to pokazuju iterativno učenje s pojačanjem može značajno poboljšati izvedbu, osobito u prvoj iteraciji.

Promatranje koeficijenata gradijenta

Na temelju pravila naspram modela: Pravilo se odnosi na određivanje nagrade na temelju točnosti odgovora, a Model se odnosi na osposobljavanje modela nagrađivanja za bodovanje.

Razlika u koeficijentima gradijenta: Ključna razlika između GRPO i Online RFT je taj da GRPO prilagođava svoje koeficijente gradijenta na temelju vrijednosti nagrade koje nudi model nagrađivanja, dok Online RFT to ne čini.

GRPO prednosti: Eksperimenti to pokazuju GRPO je superiorniji od Online RFT-a, pokazujući učinkovitost promjene predznaka koeficijenata gradijenta. GRPO+PS je superiorniji od GRPO+OS, demonstrirajući prednosti korištenja fino zrnatih koeficijenata gradijenta s obzirom na korake.

Učinkovitost RL i smjernice za poboljšanje

Zašto je RL učinkovit?

Eksperimentalni rezultati: RL poboljšava performanse Maj@K, ali ne i Pass@K.

Obrazloženje: RL poboljšava ukupnu izvedbu modela čineći izlaznu distribuciju robusnijom, tj. poboljšava vjerojatnost točnih odgovora u TopK-u, umjesto da poboljšava temeljnu sposobnost modela.

Kako se može postići učinkovitiji RL?

Na temelju jedinstvene paradigme, autori predlažu buduće smjerove za poboljšanje RL-a u tri aspekta: izvori podataka, algoritmi i funkcije nagrađivanja.

Izvori podataka:
- Istražite probleme izvan faze SFT-a.
- Koristite naprednije strategije uzorkovanja (dekodiranja), kao što su metode koje se temelje na pretraživanju stabla.
- Koristite učinkovite tehnike zaključivanja kako biste poboljšali učinkovitost istraživanja modela politike.
Algoritam:
- Istražite algoritme učenja potkrepljenja koji su otporniji na bučne signale nagrade.
- Proučite metode usklađivanja tipa OD SLABOG PREMA JAKOM.
Funkcija nagrađivanja:
- Poboljšajte sposobnost generalizacije modela nagrađivanja za rješavanje problema izvan distribucije i naprednih dekodiranih izlaza.
- Odrazite neizvjesnost modela nagrađivanja i upotrijebite ga kao most za povezivanje slabih modela nagrađivanja i algoritama učenja OD SLABOGA PREMA JAKOM.
- Učinkovito konstruirajte visokokvalitetne modele nagrađivanja procesa kako biste pružili precizne signale za obuku za proces zaključivanja.

Sažetak

DeepSeekMath značajno je poboljšao sposobnost modela jezika otvorenog koda u matematičkom zaključivanju konstruiranjem matematičkog korpusa velikih razmjera i prijedlogom novog algoritma za učenje s potkrepljenjem. Naglasci ovog rada su

konstrukciju i provjeru valjanosti DeepSeekMath Corpusa, opsežnog, visokokvalitetnog, višejezičnog matematičkog korpusa.
Predlaže se učinkoviti algoritam učenja s pojačanjem, GRPO, za smanjenje upotrebe memorije uz poboljšanje sposobnosti matematičkog zaključivanja modela.
Detaljno se raspravlja o utjecaju obuke koda na sposobnost matematičkog zaključivanja i utvrđeno je da arXiv podaci imaju ograničen učinak. Vrijednost DeepSeekMath:
Zajednici otvorenog izvornog koda pruža snažan model matematičkog zaključivanja i promiče razvoj matematičke umjetne inteligencije.
Pruža dragocjeno iskustvo i metode za izgradnju matematičkih korpusa i obuku matematičkih modela zaključivanja.
Predloženi GRPO algoritam pruža nove ideje za obuku učenja s potkrepljenjem u drugim područjima.

Tajna iza DeepSeek 1 | DeepSeekMmatematika i GRPO detalji