Astăzi aș dori să împărtășesc un articol din DeepSeek, intitulat DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models.
Acest articol prezintă DeepSeekMath 7B, care este pre-antrenat pe DeepSeek-Coder-Base-v1.5 7B bazat pe o colecție de jetoane 120B legate de matematică, limbaj natural și date de cod.
Modelul a obținut un scor uimitor de 51,7% în benchmark-uri MATH la nivel competitiv, fără a se baza pe seturi de instrumente externe și tehnici de vot, apropiindu-se de nivelul de performanță al Gemini-Ultra și GPT-4.
Abilitatea de raționament matematic a lui DeepSeekMath 7B este atribuită doi factori cheie: În primul rând, printr-o conductă de selecție a datelor atent proiectată, datele de înaltă calitate legate de matematică sunt extrase în mod iterativ din date web disponibile public.
În al doilea rând, optimizarea politicilor relative de grup (GRPO) este introdus, care este o variantă de optimizare a politicii proximale (PPO) care poate îmbunătăți capacitatea de raționament matematic, optimizând în același timp utilizarea memoriei PPO.
- Caracteristicile metodei sunt rezumate după cum urmează:Un corpus de pre-formare matematică de înaltă calitate a fost construit și o conductă proiectată cu grijă a fost folosită pentru a extrage date matematice de înaltă calitate de la Common Crawl.
- Algoritmul GRPO a fost propus, ceea ce reduce resursele necesare antrenamentului și îmbunătățește capacitatea de raționament matematic a modelului. 3) Performanță de ultimă generație a fost realizat în mai multe teste de referință de raționament matematic.
Prezentare generală
Titlu: DeepSeekMath: Depășirea limitelor raționamentului matematic în modelele de limbaj deschis
URL: click aici
Autori: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y. Wu, Daya Guo
Cod: click aici
Motivația
Raționamentul matematic reprezintă o provocare semnificativă pentru modelele de limbaj datorită complexității și naturii structurate a matematicii. Cele mai avansate modele, cum ar fi GPT-4 și Gemini-Ultra, sunt puternice, dar nu sunt disponibile publicului. Prin urmare, există loc semnificativ de îmbunătățire a performanței modele open source.
Complexitate și structură: Raționamentul matematic reprezintă o provocare semnificativă pentru modelele de limbaj datorită complexității și naturii structurate a matematicii.
Potentialul datelor publice: Datele web disponibile public pot conține informații matematice bogate care nu au fost încă extrase și utilizate.
Metode
Colectarea datelor: Un corpus DeepSeekMath de jetoane 120B a fost construit prin colectarea de date web de înaltă calitate legate de matematică de la Common Crawl printr-o conductă iterativă.
Antrenament model: Corpusul a fost folosit pentru antrenament prealabil pe DeepSeek-Coder-Base-v1.5 7B și a fost aplicat algoritmul de reglare fină a instrucțiunilor matematice și de optimizare a politicilor relative de grup (GRPO).
Algoritmul GRPO: GRPO este un algoritm îmbunătățit de învățare prin întărire care elimină modelul Critic din PPO și estimează linia de bază din scorul grupului, reducând astfel semnificativ resursele de formare.
Metode și proceduri detaliate:
Colectarea și prelucrarea datelor:

Construiți corpus DeepSeekMath: Folosind un clasificator bazat pe FastText, extrageți 120B jetoane legate de matematică de la Common Crawl pentru a construi un corpus pre-antrenat la scară largă, de înaltă calitate, DeepSeekMath Corpus.
Filtrarea iterativă a datelor: Se folosește o strategie iterativă, folosind OpenWebMath ca date de bază pentru a antrena un clasificator inițial și apoi folosind acest clasificator pentru a extrage mai multe exemple pozitive din Common Crawl, care sunt adnotate manual pentru a optimiza continuu performanța clasificatorului.
Caracteristici multilingve: DeepSeekMath Corpus conține date multilingve, ceea ce îmbunătățește performanța modelului la reperele matematice chinezești.
Procesare de depoluare: de-prelucrarea poluării se efectuează pe datele de antrenament pentru a evita suprapunerea cu benchmark-ul de testare.
Preinstruire:
Inițializarea modelului bazat pe cod: Inițializarea folosind DeepSeek-Coder-Base-v1.5 7B modelul sa dovedit a fi mai eficient decât inițializarea dintr-un LLM general.
Compoziția datelor de preinstruire: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% Cod Github, 10% Common Crawl date în limbaj natural.
Parametrii de preantrenament: Este utilizat optimizatorul AdamW, cu o rată de învățare de 4.2e-4, dimensiunea lotului de 10 milioane de jetoane și antrenament de 500 de miliarde de jetoane.
Reglarea fină a instrucțiunilor:
Construiți un set de date de reglare fină a instrucțiunilor: Construiți un set de date de reglare fină a instrucțiunilor matematice care să conțină 776K mostre, care acoperă o varietate de domenii matematice și niveluri de dificultate, inclusiv CoT, PoT și formate de inferență integrate în instrumente pentru rezolvarea pașilor.
Parametri de antrenament: Mărimea lotului 256, rata de învățare 5e-5, antrenează pentru 500 de pași.
Învățare prin consolidare – Optimizarea politicilor relative de grup (GRPO):
Propune algoritmul GRPO: Propune a Algoritmul varianta PPO GRPO, care evită necesitatea unui model Critic prin utilizarea scorurilor de grup pentru a estima linia de bază, reducând astfel resursele de instruire.
Funcția obiectivă: GRPO optimizează modelul de politică prin maximizarea unei funcții obiective care ia în considerare avantajul relativ al rezultatelor în grup și adaugă direct divergența KL ca termen de regularizare.
Calcul avantajului: GRPO calculează avantajul prin recompense relative în cadrul grupului, evitând comparațiile între grupuri și respectând mai bine natura comparativă a modelului de recompensă.
Sprijină atât monitorizarea rezultatelor, cât și a procesului: GRPO poate sprijini atât monitorizarea rezultatelor, cât și a procesului și monitorizarea mai eficientă a politicii oferind recompense la sfârșitul fiecărui pas de inferență.
RL iterativ: Utilizează un strategie RL iterativă pentru a genera un nou set de instruire bazat pe rezultatele eșantionării modelului de politică, antrenați continuu vechiul model de recompensă și utilizați noul model de recompensă pentru a actualiza modelul de politică.
Date de antrenament: Utilizează problemele de format CoT legate de GSM8K și MATH în datele SFT, aproximativ 144K probleme.
Parametri de antrenament: Rata de învățare a modelului de politică este 1e-6, coeficientul KL este 0,04, 64 de rezultate sunt eșantionate pentru fiecare problemă, lungimea maximă este 1024 și dimensiunea lotului de antrenament este 1024.
Concluzie

Concluzia 1:DeepSeekMath 7B depășește toate modelele open source în ceea ce privește capacitatea de raționament matematic. În testul competitiv de referință MATH, DeepSeekMath 7B a obținut o precizie de 51.7%, care este aproape de nivelul de performanță al Gemini-Ultra și GPT-4.
Concluzia 2:Datele bine proiectate de pregătire și algoritmii GRPO sunt cheia succesului modelului. Combinația dintre un corpus matematic de înaltă calitate și algoritmi GRPO permite modelului să obțină câștiguri semnificative de performanță în sarcinile de raționament matematic.
Concluzia 3:Antrenamentul codului ajută la îmbunătățirea capacității de raționament matematic. Adăugarea datelor de cod la etapa de preinstruire poate îmbunătăți capacitatea modelului de a rezolva probleme matematice, atât cu instrumente, cât și fără instrumente.
Concluzia 4: Utilitatea limitată a datelor arXiv: Contrar credințelor anterioare, datele arXiv s-au dovedit a fi de ajutor limitat în îmbunătățirea raționamentului matematic.
Prescripţie
Geometria și capacitățile de demonstrare sunt relativ slabe: Deși DeepSeekMath excelează în raționamentul cantitativ, capacitățile sale în geometrie și dovezi sunt încă inferioare modelelor cu sursă închisă. Acest lucru se poate datora selecției părtinitoare a datelor în etapele de preinstruire și reglare fină.
Slăbiciune în capacitatea de eșantionare mică: DeepSeekMath este inferior GPT-4 în ceea ce privește învățarea eșantionului mic, ceea ce se poate datora limitării dimensiunii modelului.
Sunt necesare metode de învățare prin întărire mai eficiente: Deși metodele de învățare prin întărire propuse în lucrare sunt eficiente, există încă loc de îmbunătățire, de exemplu, cum să folosiți mai eficient feedback-ul din modelul de recompensă și cum să faceți față semnalelor de recompensă zgomotoase.
Detalii
Explorare și analiză de învățare prin consolidare
Prezentare generală:
Introducerea Group Relative Policy Optimization (GRPO): Lucrarea propune un nou algoritm de învățare prin consolidare, GRPO, ca o variantă a optimizării politicii proximale (PPO). Caracteristica principală a GRPO este că abandonează modelul Critic utilizat în mod obișnuit în PPO și estimează linia de bază prin scorurile de grup, reducând astfel mult resursele de calcul necesare pentru antrenament.
Demonstrarea eficacității GRPO: Lucrarea demonstrează experimental că GRPO poate îmbunătățirea eficientă a performanței modelelor de reglare fină a comenzilor, inclusiv sarcini matematice atât în domeniu, cât și în afara domeniului.
Cadru unificat pentru metodele de învățare prin consolidare: Lucrarea propune un cadru unificat pentru înțelegerea diferitelor metode de învățare prin întărire, cum ar fi Reglare fină a eșantionării de respingere (RFT), Optimizare directă a preferințelor (DPO), PPO și GRPO. Cadrul tratează aceste metode ca tehnici de învățare prin întărire directă sau simplificată.
Explorarea aprofundată a elementelor de învățare prin întărire: Lucrarea explorează în profunzime elemente cheie ale învățării prin întărire, cum ar fi instruirea online și formarea offline, supravegherea rezultatelor și supravegherea procesului, învățarea prin întărire într-o singură rundă și învățarea prin consolidare iterativă, prin experimente detaliate și rezumă direcțiile potențiale pentru îmbunătățirea eficienței învățării prin întărire.
Algoritmul GRPO (Group Relative Policy Optimization).

Limitări ale PPO: PPO este un algoritm de învățare prin întărire utilizat în mod obișnuit, dar necesită antrenament model suplimentar Critic pentru a estima funcţia de valoare, care impune o sarcină suplimentară de calcul și memorie. În plus, în scenariul LLM, Antrenamentul modelului critic poate fi complicat deoarece necesită evaluare ieșirea fiecărui jeton.
Idee de bază GRPO: Ideea de bază a GRPO este să abandonați modelul Critic și utilizați în schimb scorul mediu al unui set de rezultate pentru aceeași problemă ca o linie de bază. Această linie de bază poate fi utilizată pentru a estima funcția de avantaj și pentru optimizarea politicii. Această abordare reduce semnificativ complexitatea antrenamentului.
Calcul funcției avantaj: GRPO calculează funcția de avantaj prin calculând clasamentul relativ al fiecărei ieșiri în același set de ieșiri, mai degrabă decât să se bazeze pe o funcție de valoare separată ca în PPO.
Penalizare de divergență KL: GRPO nu adaugă o penalizare de divergență KL la recompensă, cum ar fi PPO, ci adaugă divergența KL între modelul de politică și modelul de referință direct la funcția de pierdere. Acest lucru evită calculul complex al funcției de avantaj.
Ideea de bază a GRPO
nu necesită un Critic (funcție de valoare): GRPO evită necesitatea unei funcție de valoare și utilizează scorul din cadrul grupului pentru a estima valoarea de bază, reducând astfel resursele de formare.
Avantaj relativ intra-grup: Pentru fiecare problemă q, GRPO prelevează un set de ieșiri {o(1), o(2), …, o(G)} din vechea politică π(θveche) și apoi optimizează modelul de politică prin maximizarea următoarei ecuații ca funcție obiectiv.

Mai exact:

Cheia aici este Â(i,t), care reprezintă avantajul și este calculată de recompensa relativă a producţiei intra-grup, în loc să se bazeze pe o funcție de valoare separată ca în PPO.

Funcția obiectiv adaugă, de asemenea, direct Divergența KL ca termen de regularizare pentru a controla amploarea actualizări de politici

și să se alinieze la natura de comparație a modelului de recompensă: GRPO utilizează recompensa relativă intragrup pentru a calcula avantajul, care este mai în concordanță cu natura modelului de recompensă, care este de obicei antrenat pe baza unei comparații pe perechi.
Cum poate fi proiectat modelul de recompensă GRPO (consultați DeepSeek R1)?
Caracteristici:
recompensa de format: forţează generarea de lung pat rezultate, care pot împinge modelul să genereze procese de inferență și să îmbunătățească efectul de inferență al modelului.
recompensa de precizie: matematica poate folosi rezultatul final, iar codul poate folosi feedback-ul compilatorului.
Avantajele GRPO
Amprentă de memorie mai mică: nu este necesar un model Critic, reducând cerințele de memorie.
Antrenament mai eficient: calculul folosind avantajul relativ intra-grup simplifică procesul de instruire.
Mai compatibil cu natura modelelor de recompensă: îmbunătățește stabilitatea și eficiența antrenamentului.
Rezumatul paradigmei unificate RL
Paradigma unificată propusă
Autorii propun o paradigmă unificată pentru a înțelege diferite metode de antrenament precum SFT (Supervised Fine-tuning), RFT (Rejection Sampling Fine-tuning), DPO (Direct Preference Optimization), PPO, GRPO etc. Elemente cheie RL: Elementele cheie ale cadrului unificat includ: surse de date, funcții de recompensă și algoritmi.
- Sursa datelor: Aceasta se referă la datele utilizate pentru instruire, care pot fi derivate din etichetarea manuală, modele SFT sau modele de politici în timp real.
- Funcția de recompensare: Aceasta se referă la funcția utilizată pentru a evalua calitatea rezultatului, care poate fi o regulă sau un model.
- Algoritm: Aceasta se referă la metoda utilizată pentru procesarea datelor și a semnalului de recompensă și pentru a actualiza parametrii modelului.
Analiza diferitelor metode bazate pe o paradigmă unificată
Tabelul 10 rezumă asemănările și diferențele dintre SFT, RFT, DPO, RFT online, PPO și GRPO în ceea ce privește sursele de date, funcțiile de recompensă și coeficienții de gradient.
Metodă | Date de antrenament | Funcția de recompensă | Coeficient de gradient | Metoda de antrenament | Avantaje/caracteristici | Scenarii aplicabile |
SFT | Date SFT etichetate manual | Selectat manual (recompensă implicită) | Fixat la 1 | Învățare supravegheată | Simplu și stabil, depinde de date etichetate de înaltă calitate | Training model de bază, sarcină de aliniere inițială |
RFT | Problemă cu setul de date SFT + Ieșire eșantion model SFT | Pe baza corectitudinii răspunsului (radicarea regulilor) | 0 (greșit) sau 1 (corect) | Optimizarea politicii offline | Calcul eficient, utilizarea directă a feedback-ului regulilor | Sarcini matematice/logice cu reguli clare |
DPO | Problemă cu setul de date SFT + ieșire model la | Etichetarea preferințelor umane sau compararea regulilor | Pe baza calculului probabilității preferințelor (de exemplu, modelul Bradley-Terry) | Învățare prin comparație | Evită modelarea explicită a recompenselor, optimizând direct preferințele | Sarcini de aliniere a preferințelor umane (de exemplu, generarea dialogului) |
RFT online | Eșantionarea modelului de politici în timp real perechi problemă-ieșire | Pe baza corectitudinii răspunsului (radicarea regulilor) | 0 (greșit) sau 1 (corect) | Optimizarea politicilor online | Actualizează în mod dinamic politicile cu optimizarea feedback-ului în timp real | Scenarii care necesită interacțiune online (de exemplu, joc AI) |
PPO | Problemă cu setul de date SFT + rezultatul eșantionării modelului de politică | Model de recompensă (RM) antrenat | Funcția de dominare (pe baza estimării recompensei) | Metoda gradientului politicii | Eficient și stabil, acceptă optimizarea în mai mulți pași | Sarcini complexe (de exemplu, generarea de text, controlul robotului) |
GRPO | Problemă cu setul de date SFT + rezultatul eșantionării modelului de politică | Model de recompensă (RM) antrenat | Recompensa relativă intra-grup (comparație normalizată) | Optimizarea politicii de grup | Reduceți variația recompensei și îmbunătățiți comparația intra-grup | Sarcini cu variație mare (de exemplu, generarea de text lung) |
Observații asupra surselor de date

Antrenament online vs offline: Instruirea online se referă la utilizarea rezultatelor modelului de politică în timp real ca date de instruire, în timp ce instruirea offline se referă la utilizarea rezultatelor unui model fix (cum ar fi modelul SFT) ca date de instruire. Rezultatele experimentale arată că instruirea online este în general mai bună decât formarea offline.
Supravegherea rezultatelor vs supravegherea procesului: Supravegherea rezultatelor se referă doar la recompensarea etapei finale a rezultatului, în timp ce supravegherea procesului se referă la recompensarea fiecărui pas al procesului de raționament. Rezultatele experimentale arată că supravegherea procesului este mai eficientă în sarcinile complexe.
Învățare cu un singur episod vs învățare iterativă: Învățarea prin consolidare cu un singur episod se referă la o singură optimizare a strategiei, în timp ce învățarea prin consolidare iterativă se referă la actualizarea continuă a modelului de recompensă după mai multe optimizări ale strategiei. Rezultatele experimentale arată că Învățarea prin întărire iterativă poate îmbunătăți semnificativ performanța, în special în prima iterație.
Observarea coeficienților de gradient
Bazat pe reguli vs. bazat pe model: Regula se referă la determinarea recompensei pe baza corectitudinii răspunsului, iar Model se referă la antrenarea unui model de recompensă pentru a obține un scor.
Diferența de coeficienți de gradient: Diferența cheie dintre GRPO și RFT online este că GRPO își ajustează coeficienții de gradient pe baza valorilor recompensei furnizate de modelul de recompensă, în timp ce RFT online nu o face.
Avantajele GRPO: Experimentele arată că GRPO este superior RFT online, demonstrând eficacitatea schimbării semnului coeficienților de gradient. GRPO+PS este superior GRPO+OS, demonstrând beneficiile utilizării coeficienților de gradient cu granulație fină, conștienți de trepte.
Eficacitatea RL și direcții de îmbunătățire
De ce este eficient RL?

Rezultate experimentale: RL îmbunătățește performanța Maj@K, dar nu și Pass@K.
Explicaţie: RL îmbunătățește performanța generală a modelului făcând distribuția de ieșire mai robustă, adică îmbunătățește probabilitatea de răspunsuri corecte în TopK, mai degrabă decât îmbunătățirea capacității de bază a modelului.
Cum se poate obține un RL mai eficient?
Pe baza paradigmei unificate, autorii propun direcții viitoare pentru îmbunătățirea RL în trei aspecte: surse de date, algoritmi și funcții de recompensă.
- Surse de date:
- Explorați problemele dincolo de etapa SFT.
- Utilizați strategii de eșantionare (decodare) mai avansate, cum ar fi metodele bazate pe căutarea arborescentă.
- Utilizați tehnici eficiente de inferență pentru a îmbunătăți eficiența explorării modelului de politică.
- Algoritm:
- Explorați algoritmi de învățare prin întărire care sunt mai robusti la semnalele de recompensă zgomotoase.
- Studiați metodele de aliniere de tip WEAK-TO-STRONG.
- Funcția de recompensare:
- Îmbunătățiți capacitatea de generalizare a modelului de recompensă pentru a gestiona problemele în afara distribuției și ieșirile decodificate avansate.
- Reflectați incertitudinea modelului de recompensă și utilizați-l ca o punte pentru a conecta modele de recompensă slabe și algoritmi de învățare SLAB PENTRU PUTERNIC.
- Construiți eficient modele de recompensă proces de înaltă calitate pentru a furniza semnale de antrenament cu granulație fină pentru procesul de inferență.
Rezumat
DeepSeekMath a îmbunătățit semnificativ capacitatea modelelor de limbaj open source în raționamentul matematic prin construirea unui corpus matematic la scară largă și propunerea unui nou algoritm de învățare prin întărire. Punctele importante ale acestei lucrări sunt
- construirea și validarea DeepSeekMath Corpus, un corpus matematic multilingv la scară largă, de înaltă calitate.
- Un algoritm eficient de învățare prin întărire, GRPO, este propus pentru a reduce utilizarea memoriei, îmbunătățind în același timp capacitatea de raționament matematic a modelului.
- Impactul antrenamentului de cod asupra capacității de raționament matematic este discutat în profunzime și se constată că datele arXiv au un efect limitat. Valoarea lui DeepSeekMath:
- Oferă comunității open source un model puternic de raționament matematic și promovează dezvoltarea IA matematică.
- Oferă experiență și metode valoroase pentru construirea corpurilor matematice și formarea modelelor de raționament matematic.
- Algoritmul GRPO propus oferă idei noi pentru formarea de învățare prin consolidare în alte domenii.