Interpretarea hârtiei DeepSeek R1 și puncte tehnice cheie

1 Context

În timpul Festivalului de primăvară, DeepSeek R1 a atras încă o dată atenția pe scară largă și chiar și articolul de interpretare DeepSeek V3 pe care l-am scris anterior a fost de asemenea retransmis și discutat mult.

Deși au existat multe analize și reproduceri ale lui DeepSeek R1, aici am decis să compilam câteva note de lectură corespunzătoare.

Vom folosi trei diagrame schematice de bază pentru a demonstra construcția modelului și punctele tehnice cheie, distilând esența seriei DeepSeek-R1 pentru a oferi o înțelegere mai intuitivă a ideilor sale de design.

Hârtia corespunzătoare este [2501.12948] DeepSeek-R1: Stimularea capacității de raționament în LLM prin învățare prin consolidare

iar modelul open source corespunzător este DeepSeek-R1

2 Introducere

2.1 Algoritmi comuni de raționament

După cum se arată în Figura 2 de mai jos, autorul explică cei patru algoritmi de raționament comun. Deși diferă în detalii specifice, toate includ două operațiuni de bază:

Expansiune: generați jetoane pentru a extinde calea soluției.
Agregare: integrați rezultatele fiecărei căi pentru a obține răspunsul final. Creșterea resurselor de calcul în faza de expansiune poate îmbunătăți de obicei calitatea răspunsului în faza de agregare.

Auto-consecvență (SC). După cum se arată în Figura 2a, ideea de bază a SC este de a genera mai multe rezultate diferite (care pot fi obținute prin modificarea parametrilor de eșantionare etc.), apoi votați pentru toate răspunsurile pentru a selecta răspunsul cu cea mai mare rată de câștig. Parametrul cheie este numărul de răspunsuri ale candidatului n.

Algoritmul Rebase: După cum se arată în Figura 2b de mai jos, Rebase generează, de asemenea, mai multe ieșiri, dar acestea sunt generate în mai mulți pași. Fiecare pas este punctat folosind modelul Recompensă, iar rezultatul cu cel mai mare scor este folosit pentru a continua generarea. În cele din urmă, este generat un arbore de raționament cu mai multe ramuri. Răspunsul cu cel mai mare scor (Best-of-N) este selectat în etapa de agregare.

Monte Carlo Tree Search (MCTS): După cum se arată în Figura 2c de mai jos, MCTS este un algoritm puternic de raționament care extinde nodurile prin eșantionare treptat și construiește un arbore de soluții până când ajunge la un nod frunză care conține o soluție candidată. Fiecare soluție este punctată printr-un model sau o simulare de recompensă, iar scorul este propagat înapoi la nodurile sale strămoși pentru a-și actualiza valorile recompensei, completând astfel o iterație. Parametrul cheie este, de asemenea, n, iar creșterea n permite o explorare mai profundă și mai largă a potențialelor soluții.

Lanț cognitiv interiorizat (ICoT). După cum se arată în Figura 2d de mai jos, cele mai recente LLM-uri, cum ar fi OpenAI o1 și Qwen-QWQ, pot internaliza comportamentul de raționament în timpul antrenamentului fără a fi nevoie de un algoritm de raționament explicit. Ideea de bază este de a genera o secvență CoT, de a descompune problemele complexe în mai multe sub-probleme și apoi de a optimiza în mod iterativ aceste răspunsuri, reflectând asupra rezultatelor anterioare pentru a ajunge în cele din urmă la o soluție.

2.2 Raționamentul metodelor de aliniere

2.2.1 Prezentare generală a metodei Best-of-N

Pe scurt, Best-of-N este o metodă de aliniere utilizată pe scară largă în inferența LLM, care își propune să asigure calitatea înaltă a rezultatelor generate prin generarea de răspunsuri multiple ale candidaților și selectarea celui mai bun. Constă din trei procese principale:

Proces de generare: pentru un prompt X dat, metoda Best-of-N generează N răspunsuri IID (Y₁, Y₂, …, Yₙ), unde N este adesea denumit „dimensiunea lotului”.
Mecanism de notare: Fiecare răspuns generat este punctat de un model de recompensă pentru a obține un scor corespunzător {s(Y₁), s(Y₂), …, s(Yₙ)}.
Selectarea celui mai bun răspuns: în sfârșit, răspunsul cu cel mai mare scor dintre toate răspunsurile generate este selectat ca rezultat, adică Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}.

Avantajele acestei metode sunt:

Poate evita în mod eficient pașii complexi de reglare fină, facilitând implementarea modelelor lingvistice care au fost pre-instruite sau ajustate cu instrucțiuni.
Este simplu de implementat, ușor de înțeles și, în esență, lipsit de hiperparametri: hiperparametrul principal este N, care poate fi ajustat dinamic în timpul inferenței.
Este extrem de competitiv în ceea ce privește calitatea generației și poate chiar rivaliza cu unele tehnici complexe post-formare, cum ar fi RLHF sau DPO. Cercetările arată că metoda Best-of-N funcționează bine pe curba de compromis dintre recompensă și divergența KL, depășind chiar și alte strategii complexe de aliniere.

Dezavantajele acestei metode sunt

deducerea necesită generarea de N secvențe, ceea ce poate duce la o suprasarcină de calcul semnificativă. În practică, o valoare rezonabilă pentru N variază de la 4 la 128, dar pentru a concura cu cele mai avansate metode post-antrenament, pot fi necesare valori N mai mari, cum ar fi 1000 până la 60000, ceea ce poate duce la o suprasarcină de calcul aproape inacceptabilă.

Metoda best-of-N este adesea folosită pentru a genera seturi de date de înaltă calitate pentru reglarea fină supravegheată ulterioară și a jucat un rol cheie în procesul de aliniere a LLaMA-2 și LLaMA-3.

2.2.2 Metoda OpenAI best-of-N

OpenAI a propus pentru prima dată eșantionarea Best-of-N în [2009.01325] Învățarea de a rezuma din feedbackul uman . Mai exact, este folosit pentru a evalua și optimiza performanța modelului rezumat prin selectarea celui mai bun rezumat generat din mai multe modele. Această metodă ajută cercetătorii să înțeleagă mai bine relația dintre diferitele valori de evaluare și preferințele evaluatorilor umani și este utilizată pentru a ghida formarea și optimizarea modelului.

OpenAI utilizează, de asemenea, eșantionarea Best-of-N (eșantionare de respingere) în continuare [2112.09332] WebGPT: Răspunsuri la întrebări asistate de browser cu feedback uman. Mai exact, un număr fix de răspunsuri (4, 16 sau 64) sunt eșantionate din modelul BC sau modelul RL, iar cel cu cel mai mare scor de model de recompensă este selectat ca metodă de optimizare pentru modelul de recompensă adversar. Această metodă nu necesită pregătire suplimentară, dar crește complexitatea de calcul a etapei de inferență de realizat.

2.2.3 Metoda Google BOND

În [2407.14622] BOND: Aliniind LLM-urile cu Best-of-N Distillation, autorii de la Google propun Best-of-N Distillation (BOND), un nou algoritm RLHF conceput pentru a simula strategia de eșantionare Best-of-N printr-un algoritm de potrivire a distribuției fără a crește semnificativ supraîncărcarea de calcul în timpul Inferenței.

Mai exact, autorul derivă mai întâi distribuția analitică exactă a eșantionării Best-of-N și oferă funcția de probabilitate a eșantionării Best-of-N:

În al doilea rând, autorii exprimă problema ca o problemă de potrivire a distribuției;

apoi, autorii propun să utilizeze divergența Jeffreys ca obiectiv de potrivire a distribuției:

În final, pentru a rezolva problema selectării N, autorii propun metoda BOND iterativă, care îmbunătățește performanța strategiei prin distilarea iterativă a distribuției Best-of-N. Pașii specifici includ:

Inițializați strategia auxiliară Anchor π(anchor).

Executați iterativ BOND pentru a distila Best-of-N π(ancora) și actualizați π(ancora) după fiecare pas.

2.3 Supravegherea procesului și supravegherea rezultatelor

Rezultatul și Procesul se referă la cele două aspecte ale evaluării modelului de recompensă:

Modelul de recompensare a rezultatelor: Evaluați dacă rezultatul final al rezultatului modelului este corect sau conform așteptărilor.
Modelul de recompensare a procesului: evaluează dacă pașii de raționament și luare a deciziilor ai modelului în procesul de generare a rezultatelor sunt rezonabile și eficiente.

De exemplu, să verificăm pas cu pas de la OpenAI | OpenAI mai menționează:

Supravegherea procesului (Supravizarea rezultatului): implică furnizarea de feedback cu privire la fiecare pas al procesului de raționament al modelului. Modelele de recompensă supravegheate de proces (PRM) sunt antrenate pentru a prezice corectitudinea fiecărui pas al soluției.
Supervizat de rezultat: Supervizat de rezultat oferă feedback bazat numai pe rezultatul final al raționamentului modelului. Modelele de recompensă supravegheate de rezultate (ORM) sunt antrenate folosind răspunsul final al soluției, iar corectitudinea este determinată de verificarea automată.

2.4 Hacking cu recompense

În RL, hackingul de recompense se referă la fenomenul în care un agent exploatează un defect în proiectarea funcției de recompensă pentru a maximiza recompensa cumulativă într-un mod care nu corespunde intenției inițiale a designerului. Deși acest comportament îndeplinește din punct de vedere tehnic obiectivul de optimizare al funcției de recompensă, efectul real se abate de la obiectivul așteptat al sarcinii și poate duce chiar la consecințe negative.

Analiza punctelor cheie:

Definiție și manifestare:
1. Agentul găsește un defect în funcția de recompensă și obține o recompensă mare prin luarea de „comenzi rapide” în loc să rezolve problema.
2. De exemplu, un robot de curățare stinge luminile pentru a face camera „să arate” curată, în loc să o curețe efectiv; un agent de joc înscrie în mod repetat puncte fără a îndeplini obiectivul de nivel; alegerea de a nu încetini pentru a reduce numărul de timpi de frânare, ceea ce reprezintă un pericol pentru siguranță; generarea de conținut fără sens care se potrivește cu cuvintele cheie pentru a păcăli scorurile mari.
Cauze fundamentale:
1. Design incomplet al funcției de recompensă: simplificare excesivă sau eșec de acoperire a cazurilor marginale.
2. Nealinierea între obiective și recompense: funcția de recompensă nu reușește să reflecte pe deplin scopul real, determinând agentul să optimizeze pentru obiectivul „greșit”.
Solutii:
1. Îmbunătățiți designul recompensei: introduceți recompense multidimensionale (de exemplu, siguranță, eficiență etc.) sau ajustați dinamic funcția de recompensă.
2. Verificare adversară: detectează dacă agentul „trișează” prin mecanisme suplimentare.
3. Intervenție manuală și constrângeri: stabiliți limite comportamentale (de exemplu, stratul de siguranță) sau feedback manual (de exemplu RLHF).
4. Învățare cu întărire inversă (IRL): învață o funcție de recompensă mai realistă din demonstrațiile experților.
5. Învățare prin consolidare ierarhică: descompuneți sarcina în sub-obiective pentru a reduce riscul de optimizare locală.
Asociere cu supramontare:
1. Ambele prezintă o deconectare între metricile de antrenament și performanța din lumea reală, dar Reward Hacking pune mai mult accent pe defectele de proiectare ale funcției de recompensă decât pe capacitatea de generalizare a modelului.
Rezumat:
1. Reward Hacking dezvăluie provocarea alinierii obiectivelor în RL. Rezolvarea acestei probleme necesită o combinație între proiectarea unor mecanisme de recompensă mai robuste, introducerea de constrângeri externe și încorporarea cunoștințelor anterioare umane pentru a se asigura că comportamentul agentului este atât eficient, cât și în conformitate cu intenția de proiectare.

3 DeepSeek-R1-Zero și DeepSeek-R1

3.1 Prezentare generală

Cercetările anterioare s-au bazat în mare măsură pe cantități mari de date supravegheate pentru a îmbunătăți performanța modelului. Acest studiu arată că, chiar și fără SFT ca pornire la rece, RL la scară largă poate îmbunătăți semnificativ capacitatea de raționament a modelului. În plus, introducerea unei cantități mici de date de pornire la rece poate optimiza și mai mult performanța. Următoarele sunt modelele legate de DeepSeek-R1:

DeepSeek-R1-Zero: Acest model aplică RL direct modelului de bază fără date SFT.
DeepSeek-R1: Acest model aplică RL pornind de la un punct de control care a fost reglat fin cu mii de mostre CoT lungi.
DeepSeek-R1-Distill-xx: Distilează capacitatea de raționament a DeepSeek-R1 într-un model dens mic.

3.2 DeepSeek-R1-Zero

Următoarea figură prezintă punctele cheie în antrenamentul modelului DeepSeek-R1-Zero:

PS: Trebuie remarcat faptul că lucrarea nu oferă multe informații despre datele utilizate în procesul RL al DeepSeek-R1-Zero. Cu toate acestea, există o anumită explicație a procesului de generare a datelor și a cantității în instruirea ulterioară R1, deși nu este deosebit de specifică.

3.2.1 Algoritmul RL

Pentru a reduce costul de instruire al RL, autorii folosesc metoda GRPO (Group Relative Policy Optimization) proprie a DeepSeek, [2402.03300] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. Această metodă abandonează modelul Critic, care este de obicei comparabil ca mărime cu modelul de politică, și, în schimb, estimează linia de bază folosind un scor de grup. Explicația corespunzătoare este prezentată în figura de mai jos (imagine de pe Twitter):

3.2.2 Modelarea recompenselor

Recompensele sunt sursa semnalelor de antrenament și determină direcția de optimizare a RL. Pentru a antrena DeepSeek-R1-Zero, autorii au folosit un sistem de recompense bazat pe reguli, care constă în principal din două tipuri de recompense:

Recompensa pentru acuratețe: Evaluați dacă răspunsul este corect. De exemplu:
- În problemele matematice cu rezultate deterministe, modelul trebuie să ofere răspunsul final într-un format specific (cum ar fi în interiorul unei casete), astfel încât corectitudinea acestuia să poată fi verificată în mod fiabil prin reguli.
- În mod similar, pentru problemele LeetCode, feedback-ul poate fi generat folosind un compilator bazat pe cazuri de testare predefinite.
Recompensă de format: o recompensă de format este, de asemenea, folosită pentru a forța modelul să își plaseze procesul de gândire între „ ” și ” ” etichete.

În timpul dezvoltării DeepSeek-R1-Zero, autorul nu a folosit modelul de recompensă neuronală de rezultat sau modelul de recompensă neuronală de proces, deoarece autorul a constatat că modelul de recompensă neuronal poate întâmpina falsificarea recompensei (reward Hacking) în procesele RL la scară largă; în plus, recalificarea Modelului de recompensă nu numai că necesită resurse suplimentare de instruire, dar complică și întregul proces de instruire.

3.2.3 Şablon de instruire

Pentru a antrena DeepSeek-R1-Zero, autorii au conceput mai întâi un șablon simplu pentru a ghida modelul de bază să urmeze instrucțiunile setate. După cum se arată în Tabelul 1 de mai jos, șablonul necesită DeepSeek-R1-Zero pentru a genera un proces de inferență și apoi a da răspunsul final.

Autorul a limitat în mod deliberat constrângerile acestui cadru structural pentru a evita introducerea oricărei prejudecăți de conținut – de exemplu, forțarea raționamentului reflexiv sau promovarea unor strategii specifice de rezolvare a problemelor – pentru a se asigura că evoluția naturală a modelului poate fi observată cu acuratețe în timpul procesului RL.

3.2.4 Concluzie

Capacități de raționament robuste fără date SFT: Pornind RL direct de la modelul de bază, traiectoria de evoluție a modelului poate fi monitorizată îndeaproape fără interferențe SFT. După cum arată figura 3 de mai jos, timpul de gândire al lui DeepSeek-R1-Zero a continuat să se îmbunătățească (lungimea creșterii a devenit treptat mai lungă) pe tot parcursul procesului de antrenament. Această îmbunătățire nu a venit din ajustări externe, ci a fost un rezultat firesc al dezvoltării interne a modelului. DeepSeek-R1-Zero a dobândit în mod natural capacitatea de a rezolva sarcini de inferență din ce în ce mai complexe, cum ar fi capacitatea de a reflecta, prin utilizarea calculelor de timp de testare extinse.

DeepSeek-R1-Zero a experimentat un „moment aha” în timpul antrenamentului. După cum se arată în Tabelul 3 de mai jos, acest moment a avut loc în timpul etapei versiunii de mijloc a modelului. În această etapă, DeepSeek-R1-Zero a învățat să aloce mai mult timp de gândire problemelor prin reevaluarea abordării sale inițiale.

Votul majoritar: performanța lui DeepSeek-R1-Zero poate fi îmbunătățită în continuare prin aplicarea votului majoritar. De exemplu, după cum se arată în Tabelul 2 de mai jos, după ce votul majoritar este utilizat în testul de referință AIME, performanța acestuia crește de la 71.0% la 86.7%, depășind OpenAI-o1-0912.

Puncte slabe: În timp ce DeepSeek-R1-Zero demonstrează capacități puternice de raționament și dezvoltă în mod autonom comportamente de raționament neașteptate și puternice, se confruntă în continuare cu provocări precum lizibilitatea slabă și amestecarea limbajului.

3.3 DeepSeek-R1

Pentru a face procesul de Raționament mai ușor de citit și pentru a-l împărtăși comunității deschise, autorii explorează în continuare metoda DeepSeek-R1, care utilizează date de pornire la rece prietenoase pentru oameni pentru RL. Inspirat de DeepSeek-R1-Zero, urmează două întrebări naturale:

Performanța raționamentului poate fi îmbunătățită în continuare sau procesul de convergență poate fi accelerat prin introducerea unei cantități mici de date de înaltă calitate ca pornire rece?
Cum putem antrena un model ușor de utilizat, care nu numai că generează CoT-uri clare și coerente, dar demonstrează și capacități puternice de generalizare?

Ca răspuns la aceste întrebări, am proiectat un proces de instruire pentru DeepSeek-R1. Procesul constă din mai multe etape, după cum este descris mai jos:

Etapa-1, așa cum se arată în figura de mai jos, antrenează starea intermediară a DeepSeek-R1 prin SFT + RL:

Următoarea figură arată etapele 2, 3 și 4:

Etapa-2: stânga sus, construiți 200K date non-Reasoning și 600K date Reasoning.
Etapa-3: dreapta sus, tren SFT + RL DeepSeek-R1.
Etapa-4: figura inferioară, Distill DeepSeek-R1-Distill-xx.

3.3.1 Pornire la rece (Etapa-1)

Spre deosebire de DeepSeek-R1-Zero, pentru a preveni faza instabilă de pornire la rece a modelului de bază la începutul antrenamentului RL, autorii au construit și colectat o cantitate mică de date Long CoT pentru DeepSeek-R1 pentru a ajusta modelul ca actor RL inițial. Pentru a colecta aceste date, autorii au explorat diferite metode:

Folosind solicitări cu câteva lovituri cu exemple Long CoT
Cerere direct modelului să genereze răspunsuri detaliate cu reflecție și verificare
Colectarea ieșirii DeepSeek-R1-Zero într-un format care poate fi citit de om
Rafinarea rezultatelor prin post-procesare cu etichetare manuală

Autorii au colectat un total de mii de date Cold Start, care au fost folosite pentru a regla DeepSeek-V3-Base ca punct de plecare pentru RL. În comparație cu DeepSeek-R1-Zero, avantajele datelor Cold Start includ

Lizibilitate: Răspunsurile DeepSeek-R1-Zero pot fi amestecate în mai multe limbi sau nu au formatul Markdown folosit pentru a evidenția răspunsurile utilizatorilor. În schimb, la crearea datelor Cold Start pentru DeepSeek-R1, autorul a proiectat un format care poate fi citit, care include un rezumat la sfârșitul fiecărui răspuns și filtrează răspunsurile care nu pot fi citite. Aici, formatul de ieșire este definit ca |special_token| |token_special|
, unde raționament_proces este gândirea înlănțuită a Interogării și rezumatul este folosit pentru a rezuma rezultatele raționamentului.
Potențial: prin proiectarea cu atenție a unei combinații de modele de date Cold Start a priori umane, autorii au observat că performanța sa este superioară DeepSeek-R1-Zero.

3.3.2 RL bazat pe raționament (Etapa-1)

După reglarea fină a DeepSeek-V3-Base pe datele Cold Start, este utilizat același proces de antrenament RL la scară largă ca și DeepSeek-R1-Zero. Această etapă are ca scop îmbunătățirea capacității modelului în sarcinile intensive de raționament, în special pe probleme de programare, matematică, știință și raționament logic cu soluții clare.

În timpul antrenamentului, autorii au observat că CoT suferea adesea de amestecarea limbilor, mai ales atunci când promptul RL implica mai multe limbi. Pentru a atenua problema amestecării lingvistice, autorii au introdus o recompensă pentru consistența lingvistică în formarea RL, care este calculată pe baza proporției de cuvinte în limba țintă în CoT. Deși experimentele de ablație arată că această metodă de aliniere duce la o scădere ușoară a performanței modelului, acest mecanism de recompensă este în concordanță cu preferințele umane și îmbunătățește lizibilitatea. În cele din urmă, autorii adaugă în mod direct acuratețea sarcinii de raționament la recompensa pentru consistența limbajului pentru a forma recompensa finală și implementează antrenamentul RL pe modelul ajustat până când acesta converge spre sarcina de raționament.

3.3.3 Construirea a 800.000 de date selectate (Etapa-2)

În timp ce RL for Reasoning converge, datele SFT sunt colectate folosind punctul de control rezultat pentru următoarea rundă de antrenament. Spre deosebire de datele inițiale Cold Start, care se concentrează în principal pe Raționament, această etapă încorporează date din alte domenii pentru a îmbunătăți capacitatea modelului de a scrie, a juca rol și a altor sarcini cu scop general. Mai exact, datele sunt generate și modelul este ajustat după cum urmează:

Date de raționament: sunt selectate solicitări de raționament și traiectorii de raționament sunt generate prin efectuarea eșantionării de respingere de la punctul de control antrenat RL menționat mai sus (DeepSeek-R1 Etapa 1). În etapa anterioară, au fost incluse doar datele care puteau fi evaluate folosind recompense bazate pe reguli. Cu toate acestea, în această etapă, setul de date a fost extins prin includerea mai multor date, dintre care unele au fost generate folosind un model de recompensă, iar răspunsurile reale au fost evaluate prin introducerea predicțiilor modelului în DeepSeek-V3 (DeepSeek V3 ca judecător). În plus, deoarece rezultatul modelului este uneori confuz și dificil de citit, lanțurile de gândire în limbi mixte, paragrafele lungi și blocurile de cod au fost filtrate. Pentru fiecare prompt, au fost eșantionate răspunsuri multiple și au fost reținute numai cele corecte (Best-of-N). În total, au fost colectate aproximativ 600.000 de mostre de instruire legate de raționament.
Date neraționante: cum ar fi scrisul, întrebările factoide, conștientizarea de sine și traducerea, au folosit procesul DeepSeek-V3 și au reutilizat unele dintre seturile de date SFT ale DeepSeek-V3. Pentru unele sarcini fără raționament, DeepSeek-V3 este chemat să genereze potențiale CoT-uri înainte de a răspunde la întrebare. Cu toate acestea, pentru interogări simple, cum ar fi „Bună ziua”, nu este furnizat niciun lanț de gândire în Răspuns. În cele din urmă, au fost colectate un total de aproximativ 200.000 de mostre de antrenament non-raționament.

3.3.4 SFT și RL pentru toate scenariile (Etapa-3)

Două runde de reglare fină, un total de aproximativ 800.000 de mostre selectate au fost efectuate pe DeepSeek-V3-Base utilizând cele două seturi de date menționate mai sus (Raționare și non-Raționare).

Pentru a alinia și mai mult modelul cu preferințele umane, autorii au implementat o a doua fază a RL, care își propune să îmbunătățească utilitatea și inofensiunea modelului, perfecționându-și și capabilitățile de raționament. Mai exact, modelul a fost antrenat cu o combinație de semnale de recompensă și diverse distribuții prompte.

Pentru datele de raționament, se urmează metodologia descrisă în DeepSeek-R1-Zero, folosind un mecanism de recompensă bazat pe reguli pentru a ghida învățarea modelului în domeniile matematicii, programare și raționament logic.
Pentru date generale, modelul Reward este folosit pentru a surprinde preferințele umane în situații complexe și subtile. O strategie similară de perechi de preferințe și distribuții prompte de antrenament este utilizată pe baza procesului DeepSeek-V3.
În ceea ce privește utilitatea, este luat în considerare doar rezumatul final, asigurându-se că evaluarea se concentrează pe caracterul practic și relevanța Răspunsului pentru utilizator, minimizând în același timp interferența cu procesul de raționament care stau la baza.
În ceea ce privește inofensivitatea, întregul Răspuns al modelului este evaluat cuprinzător, inclusiv procesul de raționament și rezumatul, pentru a identifica și elimina orice riscuri potențiale, părtiniri sau conținut dăunător care pot apărea în timpul procesului de generare.
În cele din urmă, prin integrarea semnalelor de recompensă și prin diversificarea distribuției de date, poate fi antrenat un model care acordă prioritate atât beneficiilor, cât și inofensiunii, excelând și în raționament.

3.3.5 Distilarea (Etapa-4)

Pentru a echipa un model mic mai eficient cu capacitatea de raționament a DeepSeek-R1, autorii au ajustat direct modelele open source Qwen și LLaMA folosind cele 800.000 de mostre selectate în DeepSeek-R1-Stage-1. Rezultatele arată că această metodă de distilare directă îmbunătățește semnificativ capacitatea de raționament a modelelor mici. Modelele de bază utilizate de autori includ Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B și Llama-3.3-70B-Instruct. Llama-3.3 a fost selectată deoarece capacitatea sa de raționament este puțin mai bună decât Llama-3.1.

Pentru modelul de distilare, autorul folosește doar SFT și nu include etapa RL. Deși introducerea RL poate îmbunătăți foarte mult performanța modelului, scopul principal al autorului aici este acela de a demonstra eficacitatea tehnologiei de distilare, iar explorarea etapei RL este lăsată în seama cercetărilor ulterioare.

PS: În plus, este de fapt posibil să folosiți DeepSeek-R1 final pentru a genera datele de mai sus și a reconstrui cele 800.000 de date utilizate pentru distilare, iar modelul distilat poate avea un efect mai bun; cu toate acestea, prețul este că datele trebuie reconstruite.

Interpretarea hârtiei DeepSeek R1 și puncte tehnice cheie

1 Context