DeepSeek R1 popieriaus interpretacija ir pagrindiniai techniniai punktai

1 Fonas

Per pavasario šventę, "DeepSeek R1 dar kartą sulaukė didelio dėmesio, ir net mūsų anksčiau parašytas DeepSeek V3 interpretacijos straipsnis taip pat buvo pakartotinai perduotas ir daug aptariamas.

Nors buvo atlikta daug DeepSeek R1 analizių ir reprodukcijų, čia nusprendėme sudaryti keletą atitinkamų skaitymo pastabų.

Mes naudosime tris pagrindines schemas, kad parodytume modelio konstrukciją ir pagrindinius techninius dalykus, išskirdami DeepSeek-R1 serijos esmę, kad galėtume intuityviau suprasti jos dizaino idėjas.

Atitinkamas popierius yra [2501.12948] DeepSeek-R1: Mąstymo gebėjimų skatinimas LLM per sustiprintą mokymąsi

ir atitinkamas atvirojo kodo modelis yra DeepSeek-R1

2 Įvadas

2.1 Bendrieji samprotavimo algoritmai

Kaip parodyta 2 paveiksle žemiau, autorius paaiškina keturis įprastus samprotavimo algoritmus. Nors jie skiriasi konkrečiomis detalėmis, jie visi apima dvi pagrindines operacijas:

Išplėtimas: generuokite žetonus, kad išplėstumėte sprendimo kelią.
Apibendrinimas: integruokite kiekvieno kelio rezultatus, kad gautumėte galutinį atsakymą. Skaičiavimo išteklių padidinimas išplėtimo etape paprastai gali pagerinti atsakymo kokybę agregavimo etape.

Savarankiškumas (SC). Kaip parodyta 2a paveiksle, pagrindinė SC idėja yra generuoti kelis skirtingus išėjimus (kuriuos galima pasiekti keičiant atrankos parametrus ir pan.), o tada balsuoti už visus atsakymus, kad būtų pasirinktas atsakymas su didžiausiu laimėjimo koeficientu. Pagrindinis parametras yra kandidatų atsakymų skaičius n.

Rebase algoritmas: kaip parodyta toliau pateiktame 2b paveiksle, Rebase taip pat generuoja kelis išėjimus, tačiau jie generuojami keliais etapais. Kiekvienas žingsnis įvertinamas balais naudojant apdovanojimo modelį, o aukščiausią balą surinkęs rezultatas naudojamas toliau generuoti. Galiausiai sugeneruojamas samprotavimo medis su keliomis šakomis. Apibendrinimo etape atrenkamas atsakymas su aukščiausiu balu (Best-of-N).

Monte Karlo medžio paieška (MCTS): kaip parodyta toliau pateiktame 2c paveiksle, MCTS yra galingas samprotavimo algoritmas, kuris išplečia mazgus palaipsniui imdamas atranką ir konstruoja sprendimų medį, kol pasiekia lapo mazgą, kuriame yra potencialus sprendimas. Kiekvienas sprendimas įvertinamas naudojant atlygio modelį arba modeliavimą, o rezultatas perduodamas atgal į pirmtakų mazgus, kad būtų atnaujintos jų atlygio vertės, taip užbaigiant iteraciją. Pagrindinis parametras taip pat yra n, o padidinus n, galima giliau ir plačiau ištirti galimus sprendimus.

Internalizuota pažinimo grandinė (ICoT). Kaip parodyta toliau pateiktame 2d paveiksle, naujausi LLM, tokie kaip OpenAI o1 ir Qwen-QWQ, gali internalizuoti mąstymo elgesį treniruočių metu, nereikalaujant aiškaus samprotavimo algoritmo. Pagrindinė idėja yra sugeneruoti CoT seką, išskaidyti sudėtingas problemas į keletą poproblemų ir tada pakartotinai optimizuoti šiuos atsakymus, atsižvelgiant į ankstesnius rezultatus, kad galiausiai būtų priimtas sprendimas.

2.2 Samprotavimo derinimo metodai

2.2.1 Geriausio N metodo apžvalga

Trumpai tariant, „Best-of-N“ yra LLM išvadose plačiai naudojamas derinimo metodas, kuriuo siekiama užtikrinti aukštą sugeneruotų rezultatų kokybę generuojant kelis kandidatų atsakymus ir pasirenkant geriausią. Jį sudaro trys pagrindiniai procesai:

Generavimo procesas: tam tikram raginimui X metodas „Best-of-N“ generuoja N IID atsakymus (Y1, Y₂, …, Yₙ), kur N dažnai vadinamas „partijos dydžiu“.
Vertinimo mechanizmas: kiekvienas sugeneruotas atsakymas įvertinamas pagal atlygio modelį, kad būtų gautas atitinkamas balas {s(Y₁), s(Y₂), …, s(Yₙ)}.
Geriausio atsakymo pasirinkimas: Galiausiai kaip išvestis pasirenkamas atsakymas, turintis didžiausią balą iš visų sugeneruotų atsakymų, ty Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}.

Šio metodo pranašumai yra šie:

Jis gali veiksmingai išvengti sudėtingų koregavimo veiksmų, kad būtų lengviau įdiegti kalbos modelius, kurie buvo paruošti arba tiksliai suderinti pagal instrukcijas.
Jį paprasta įgyvendinti, lengva suprasti ir iš esmės nėra hiperparametrų: pagrindinis hiperparametras yra N, kurį galima dinamiškai koreguoti darant išvadas.
Jis yra labai konkurencingas kartos kokybės požiūriu ir netgi gali konkuruoti su kai kuriais sudėtingais po treniruočių metodais, tokiais kaip RLHF arba DPO. Tyrimai rodo, kad „Best-of-N“ metodas gerai veikia kompromiso kreivėje tarp atlygio ir KL skirtumo, netgi pranokdamas kitas sudėtingas derinimo strategijas.

Šio metodo trūkumai yra

Norint padaryti išvadą, reikia generuoti N sekų, o tai gali sukelti didelių skaičiavimo išlaidų. Praktiškai pagrįsta N vertė svyruoja nuo 4 iki 128, tačiau norint konkuruoti su pažangiausiais po treniruotės metodais, gali prireikti didesnių N verčių, pvz., nuo 1000 iki 60000, o tai gali sukelti beveik nepriimtinų skaičiavimo išlaidų.

„Best-of-N“ metodas dažnai naudojamas aukštos kokybės duomenų rinkiniams generuoti tolesniam prižiūrimam koregavimui ir vaidino pagrindinį vaidmenį LLaMA-2 ir LLaMA-3 derinimo procese.

2.2.2 OpenAI geriausias iš N metodas

„OpenAI“ pirmą kartą pasiūlė „Best-of-N“ mėginių ėmimą [2009.01325] Mokymasis apibendrinti iš žmonių atsiliepimų . Tiksliau, jis naudojamas siekiant įvertinti ir optimizuoti suvestinės modelio veikimą, pasirenkant geriausią iš kelių modelių sugeneruotą suvestinę. Šis metodas padeda tyrėjams geriau suprasti ryšį tarp skirtingų vertinimo metrikų ir žmogaus vertintojo pageidavimų ir yra naudojamas modelio mokymui ir optimizavimui vadovauti.

„OpenAI“ taip pat naudoja „Best-of-N“ mėginių ėmimą (atmetimo atranką) tolesnėje veikloje [2112.09332] WebGPT: Naršyklės padedamas klausimų atsakymas su žmonių atsiliepimais. Tiksliau, fiksuotas atsakymų skaičius (4, 16 arba 64) atrenkamas iš BC modelio arba RL modelio, o tas, kurio atlygio modelio balas yra aukščiausias, pasirenkamas kaip varžovų atlygio modelio optimizavimo metodas. Šis metodas nereikalauja papildomo mokymo, tačiau padidina išvados etapo skaičiavimo sudėtingumą.

2.2.3 Google BOND metodas

Svetainėje [2407.14622] BOND: suderindami LLM su geriausiu N distiliavimu, „Google“ autoriai siūlo geriausią N distiliavimą (BOND)., naujas RLHF algoritmas, sukurtas modeliuoti Best-of-N atrankos strategiją naudojant paskirstymo atitikimo algoritmą, nepadidinant skaičiavimo išlaidų darant išvadą.

Konkrečiai, autorius pirmiausia nustato tikslų geriausio N atrankos analitinį pasiskirstymą ir pateikia geriausio N atrankos tikimybės funkciją:

Antra, autoriai išreiškia problemą kaip paskirstymo atitikimo problemą;

vėliau autoriai siūlo naudoti Jeffreys skirtumą kaip paskirstymo atitikimo tikslą:

Galiausiai, norėdami išspręsti N atrankos problemą, autoriai siūlo iteracinį BOND metodą, kuris pagerina strategijos veikimą iteratyviai distiliuojant Best-of-N skirstinį. Konkretūs veiksmai apima:

Inicijuoti pagalbinę inkaro strategiją π(inkaras).

Iteratyviai vykdykite BOND, kad distiliuotumėte Best-of-N π (inkaras) ir atnaujinkite π (inkarą) po kiekvieno veiksmo.

2.3 Proceso priežiūra ir rezultatų priežiūra

Rezultatas ir procesas nurodo du atlygio modelio vertinimo aspektus:

Rezultato atlygio modelis: įvertinkite, ar galutinis modelio rezultatas yra teisingas, ar toks, kokio tikimasi.
Proceso atlygio modelis: įvertina, ar modelio samprotavimai ir sprendimų priėmimo žingsniai rezultatų generavimo procese yra pagrįsti ir veiksmingi.

Pavyzdžiui, „OpenAI Let's Verify“ žingsnis po žingsnio | OpenAI taip pat mini:

Proceso priežiūra (prižiūrima rezultato): apima grįžtamojo ryšio teikimą apie kiekvieną modelio samprotavimo proceso žingsnį. Proceso prižiūrimi atlygio modeliai (PRM) yra mokomi numatyti kiekvieno sprendimo žingsnio teisingumą.
Rezultatas prižiūrimas: rezultato prižiūrimas suteikia grįžtamąjį ryšį, pagrįstą tik galutiniu modelio samprotavimo rezultatu. Rezultatų prižiūrimi atlygio modeliai (ORM) mokomi naudojant galutinį sprendimo atsakymą, o teisingumas nustatomas automatiniu patikrinimu.

2.4 Atlygio įsilaužimas

RL, atlygio įsilaužimas reiškia reiškinį, kai agentas išnaudoja atlygio funkcijos dizaino trūkumą, kad maksimaliai padidintų kaupiamąjį atlygį tokiu būdu, kuris neatitinka pradinio dizainerio ketinimo. Nors toks elgesys techniškai atitinka atlygio funkcijos optimizavimo tikslą, tikrasis poveikis nukrypsta nuo laukiamo užduoties tikslo ir netgi gali sukelti neigiamų pasekmių.

Pagrindinių taškų analizė:

Apibrėžimas ir pasireiškimas:
1. Agentas nustato atlygio funkcijos trūkumą ir gauna didelį atlygį pasinaudojęs „sparčiais klavišais“, užuot išsprendęs problemą.
2. Pavyzdžiui, valymo robotas išjungia šviesą, kad kambarys „atrodytų“ švarus, o ne iš tikrųjų jį valo; žaidimo agentas pakartotinai pelno taškus neįgyvendinęs lygio tikslo; pasirenkant nemažinti greičio siekiant sumažinti stabdymo kartų skaičių, o tai kelia pavojų saugumui; generuoti beprasmį turinį, atitinkantį raktinius žodžius, siekiant apgauti aukštus balus.
Pagrindinės priežastys:
1. Neužbaigtas atlygio funkcijos dizainas: per daug supaprastinta arba nepadengta kraštutinių atvejų.
2. Tikslų ir atlygio nesutapimas: atlygio funkcija visiškai neatspindi tikrojo tikslo, todėl agentas optimizuoja „neteisingą“ tikslą.
Sprendimai:
1. Pagerinkite atlygio dizainą: įveskite daugiamatį atlygį (pvz., saugumą, efektyvumą ir pan.) arba dinamiškai koreguokite atlygio funkciją.
2. Prieštaringas patikrinimas: aptikkite, ar agentas „apgaudinėja“, naudodamas papildomus mechanizmus.
3. Rankinis įsikišimas ir apribojimai: nustatykite elgesio ribas (pvz., saugos sluoksnis) arba rankinį grįžtamąjį ryšį (pvz., RLHF).
4. Atvirkštinis mokymasis (IRL): išmokite tikroviškesnės atlygio funkcijos iš ekspertų demonstracijų.
5. Hierarchinio sustiprinimo mokymasis: išskaidykite užduotį į antrinius tikslus, kad sumažintumėte vietinio optimizavimo riziką.
Asociacija su permontavimu:
1. Abiem atvejais mokymosi metrika skiriasi nuo realaus našumo, tačiau „Reward Hacking“ labiau pabrėžia atlygio funkcijos dizaino trūkumus, o ne modelio apibendrinimo galimybes.
Santrauka:
1. Atlygio įsilaužimas atskleidžia tikslų derinimo iššūkį RL. Norint išspręsti šią problemą, reikia sukurti tvirtesnius atlygio mechanizmus, įvesti išorinius suvaržymus ir įtraukti ankstesnes žmogaus žinias, siekiant užtikrinti, kad agento elgesys būtų veiksmingas ir atitiktų projektavimo tikslą.

3 DeepSeek-R1-Zero ir DeepSeek-R1

3.1 Apžvalga

Ankstesni tyrimai daugiausia rėmėsi dideliais prižiūrimų duomenų kiekiais, siekiant pagerinti modelio veikimą. Šis tyrimas rodo, kad net ir be SFT kaip šalto paleidimo, didelio masto RL gali žymiai pagerinti modelio argumentavimo galimybes. Be to, įvedus nedidelį šaltojo paleidimo duomenų kiekį galima dar labiau optimizuoti veikimą. Toliau pateikiami modeliai, susiję su DeepSeek-R1:

DeepSeek-R1-Zero: Šis modelis taiko RL tiesiogiai pagrindiniam modeliui be jokių SFT duomenų.
DeepSeek-R1: Šis modelis taiko RL, pradedant nuo kontrolinio taško, kuris buvo tiksliai sureguliuotas naudojant tūkstančius ilgų CoT mėginių.
DeepSeek-R1-Distill-xx: distiliuoja DeepSeek-R1 samprotavimo galimybes į mažą tankų modelį.

3.2 DeepSeek-R1-Zero

Toliau pateiktame paveikslėlyje parodyti pagrindiniai DeepSeek-R1-Zero modelio mokymo dalykai:

PS: Reikėtų pažymėti, kad dokumente nepateikiama daug informacijos apie duomenis, naudojamus DeepSeek-R1-Zero RL procese. Tačiau vėlesniuose R1 mokymuose yra tam tikras duomenų generavimo proceso ir kiekio paaiškinimas, nors jis nėra ypač konkretus.

3.2.1 RL algoritmas

Siekdami sumažinti RL mokymo išlaidas, autoriai naudoja DeepSeek paties GRPO (Group Relative Policy Optimization) metodą [2402.03300] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. Taikant šį metodą atsisakoma kritinio modelio, kurio dydis paprastai panašus į politikos modelį, o vietoj to įvertinama bazinė linija, naudojant grupės balą. Atitinkamas paaiškinimas parodytas paveikslėlyje žemiau (nuotrauka iš Twitter):

3.2.2 Atlygio modeliavimas

Apdovanojimai yra mokymo signalų šaltinis ir nustato RL optimizavimo kryptį. Norėdami išmokyti DeepSeek-R1-Zero, autoriai naudojo taisyklėmis pagrįstą atlygio sistemą, kurią daugiausia sudaro dviejų tipų atlygiai:

Atlygis už tikslumą: įvertinkite, ar atsakymas teisingas. Pavyzdžiui:
- Esant matematinėms problemoms su deterministiniais rezultatais, modelis turi pateikti galutinį atsakymą konkrečiu formatu (pvz., dėžutės viduje), kad jo teisingumą būtų galima patikimai patikrinti taisyklėmis.
- Panašiai, esant LeetCode problemoms, grįžtamasis ryšys gali būti generuojamas naudojant kompiliatorių, pagrįstą iš anksto nustatytais bandymo atvejais.
Atlygis už formatą: formato atlygis taip pat naudojamas norint priversti modelį išdėstyti savo mąstymo procesą tarp „ “ ir „ “ žymas.

Kurdamas DeepSeek-R1-Zero, autorius nenaudojo rezultato neuroninio atlygio modelio ar proceso neuroninio atlygio modelio, nes autorius nustatė, kad Neural Reward Model gali susidurti su atlygio klastojimu (Reward Hacking) didelio masto RL procesuose; be to, atlygio modelio perkvalifikavimas reikalauja ne tik papildomų mokymo išteklių, bet ir apsunkina visą mokymo procesą.

3.2.3 Mokymo šablonas

Norėdami išmokyti DeepSeek-R1-Zero, autoriai pirmiausia sukūrė paprastą šabloną, pagal kurį bazinis modelis vadovautųsi nustatytomis instrukcijomis. Kaip parodyta 1 lentelėje, šablonui reikalingas DeepSeek-R1-Zero, kad būtų sukurtas išvados procesas ir pateiktas galutinis atsakymas.

Autorius sąmoningai apribojo šios struktūrinės sistemos suvaržymus, kad būtų išvengta bet kokio turinio šališkumo, pavyzdžiui, priverstinio mąstymo arba konkrečių problemų sprendimo strategijų skatinimo, siekiant užtikrinti, kad RL proceso metu būtų galima tiksliai stebėti natūralią modelio raidą.

3.2.4 Išvada

Tvirtos samprotavimo galimybės be SFT duomenų: paleidus RL tiesiai iš bazinio modelio, modelio raidos trajektoriją galima atidžiai stebėti be SFT trukdžių. Kaip parodyta 3 paveiksle, DeepSeek-R1-Zero mąstymo laikas toliau gerėjo (augimo trukmė palaipsniui ilgėjo) viso mokymo proceso metu. Šis patobulinimas atsirado ne dėl išorinių koregavimų, bet buvo natūralus modelio vidinės plėtros rezultatas. DeepSeek-R1-Zero natūraliai įgijo galimybę spręsti vis sudėtingesnes išvadų užduotis, pvz., gebėjimą atspindėti, naudodamas pailginto bandymo laiko skaičiavimus.

DeepSeek-R1-Zero treniruotės metu patyrė „aha akimirką“. Kaip parodyta 3 lentelėje, šis momentas įvyko modelio vidurinės versijos etape. Šiame etape DeepSeek-R1-Zero išmoko skirti daugiau mąstymo laiko problemoms spręsti, iš naujo įvertinęs savo pradinį požiūrį.

Balsavimas dauguma: DeepSeek-R1-Zero našumą galima dar pagerinti taikant balsų daugumą. Pavyzdžiui, kaip parodyta 2 lentelėje, AIME etaloniniame teste panaudojus daugumos balsavimą, jo našumas šokteli nuo 71.0% iki 86.7%, pralenkdamas OpenAI-o1-0912.

Trūkumai: Nors DeepSeek-R1-Zero demonstruoja stiprias samprotavimo galimybes ir savarankiškai vysto netikėtą bei galingą samprotavimo elgesį, jis vis tiek susiduria su tokiais iššūkiais kaip prastas skaitomumas ir kalbų maišymas.

3.3 DeepSeek-R1

Kad samprotavimo procesas būtų skaitomesnis ir pasidalintų juo su atvira bendruomene, autoriai toliau tiria DeepSeek-R1 metodą, kuriame naudojami žmonėms palankūs šaltojo paleidimo duomenys RL. Įkvėpti DeepSeek-R1-Zero, kyla du natūralūs klausimai:

Ar galima dar labiau pagerinti samprotavimo našumą arba paspartinti konvergencijos procesą įvedant nedidelį kiekį aukštos kokybės duomenų kaip šaltą pradžią?
Kaip galime parengti patogų vartotojui modelį, kuris ne tik generuotų aiškius ir nuoseklius CoT, bet ir parodytų stiprias apibendrinimo galimybes?

Atsakydami į šiuos klausimus sukūrėme DeepSeek-R1 mokymo procesą. Procesas susideda iš kelių etapų, kaip aprašyta toliau:

1 etapas, kaip parodyta paveikslėlyje žemiau, treniruoja tarpinę DeepSeek-R1 būseną per SFT + RL:

Toliau pateiktame paveikslėlyje pavaizduoti 2, 3 ir 4 etapai:

2 etapas: viršutiniame kairiajame kampe, sukurkite 200 000 nemotyvuojančių duomenų ir 600 000 samprotavimo duomenų.
3 etapas: viršuje dešinėje, SFT + RL traukinys DeepSeek-R1.
4 etapas: apatinė figūra, distiliavimas DeepSeek-R1-Distill-xx.

3.3.1 Šaltas paleidimas (1 etapas)

Skirtingai nuo DeepSeek-R1-Zero, norėdami užkirsti kelią nestabiliam bazinio modelio šaltojo paleidimo etapui RL mokymo pradžioje, autoriai sukūrė ir surinko nedidelį kiekį Long CoT duomenų, skirtų DeepSeek-R1, kad tiksliai sureguliuotų modelį kaip pradinį RL veikėją. Norėdami surinkti šiuos duomenis, autoriai ištyrė įvairius metodus:

Kelių kadrų raginimų naudojimas su Long CoT pavyzdžiais
Tiesioginis modelio raginimas generuoti išsamius atsakymus su apmąstymu ir patikrinimu
Surenkama DeepSeek-R1-Zero išvestis žmonėms suprantamu formatu
Rezultatų patikslinimas po apdorojimo naudojant rankinį ženklinimą

Autoriai iš viso surinko tūkstančius šalto starto duomenų, kurie buvo naudojami norint tiksliai sureguliuoti DeepSeek-V3-Base kaip RL pradžios tašką. Palyginti su DeepSeek-R1-Zero, šalto paleidimo duomenų pranašumai yra šie

Skaitomumas: DeepSeek-R1-Zero Responses gali būti maišomas keliomis kalbomis arba trūkti Markdown formatavimo, naudojamo vartotojo atsakymams paryškinti. Priešingai, kurdamas DeepSeek-R1 šaltojo paleidimo duomenis, autorius sukūrė skaitomą formatą, kuriame kiekvieno atsakymo pabaigoje yra santrauka ir filtruojami neįskaitomi atsakymai. Čia išvesties formatas apibrėžiamas kaip |special_token| |specialus_žetonas|
, kur argumentavimo_procesas yra grandininis užklausos mąstymas, o santrauka naudojama samprotavimo rezultatams apibendrinti.
Potencialas: kruopščiai kurdami žmogaus a priori šaltojo paleidimo duomenų modelių derinį, autoriai pastebėjo, kad jo veikimas yra pranašesnis už DeepSeek-R1-Zero.

3.3.2 samprotavimu pagrįstas RL (1 etapas)

Tiksliai sureguliavus DeepSeek-V3-Base on Cold Start duomenis, naudojamas toks pat didelio masto RL treniruočių procesas kaip ir DeepSeek-R1-Zero. Šiuo etapu siekiama pagerinti modelio gebėjimą atlikti samprotavimus reikalaujančias užduotis, ypač programavimo, matematikos, gamtos mokslų ir loginio samprotavimo uždaviniuose, pateikiant aiškius sprendimus.

Mokymų metu autoriai pastebėjo, kad CoT dažnai kenčia nuo kalbų maišymo, ypač kai RL raginimas buvo susijęs su keliomis kalbomis. Siekdami palengvinti kalbų maišymo problemą, autoriai į RL mokymą įvedė kalbos nuoseklumo atlygį, kuris apskaičiuojamas pagal žodžių proporciją tikslinėje kalboje CoT. Nors abliacijos eksperimentai rodo, kad šis derinimo metodas šiek tiek sumažina modelio veikimą, šis atlygio mechanizmas atitinka žmogaus pageidavimus ir pagerina skaitomumą. Galiausiai, autoriai tiesiogiai prideda samprotavimo užduoties tikslumą prie kalbos nuoseklumo atlygio, kad sudarytų galutinį atlygį, ir įgyvendina RL mokymą pagal tiksliai suderintą modelį, kol jis susilieja su samprotavimo užduotimi.

3.3.3 800 000 pasirinktų duomenų sukūrimas (2 etapas)

Kol samprotavimo RL konverguoja, SFT duomenys renkami naudojant gautą kontrolinį tašką kitam mokymo etapui. Skirtingai nuo pradinių „Cold Start“ duomenų, kuriuose daugiausia dėmesio skiriama samprotavimui, šiame etape įtraukiami duomenys iš kitų sričių, siekiant pagerinti modelio gebėjimą rašyti, žaisti vaidmenis ir atlikti kitas bendros paskirties užduotis. Tiksliau, duomenys generuojami ir modelis tikslinamas taip:

Argumentavimo duomenys: parenkami samprotavimo raginimai ir generuojamos samprotavimo trajektorijos, atliekant atmetimo atranką iš anksčiau minėto RL apmokyto kontrolinio taško (DeepSeek-R1 1 etapas). Ankstesniame etape buvo įtraukti tik duomenys, kuriuos buvo galima įvertinti naudojant taisyklėmis pagrįstą atlygį. Tačiau šiame etape duomenų rinkinys buvo išplėstas įtraukiant daugiau duomenų, kai kurie iš jų buvo sukurti naudojant atlygio modelį, o tikrieji atsakymai buvo įvertinti pateikiant modelio prognozes į DeepSeek-V3 (DeepSeek V3 kaip teisėjas). Be to, kadangi modelio išvestis kartais yra paini ir sunkiai skaitoma, mišrios kalbos minčių grandinės, ilgos pastraipos ir kodų blokai buvo išfiltruoti. Kiekvienam raginimui buvo atrinkti keli atsakymai ir palikti tik teisingi (geriausias N). Iš viso buvo surinkta apie 600 000 su samprotavimu susijusių mokymo pavyzdžių.
Nemotyvuoti duomenys: tokie kaip rašymas, faktiniai klausimai, savęs suvokimas ir vertimas, naudojo DeepSeek-V3 procesą ir pakartotinai panaudojo kai kuriuos DeepSeek-V3 SFT duomenų rinkinius. Atliekant kai kurias ne samprotavimo užduotis, DeepSeek-V3 iškviečiamas sugeneruoti galimus CoT prieš atsakant į klausimą. Tačiau paprastoms užklausoms, tokioms kaip „Labas“, atsakyme nepateikiama minčių grandinė. Galų gale iš viso buvo surinkta apie 200 000 nemotyvavimo mokymo pavyzdžių.

3.3.4 SFT ir RL visiems scenarijams (3 etapas)

Du koregavimo etapai, iš viso apie 800 000 atrinktų mėginių, buvo atlikti naudojant DeepSeek-V3-Base, naudojant du pirmiau minėtus duomenų rinkinius (Reasoning ir non Reasoning).

Siekdami dar labiau suderinti modelį su žmogaus pageidavimais, autoriai įgyvendino antrąjį RL etapą, kuriuo siekiama pagerinti modelio naudingumą ir nekenksmingumą, kartu patobulinant jo samprotavimo galimybes. Konkrečiai, modelis buvo apmokytas derinant atlygio signalus ir įvairius greitus paskirstymus.

Argumentavimo duomenims taikoma metodika, aprašyta DeepSeek-R1-Zero, naudojant taisyklėmis pagrįstą atlygio mechanizmą, padedantį modelio mokymuisi matematikos, programavimo ir loginio mąstymo srityse.
Bendriesiems duomenims atlygio modelis naudojamas žmonių pageidavimams sudėtingose ir subtiliose situacijose užfiksuoti. Panaši pirmenybių porų ir treniruočių paskirstymo strategija naudojama remiantis DeepSeek-V3 procesu.
Kalbant apie naudingumą, atsižvelgiama tik į galutinę santrauką, užtikrinant, kad vertinant daugiausia dėmesio būtų skiriama atsakymo praktiškumui ir tinkamumui vartotojui, kartu sumažinant trukdžius pagrindiniam samprotavimo procesui.
Kalbant apie nekenksmingumą, visas modelio atsakas yra visapusiškai įvertintas, įskaitant samprotavimo procesą ir santrauką, siekiant nustatyti ir pašalinti bet kokią galimą riziką, šališkumą ar žalingą turinį, kuris gali atsirasti generavimo proceso metu.
Galų gale, integruojant atlygio signalus ir įvairinant duomenų paskirstymą, galima parengti modelį, kuris teikia pirmenybę naudai ir nekenksmingumui, o taip pat puikiai išmano.

3.3.5 Distiliavimas (4 etapas)

Siekdami aprūpinti efektyvesnį mažą modelį su DeepSeek-R1 argumentavimo galimybėmis, autoriai tiesiogiai sureguliavo atvirojo kodo modelius Qwen ir LLaMA, naudodami 800 000 pavyzdžių, atrinktų DeepSeek-R1-Stage-1. Rezultatai rodo, kad šis tiesioginio distiliavimo metodas žymiai pagerina mažų modelių argumentavimo galimybes. Pagrindiniai autorių naudojami modeliai yra Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B ir Llama-3.3-70B-Instruct. Llama-3.3 buvo pasirinktas, nes jos samprotavimai yra šiek tiek geresni nei Llama-3.1.

Distiliavimo modeliui autorius naudoja tik SFT ir neapima RL etapo. Nors RL įdiegimas gali labai pagerinti modelio veikimą, pagrindinis autoriaus tikslas čia yra parodyti distiliavimo technologijos efektyvumą, o RL stadijos tyrinėjimas paliktas tolesniems tyrimams.

PS: Be to, iš tikrųjų galima naudoti galutinį DeepSeek-R1 pirmiau minėtiems duomenims generuoti ir atkurti 800 000 distiliavimui naudojamų duomenų, o distiliuotas modelis gali turėti geresnį poveikį; tačiau kaina tokia, kad duomenis reikia atkurti.

DeepSeek R1 popieriaus interpretacija ir pagrindiniai techniniai punktai

1 Fonas