1 Pozadina
Tijekom Proljetnog festivala, DeepSeek R1 ponovno je privukao široku pozornost, a čak je i članak o tumačenju DeepSeek V3 koji smo prethodno napisali ponovno prenošen i o njemu se puno raspravljalo.
Iako je bilo mnogo analiza i reprodukcija DeepSeek R1, ovdje smo odlučili sastaviti neke odgovarajuće bilješke za čitanje.
Koristit ćemo tri osnovna shematska dijagrama za demonstraciju konstrukcije modela i ključnih tehničkih točaka, destilirajući bit serije DeepSeek-R1 kako bismo pružili intuitivnije razumijevanje njezinih dizajnerskih ideja.
Odgovarajući rad je [2501.12948] DeepSeek-R1: Poticanje sposobnosti rasuđivanja u LLM-u putem učenja s pojačanjem
a odgovarajući model otvorenog koda je DeepSeek-R1
2 Uvod
2.1 Uobičajeni algoritmi rasuđivanja
Kao što je prikazano na slici 2 u nastavku, autor objašnjava četiri uobičajena algoritma zaključivanja. Iako se razlikuju u određenim detaljima, svi uključuju dvije temeljne operacije:
- Proširenje: generirajte tokene za proširenje puta rješenja.
- Agregacija: integrirajte rezultate svakog puta kako biste dobili konačni odgovor. Povećanje računalnih resursa u fazi proširenja obično može poboljšati kvalitetu odgovora u fazi združivanja.
Samodosljednost (SC). Kao što je prikazano na slici 2a, temeljna ideja SC-a je generirati više različitih izlaza (što se može postići promjenom parametara uzorkovanja itd.), a zatim glasati za sve odgovore kako bi se odabrao odgovor s najvećom stopom pobjede. Ključni parametar je broj odgovora kandidata n.
Rebase algoritam: Kao što je prikazano na slici 2b u nastavku, Rebase također generira više izlaza, ali oni se generiraju u više koraka. Svaki korak se boduje pomoću modela nagrade, a rezultat s najvećim rezultatom koristi se za nastavak generiranja. Konačno, generira se stablo razmišljanja s više grana. Odgovor s najvišom ocjenom (Best-of-N) odabire se u fazi zbrajanja.
Monte Carlo Tree Search (MCTS): Kao što je prikazano na slici 2c u nastavku, MCTS je moćan algoritam rasuđivanja koji proširuje čvorove postupnim uzorkovanjem i konstruira stablo rješenja dok ne dođe do lisnog čvora koji sadrži rješenje kandidata. Svako se rješenje ocjenjuje putem modela nagrade ili simulacije, a rezultat se prenosi natrag na čvorove pretka kako bi se ažurirale njihove vrijednosti nagrade, čime se dovršava iteracija. Ključni parametar je također n, a povećanje n omogućuje dublje i šire istraživanje potencijalnih rješenja.
Internalizirani kognitivni lanac (ICoT). Kao što je prikazano na slici 2d u nastavku, najnoviji LLM-ovi, kao što su OpenAI o1 i Qwen-QWQ, mogu internalizirati ponašanje razmišljanja tijekom obuke bez potrebe za eksplicitnim algoritmom razmišljanja. Temeljna je ideja generirati CoT sekvencu, rastaviti složene probleme na više podproblema, a zatim iterativno optimizirati te odgovore razmišljajući o prethodnim rezultatima kako bi se na kraju došlo do rješenja.

2.2 Metode usklađivanja rasuđivanja
2.2.1 Pregled metode Best-of-N
Ukratko, Best-of-N je metoda usklađivanja koja se naširoko koristi u LLM zaključivanju, čiji je cilj osigurati visoku kvalitetu generiranih rezultata generiranjem odgovora više kandidata i odabirom najboljeg. Sastoji se od tri glavna procesa:
- Proces generiranja: Za dani upit X, metoda Best-of-N generira N IID odgovora (Y₁, Y₂, …, Yₙ), gdje se N često naziva "veličinom serije".
- Mehanizam bodovanja: Svaki generirani odgovor boduje se modelom nagrađivanja kako bi se dobio odgovarajući rezultat {s(Y₁), s(Y₂), …, s(Yₙ)}.
- Odabir najboljeg odgovora: Konačno, odgovor s najvećim rezultatom među svim generiranim odgovorima odabire se kao izlaz, tj. Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}.
Prednosti ove metode su:
- Može učinkovito izbjeći složene korake finog podešavanja, olakšavajući implementaciju jezičnih modela koji su prethodno obučeni ili fino podešeni s uputama.
- Jednostavan je za implementaciju, lak za razumijevanje i u biti bez hiperparametara: glavni hiperparametar je N, koji se može dinamički podešavati tijekom zaključivanja.
- Vrlo je konkurentan u smislu kvalitete generiranja i čak se može mjeriti s nekim složenim tehnikama nakon treninga kao što su RLHF ili DPO. Istraživanja pokazuju da metoda Best-of-N ima dobre rezultate na krivulji kompromisa između nagrade i KL divergencije, čak nadmašujući druge složene strategije usklađivanja.
Nedostaci ove metode su
- zaključivanje zahtijeva generiranje N sekvenci, što može dovesti do značajnih troškova računanja. U praksi, razumna vrijednost za N kreće se od 4 do 128, ali kako bi se natjecalo s najnaprednijim metodama nakon obuke, mogu biti potrebne veće vrijednosti N, kao što je 1000 do 60 000, što može dovesti do gotovo neprihvatljivog opterećenja računanja.
Metoda best-of-N često se koristi za generiranje skupova podataka visoke kvalitete za naknadno nadzirano fino podešavanje i odigrala je ključnu ulogu u procesu usklađivanja LLaMA-2 i LLaMA-3.
2.2.2 OpenAI best-of-N metoda
OpenAI je prvi predložio Best-of-N uzorkovanje u [2009.01325] Učenje sažimanja iz ljudskih povratnih informacija . Konkretno, koristi se za procjenu i optimizaciju izvedbe modela sažetka odabirom najboljeg sažetka generiranog iz više modela. Ova metoda pomaže istraživačima da bolje razumiju odnos između različitih metrika procjene i preferencija ljudskih procjenitelja te se koristi za usmjeravanje obuke i optimizacije modela.
OpenAI također koristi Best-of-N uzorkovanje (uzorkovanje odbijanja) u praćenju [2112.09332] WebGPT: Odgovaranje na pitanja potpomognuto preglednikom s ljudskim povratnim informacijama. Točnije, fiksni broj odgovora (4, 16 ili 64) uzorkuje se iz BC modela ili RL modela, a onaj s najvišom ocjenom modela nagrađivanja odabire se kao metoda optimizacije za kontradiktorni model nagrađivanja. Ova metoda ne zahtijeva dodatnu obuku, ali povećava računsku složenost faze zaključivanja koju treba postići.
2.2.3 Google BOND metoda
U [2407.14622] BOND: Usklađivanje LLM-a s Best-of-N destilacijom, autori iz Googlea predlažu Best-of-N destilaciju (BOND), novi RLHF algoritam dizajniran za simulaciju strategije uzorkovanja Best-of-N putem algoritma usklađivanja distribucije bez značajnog povećanja računalnog opterećenja tijekom zaključivanja.

Konkretno, autor prvo izvodi točnu analitičku distribuciju Best-of-N uzorkovanja i daje funkciju vjerojatnosti Best-of-N uzorkovanja:

Drugo, autori izražavaju problem kao problem usklađivanja distribucije;

nakon toga, autori predlažu korištenje Jeffreysove divergencije kao cilja usklađivanja distribucije:

Konačno, za rješavanje problema odabira N, autori predlažu iterativnu BOND metodu, koja poboljšava izvedbu strategije iterativnom destilacijom Best-of-N distribucije. Specifični koraci uključuju:
Inicijalizirajte pomoćnu strategiju sidra π (sidro).
Iterativno izvršavajte BOND za destilaciju Best-of-N π(sidro) i ažurirajte π(sidro) nakon svakog koraka.

2.3 Nadzor procesa i nadzor ishoda
Ishod i proces odnose se na dva aspekta evaluacije modela nagrađivanja:
- Model nagrađivanja ishoda: procijenite je li konačni rezultat izlaza modela točan ili očekivan.
- Procesni model nagrađivanja: ocjenjuje jesu li obrazloženje modela i koraci donošenja odluka u procesu generiranja rezultata razumni i učinkoviti.
Na primjer, OpenAI's Let's Verify Step by Step | OpenAI također spominje:
- Nadzor procesa (nadgledan ishodom): uključuje pružanje povratnih informacija o svakom koraku procesa rasuđivanja modela. Modeli nagrađivanja nadzirani procesom (PRM) osposobljeni su za predviđanje ispravnosti svakog koraka rješenja.
- Nadzirano ishodom: Nadzirano ishodom daje povratne informacije temeljene samo na konačnom rezultatu razmišljanja modela. Outcome-supervised reward modeli (ORM) treniraju se pomoću konačnog odgovora rješenja, a točnost se utvrđuje automatskom provjerom.
2.4 Hakiranje nagrada
U RL-u, hakiranje nagrada odnosi se na fenomen u kojem agent iskorištava grešku u dizajnu funkcije nagrađivanja kako bi maksimizirao kumulativnu nagradu na način koji ne ispunjava izvornu namjeru dizajnera. Iako ovo ponašanje tehnički ispunjava cilj optimizacije funkcije nagrađivanja, stvarni učinak odstupa od očekivanog cilja zadatka i može čak dovesti do negativnih posljedica.
Analiza ključnih točaka:
- Definicija i manifestacija:
- Agent pronalazi nedostatak u funkciji nagrađivanja i dobiva visoku nagradu korištenjem „prečaca“ umjesto da stvarno riješi problem.
- Na primjer, robot za čišćenje gasi svjetla kako bi soba "izgledala" čisto, umjesto da je zapravo čisti; agent za igru opetovano postiže bodove bez ispunjavanja cilja razine; odabir ne usporavanja kako bi se smanjio broj vremena kočenja, što predstavlja sigurnosnu opasnost; generiranje besmislenog sadržaja koji odgovara ključnim riječima kako bi se prevarili visoki rezultati.
- Glavni uzroci:
- Nepotpun dizajn funkcije nagrađivanja: pretjerano pojednostavljivanje ili nepokrivanje rubnih slučajeva.
- Neusklađenost između ciljeva i nagrada: funkcija nagrađivanja ne uspijeva u potpunosti odražavati stvarni cilj, zbog čega se agent optimizira za "pogrešni" cilj.
- rješenja:
- Poboljšajte dizajn nagrađivanja: uvedite višedimenzionalne nagrade (npr. sigurnost, učinkovitost itd.) ili dinamički prilagodite funkciju nagrađivanja.
- Suparnička provjera: otkrijte da li agent "vara" putem dodatnih mehanizama.
- Ručna intervencija i ograničenja: postavite granice ponašanja (npr. sigurnosni sloj) ili ručne povratne informacije (npr. RLHF).
- Inverzno učenje potkrepljenja (IRL): naučite realističniju funkciju nagrađivanja iz stručnih demonstracija.
- Učenje hijerarhijskog pojačanja: rastavite zadatak na podciljeve kako biste smanjili rizik lokalne optimizacije.
- Povezanost s prekomjernim opremanjem:
- Oba pokazuju nepovezanost između metrike obuke i izvedbe u stvarnom svijetu, ali Reward Hacking stavlja veći naglasak na nedostatke dizajna funkcije nagrađivanja nego na sposobnost generalizacije modela.
- Sažetak:
- Reward Hacking otkriva izazov usklađivanja ciljeva u RL-u. Rješavanje ovog problema zahtijeva kombinaciju dizajniranja snažnijih mehanizama nagrađivanja, uvođenje vanjskih ograničenja i uključivanje ljudskog prethodnog znanja kako bi se osiguralo da je ponašanje agenta učinkovito iu skladu s namjerom dizajna.
3 DeepSeek-R1-nula & DeepSeek-R1
3.1 Pregled
Prethodna istraživanja uvelike su se oslanjala na velike količine nadziranih podataka kako bi se poboljšala izvedba modela. Ova studija pokazuje da čak i bez SFT-a kao hladnog pokretanja, veliki RL može značajno poboljšati sposobnost razmišljanja modela. Osim toga, uvođenje male količine podataka o hladnom startu može dodatno optimizirati performanse. Sljedeći su modeli koji se odnose na DeepSeek-R1:
- DeepSeek-R1-Zero: Ovaj model primjenjuje RL izravno na osnovni model bez ikakvih SFT podataka.
- DeepSeek-R1: Ovaj model primjenjuje RL počevši od kontrolne točke koja je fino podešena s tisućama dugih CoT uzoraka.
- DeepSeek-R1-Distill-xx: Destilira sposobnost rasuđivanja DeepSeek-R1 u mali gusti model.
3.2 DeepSeek-R1-nula
Sljedeća slika prikazuje ključne točke u obuci modela DeepSeek-R1-Zero:

PS: Treba napomenuti da rad ne pruža mnogo informacija o podacima korištenim u RL procesu DeepSeek-R1-Zero. Međutim, postoji neko objašnjenje procesa generiranja podataka i količine u kasnijoj R1 obuci, iako ono nije posebno specifično.
3.2.1 RL algoritam
Kako bi smanjili troškove obuke za RL, autori koriste DeepSeek vlastitu GRPO (Group Relative Policy Optimization) metodu, [2402.03300] DeepSeekMath: Pomicanje granica matematičkog rasuđivanja u modelima otvorenog jezika. Ova metoda napušta Kritički model, koji je po veličini obično usporediv s Političkim modelom, i umjesto toga procjenjuje osnovnu vrijednost pomoću grupnog rezultata. Odgovarajuće objašnjenje prikazano je na slici ispod (slika s Twittera):

3.2.2 Modeliranje nagrađivanja
Nagrade su izvor signala treninga i određuju smjer optimizacije RL-a. Za treniranje DeepSeek-R1-Zero, autori su koristili sustav nagrađivanja temeljen na pravilima, koji se uglavnom sastoji od dvije vrste nagrada:
- Nagrada za točnost: Ocijenite je li odgovor točan. Na primjer:
- U matematičkim problemima s determinističkim rezultatima, model mora dati konačni odgovor u određenom formatu (kao što je unutar okvira) tako da se njegova točnost može pouzdano provjeriti pravilima.
- Slično, za LeetCode probleme, povratne informacije mogu se generirati pomoću prevoditelja na temelju unaprijed definiranih testnih slučajeva.
- Nagrada za format: Nagrada za format također se koristi da prisili model da svoj misaoni proces smjesti između “ " i " ” oznake.
Tijekom razvoja DeepSeek-R1-Zero, autor nije koristio Outcome Neural Reward Model ili Process Neural Reward Model jer je autor otkrio da neuronski model nagrađivanja može naići na lažiranje nagrada (Reward Hacking) u velikim RL procesima; osim toga, prekvalifikacija modela nagrađivanja ne samo da zahtijeva dodatne resurse za obuku, već i komplicira cijeli proces obuke.
3.2.3 Predložak za obuku
Kako bi obučili DeepSeek-R1-Zero, autori su prvo osmislili jednostavan predložak za usmjeravanje osnovnog modela da slijedi postavljene upute. Kao što je prikazano u tablici 1 u nastavku, predložak zahtijeva DeepSeek-R1-Zero za generiranje procesa zaključivanja i zatim davanje konačnog odgovora.

Autor je namjerno ograničio ograničenja na ovaj strukturni okvir kako bi izbjegao uvođenje bilo kakve pristranosti sadržaja – na primjer, prisiljavanje na razmišljanje ili promicanje specifičnih strategija rješavanja problema – kako bi osigurao da se prirodna evolucija modela može točno promatrati tijekom RL procesa.
3.2.4 Zaključak
Robusne mogućnosti zaključivanja bez SFT podataka: Pokretanjem RL izravno iz osnovnog modela, evolucijska putanja modela može se pomno pratiti bez SFT smetnji. Kao što pokazuje Slika 3 u nastavku, vrijeme razmišljanja DeepSeek-R1-Zero nastavilo se poboljšavati (dužina rasta postupno je postala duža) tijekom procesa obuke. Ovo poboljšanje nije proizašlo iz vanjskih prilagodbi, već je prirodni rezultat unutarnjeg razvoja modela. DeepSeek-R1-Zero prirodno je stekao sposobnost rješavanja sve složenijih zadataka zaključivanja, kao što je sposobnost razmišljanja, korištenjem produženih izračuna vremena testiranja.

DeepSeek-R1-Zero doživio je "aha trenutak" tijekom treninga. Kao što je prikazano u tablici 3 u nastavku, ovaj se trenutak dogodio tijekom faze srednje verzije modela. Tijekom ove faze, DeepSeek-R1-Zero naučio je dodijeliti više vremena za razmišljanje problemima ponovnom procjenom svog početnog pristupa.

Glasovanje većinom: Performanse DeepSeek-R1-Zero mogu se dodatno poboljšati primjenom većinskog glasovanja. Na primjer, kao što je prikazano u tablici 2 u nastavku, nakon što se u AIME benchmark testu koristi većinsko glasovanje, njegova izvedba skače sa 71.0% na 86.7%, nadmašujući OpenAI-o1-0912.

Slabosti: Dok DeepSeek-R1-Zero pokazuje snažne sposobnosti rasuđivanja i autonomno razvija neočekivana i snažna ponašanja rasuđivanja, i dalje se suočava s izazovima kao što su loša čitljivost i miješanje jezika.
3.3 DeepSeek-R1
Kako bi proces rasuđivanja učinili čitljivijim i podijelili ga s otvorenom zajednicom, autori dalje istražuju metodu DeepSeek-R1, koja koristi podatke o hladnom pokretanju za RL prilagođene ljudima. Inspirirana DeepSeek-R1-Zero, slijede dva prirodna pitanja:
- Može li se izvedba rezoniranja dodatno poboljšati ili proces konvergencije ubrzati uvođenjem male količine visokokvalitetnih podataka kao hladnog početka?
- Kako možemo uvježbati model prilagođen korisniku koji ne samo da generira jasne i koherentne CoT-ove, već također pokazuje snažne sposobnosti generalizacije?
Kao odgovor na ova pitanja, dizajnirali smo proces obuke za DeepSeek-R1. Proces se sastoji od više faza, kao što je opisano u nastavku:
Stage-1, kao što je prikazano na slici ispod, trenira srednje stanje DeepSeek-R1 kroz SFT + RL:

Sljedeća slika prikazuje faze 2, 3 i 4:
- Faza-2: gore lijevo, konstruirajte 200K podataka koji nisu za rasuđivanje i 600K podataka za rasuđivanje.
- Faza-3: gore desno, SFT + RL vlak DeepSeek-R1.
- Faza-4: donja slika, Distill DeepSeek-R1-Distill-xx.

3.3.1 Hladni start (1. faza)
Za razliku od DeepSeek-R1-Zero, kako bi spriječili nestabilnu fazu hladnog pokretanja osnovnog modela na početku RL obuke, autori su izgradili i prikupili malu količinu podataka Long CoT za DeepSeek-R1 kako bi fino podesili model kao početnog RL aktera. Kako bi prikupili ove podatke, autori su istražili različite metode:
- Korištenje nekoliko hitova s primjerima dugog CoT-a
- Poticanje modela izravno na generiranje detaljnih odgovora uz razmišljanje i provjeru
- Prikupljanje izlaza DeepSeek-R1-Zero u formatu čitljivom za čovjeka
- Pročišćavanje rezultata naknadnom obradom s ručnim označavanjem
Autori su prikupili ukupno tisuće podataka hladnog pokretanja, koji su korišteni za fino podešavanje DeepSeek-V3-Base kao početne točke za RL. U usporedbi s DeepSeek-R1-Zero, prednosti podataka hladnog pokretanja uključuju
- Čitljivost: DeepSeek-R1-Zero Odgovori se mogu miješati na više jezika ili im nedostaje Markdown format koji se koristi za isticanje korisničkih odgovora. Nasuprot tome, pri stvaranju podataka hladnog pokretanja za DeepSeek-R1, autor je dizajnirao čitljiv format koji uključuje sažetak na kraju svakog odgovora i filtrira nečitljive odgovore. Ovdje je izlazni format definiran kao |posebni_token| |poseban_token|
, gdje je reasoning_process ulančano razmišljanje upita, a sažetak se koristi za sažimanje rezultata razmišljanja. - Potencijal: Pažljivim dizajniranjem kombinacije ljudskih a priori uzoraka podataka hladnog starta, autori su primijetili da je njegova izvedba bolja od DeepSeek-R1-Zero.
3.3.2 RL na temelju razmišljanja (1. faza)
Nakon finog podešavanja DeepSeek-V3-Base na podacima hladnog starta, koristi se isti proces RL obuke velikih razmjera kao i DeepSeek-R1-Zero. Ova faza ima za cilj poboljšati sposobnost modela u zadacima koji zahtijevaju rasuđivanje, posebno u problemima programiranja, matematike, znanosti i logičkog zaključivanja s jasnim rješenjima.
Tijekom obuke, autori su primijetili da je CoT često patio od miješanja jezika, posebno kada je RL upit uključivao više jezika. Kako bi ublažili problem miješanja jezika, autori su u RL obuku uveli nagradu za dosljednost jezika, koja se izračunava na temelju udjela riječi u ciljnom jeziku u CoT. Iako eksperimenti ablacije pokazuju da ova metoda usklađivanja dovodi do blagog smanjenja performansi modela, ovaj mehanizam nagrađivanja je u skladu s ljudskim preferencijama i poboljšava čitljivost. Naposljetku, autori izravno dodaju točnost zadatka Rezoniranja nagradi za dosljednost jezika kako bi formirali konačnu nagradu i provode RL obuku na fino podešenom modelu dok se ne približi zadatku Rezoniranja.
3.3.3 Izrada 800 000 odabranih podataka (Faza-2)
Dok RL for Reasoning konvergira, SFT podaci se prikupljaju pomoću dobivene kontrolne točke za sljedeći krug obuke. Za razliku od početnih podataka Hladnog početka, koji se uglavnom fokusiraju na rezoniranje, ova faza uključuje podatke iz drugih domena kako bi se poboljšala sposobnost modela u pisanju, igranju uloga i drugim zadacima opće namjene. Konkretno, podaci se generiraju i model se fino podešava na sljedeći način:
- Podaci o obrazloženju: Odabiru se upiti za obrazloženje i putanje za obrazloženje se generiraju izvođenjem odbijanja uzorkovanja iz gore spomenute RL obučene kontrolne točke (DeepSeek-R1 faza 1). U prethodnoj fazi uključeni su samo podaci koji se mogu ocijeniti korištenjem nagrada temeljenih na pravilima. Međutim, u ovoj fazi, skup podataka je proširen uključivanjem više podataka, od kojih su neki generirani korištenjem modela nagrađivanja, a pravi odgovori su procijenjeni unosom predviđanja modela u DeepSeek-V3 (DeepSeek V3 kao sudac). Osim toga, budući da je rezultat modela ponekad zbunjujući i težak za čitanje, lanci mišljenja miješanih jezika, dugi odlomci i blokovi koda su filtrirani. Za svaki upit uzorkovano je više odgovora i zadržani su samo oni točni (Najbolje od N). Ukupno je prikupljeno oko 600.000 uzoraka treninga povezanih s rasuđivanjem.
- Podaci koji nisu povezani s rasuđivanjem: poput pisanja, činjeničnih pitanja, samosvijesti i prijevoda, upotrijebili su proces DeepSeek-V3 i ponovno upotrijebili neke od skupova podataka SFT DeepSeek-V3. Za neke zadatke koji se ne odnose na rasuđivanje, DeepSeek-V3 se poziva za generiranje potencijalnih CoT-ova prije odgovora na pitanje. Međutim, za jednostavne upite kao što je "Zdravo", u odgovoru nije naveden misaoni lanac. Na kraju je prikupljeno ukupno oko 200.000 uzoraka treninga koji nisu povezani s rasuđivanjem.
3.3.4 SFT & RL za sve scenarije (Stage-3)
Dvije runde finog podešavanja ukupno oko 800.000 odabranih uzoraka izvedene su na DeepSeek-V3-Base koristeći dva gore navedena skupa podataka (Reasoning i non-Reasoning).
Kako bi dodatno uskladili model s ljudskim preferencijama, autori su implementirali drugu fazu RL-a, koja ima za cilj poboljšati korisnost i bezopasnost modela, dok je također poboljšala njegove sposobnosti rasuđivanja. Konkretno, model je treniran kombinacijom signala nagrađivanja i različitih brzih distribucija.
- Za podatke Reasoning slijedi metodologija opisana u DeepSeek-R1-Zero, koristeći mehanizam nagrađivanja temeljen na pravilima za usmjeravanje učenja modela u područjima matematike, programiranja i logičkog zaključivanja.
- Za općenite podatke, model nagrade koristi se za hvatanje ljudskih preferencija u složenim i suptilnim situacijama. Slična strategija parova preferencija i brze distribucije obuke koristi se na temelju procesa DeepSeek-V3.
- Što se tiče korisnosti, uzima se u obzir samo konačni sažetak, čime se osigurava da se evaluacija usredotočuje na praktičnost i relevantnost Odgovora za korisnika, dok se smetnje s temeljnim procesom obrazloženja svedu na minimum.
- Što se tiče neškodljivosti, cjelokupni odgovor modela sveobuhvatno se procjenjuje, uključujući proces rasuđivanja i sažetak, kako bi se identificirali i eliminirali svi potencijalni rizici, pristranosti ili štetan sadržaj koji se mogu pojaviti tijekom procesa generiranja.
- U konačnici, integracijom signala nagrađivanja i diverzifikacijom distribucije podataka, može se uvježbati model koji daje prednost i dobrobiti i bezopasnosti, a istovremeno se ističe u rasuđivanju.
3.3.5 Destilacija (faza-4)
Kako bi opremili učinkovitiji mali model sposobnošću razmišljanja DeepSeek-R1, autori su izravno fino podesili modele otvorenog koda Qwen i LLaMA koristeći 800.000 uzoraka odabranih u DeepSeek-R1-Stage-1. Rezultati pokazuju da ova metoda izravne destilacije značajno poboljšava sposobnost zaključivanja malih modela. Osnovni modeli koje koriste autori uključuju Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B i Llama-3.3-70B-Instruct. Llama-3.3 je odabran jer je njegova sposobnost zaključivanja nešto bolja od Llama-3.1.
Za model destilacije autor koristi samo SFT i ne uključuje RL stupanj. Iako uvođenje RL može uvelike poboljšati izvedbu modela, glavna svrha autora ovdje je pokazati učinkovitost tehnologije destilacije, a istraživanje faze RL prepušteno je naknadnom istraživanju.
PS: Osim toga, zapravo je moguće koristiti konačni DeepSeek-R1 za generiranje gornjih podataka i rekonstrukciju 800 000 podataka korištenih za destilaciju, a destilirani model može imati bolji učinak; međutim, cijena je da podatke treba rekonstruirati.