1 Ozadje
Med pomladnim festivalom, DeepSeek R1 ponovno pritegnil široko pozornost in tudi članek o razlagi DeepSeek V3, ki smo ga prej napisali, je bil prav tako ponovno posredovan in o njem veliko razpravljali.
Čeprav je bilo veliko analiz in reprodukcij DeepSeek R1, smo se tukaj odločili zbrati nekaj ustreznih opomb pri branju.
Za prikaz konstrukcije modela in ključnih tehničnih točk bomo uporabili tri osnovne shematske diagrame, pri čemer bomo razkrili bistvo serije DeepSeek-R1, da bi zagotovili bolj intuitivno razumevanje njenih oblikovalskih zamisli.
Ustrezni papir je [2501.12948] DeepSeek-R1: Spodbujanje zmožnosti sklepanja v LLM-jih s krepitvenim učenjem
in ustrezen odprtokodni model je DeepSeek-R1
2 Uvod
2.1 Pogosti algoritmi sklepanja
Kot je prikazano na sliki 2 spodaj, avtor pojasnjuje štiri pogoste algoritme sklepanja. Čeprav se razlikujejo v določenih podrobnostih, vsi vključujejo dve osnovni operaciji:
- Razširitev: ustvarite žetone za razširitev poti rešitve.
- Združevanje: integrirajte rezultate vsake poti, da dobite končni odgovor. Povečanje računalniških virov v fazi širitve lahko običajno izboljša kakovost odgovora v fazi združevanja.
Samokonsistentnost (SC). Kot je prikazano na sliki 2a, je glavna ideja SC ustvariti več različnih rezultatov (kar je mogoče doseči s spreminjanjem parametrov vzorčenja itd.) in nato glasovati za vse odgovore, da se izbere odgovor z najvišjo zmagovalno stopnjo. Ključni parameter je število odgovorov kandidatov n.
Algoritem Rebase: Kot je prikazano na sliki 2b spodaj, Rebase ustvari tudi več rezultatov, vendar so ti ustvarjeni v več korakih. Vsak korak se točkuje z modelom nagrajevanja, rezultat z najvišjo oceno pa se uporabi za nadaljnje ustvarjanje. Na koncu se ustvari drevo sklepanja z več vejami. Odgovor z najvišjo oceno (Best-of-N) je izbran v fazi seštevanja.
Monte Carlo Tree Search (MCTS): Kot je prikazano na sliki 2c spodaj, je MCTS zmogljiv algoritem sklepanja, ki razširja vozlišča s postopnim vzorčenjem in gradi drevo rešitev, dokler ne doseže listnega vozlišča, ki vsebuje kandidatno rešitev. Vsaka rešitev se točkuje z modelom nagrade ali simulacijo, rezultat pa se prenese nazaj v njena predhodna vozlišča, da se posodobijo njihove vrednosti nagrad, s čimer se zaključi ponovitev. Ključni parameter je tudi n, povečanje n pa omogoča globlje in širše raziskovanje možnih rešitev.
Internalizirana kognitivna veriga (ICoT). Kot je prikazano na sliki 2d spodaj, lahko najnovejši LLM-ji, kot sta OpenAI o1 in Qwen-QWQ, ponotranjijo razmišljanje med usposabljanjem brez potrebe po eksplicitnem algoritmu sklepanja. Glavna ideja je ustvariti zaporedje CoT, razstaviti kompleksne probleme na več podproblemov in nato iterativno optimizirati te odgovore z razmislekom o prejšnjih rezultatih, da bi na koncu prišli do rešitve.

2.2 Metode usklajevanja sklepanja
2.2.1 Pregled metode Best-of-N
Na kratko, Best-of-N je metoda usklajevanja, ki se pogosto uporablja pri sklepanju LLM, katere cilj je zagotoviti visoko kakovost ustvarjenih rezultatov z ustvarjanjem odgovorov več kandidatov in izbiro najboljšega. Sestavljen je iz treh glavnih procesov:
- Postopek generiranja: Za dani poziv X metoda Best-of-N ustvari N odzivov IID (Y₁, Y₂, …, Yₙ), kjer se N pogosto imenuje »velikost serije«.
- Mehanizem točkovanja: Vsak ustvarjen odgovor se točkuje z modelom nagrajevanja, da se pridobi ustrezen rezultat {s(Y₁), s(Y₂), …, s(Yₙ)}.
- Izbira najboljšega odgovora: nazadnje je odgovor z najvišjo oceno med vsemi ustvarjenimi odgovori izbran kot rezultat, tj. Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}.
Prednosti te metode so:
- Učinkovito se lahko izogne zapletenim korakom natančnega prilagajanja, kar olajša uvajanje jezikovnih modelov, ki so bili vnaprej usposobljeni ali natančno nastavljeni z navodili.
- Je preprost za implementacijo, enostaven za razumevanje in v bistvu brez hiperparametrov: glavni hiperparameter je N, ki ga je mogoče dinamično prilagajati med sklepanjem.
- Je zelo konkurenčen v smislu kakovosti generiranja in se lahko kosa celo z nekaterimi kompleksnimi tehnikami po usposabljanju, kot sta RLHF ali DPO. Raziskave kažejo, da se metoda Best-of-N dobro obnese na krivulji kompromisa med nagrado in razhajanjem KL ter celo prekaša druge zapletene strategije usklajevanja.
Slabosti te metode so
- sklepanje zahteva generiranje N zaporedij, kar lahko privede do znatnih računskih stroškov. V praksi je razumna vrednost za N v razponu od 4 do 128, toda za konkurenco najnaprednejšim metodam po usposabljanju so morda potrebne višje vrednosti N, na primer od 1000 do 60000, kar lahko privede do skoraj nesprejemljivih računskih stroškov.
Metoda best-of-N se pogosto uporablja za ustvarjanje visokokakovostnih naborov podatkov za naknadno nadzorovano fino uravnavanje in je imela ključno vlogo v procesu usklajevanja LLaMA-2 in LLaMA-3.
2.2.2 Metoda OpenAI best-of-N
OpenAI je prvič predlagal vzorčenje Best-of-N v [2009.01325] Učenje povzemanja iz človeških povratnih informacij . Natančneje, uporablja se za ocenjevanje in optimizacijo delovanja modela povzetka z izbiro najboljšega povzetka, ustvarjenega iz več modelov. Ta metoda pomaga raziskovalcem bolje razumeti razmerje med različnimi metrikami ocenjevanja in preferencami človeških ocenjevalcev ter se uporablja za vodenje usposabljanja in optimizacije modela.
OpenAI pri spremljanju uporablja tudi vzorčenje Best-of-N (vzorčenje zavrnitev). [2112.09332] WebGPT: odgovarjanje na vprašanja s pomočjo brskalnika s človeškimi povratnimi informacijami. Natančneje, fiksno število odgovorov (4, 16 ali 64) se vzorči iz modela BC ali modela RL, tisti z najvišjo oceno modela nagrajevanja pa je izbran kot metoda optimizacije za kontradiktorni model nagrajevanja. Ta metoda ne zahteva dodatnega usposabljanja, vendar poveča računsko kompleksnost stopnje sklepanja, ki jo je treba doseči.
2.2.3 Metoda Google BOND
notri [2407.14622] BOND: Usklajevanje LLM z destilacijo Best-of-N, avtorji iz Googla predlagajo destilacijo Best-of-N (BOND), nov algoritem RLHF, zasnovan za simulacijo strategije vzorčenja Best-of-N prek algoritma za ujemanje porazdelitve brez bistvenega povečanja računskih stroškov med sklepanjem.

Natančneje, avtor najprej izpelje natančno analitično porazdelitev vzorčenja Best-of-N in poda verjetnostno funkcijo vzorčenja Best-of-N:

Drugič, avtorji izrazijo problem kot problem distribucijskega ujemanja;

nato avtorji predlagajo uporabo Jeffreysove divergence kot cilja ujemanja distribucije:

Nazadnje, za rešitev problema izbire N avtorji predlagajo iterativno metodo BOND, ki izboljša učinkovitost strategije z iterativno destilacijo porazdelitve Best-of-N. Posebni koraki vključujejo:
Inicializirajte pomožno sidrno strategijo π (sidro).
Iterativno izvajajte BOND, da destilirate Best-of-N π (sidro) in posodobite π (sidro) po vsakem koraku.

2.3 Nadzor procesa in nadzor rezultatov
Izid in proces se nanašata na dva vidika ocene modela nagrajevanja:
- Model nagrajevanja izida: ocenite, ali je končni rezultat izhoda modela pravilen ali pričakovan.
- Model nagrajevanja procesa: ocenjuje, ali so koraki razmišljanja in odločanja modela v procesu ustvarjanja rezultatov razumni in učinkoviti.
Na primer OpenAI's Let's Verify Step by Step | OpenAI omenja tudi:
- Nadzor procesa (nadzorovan z izidom): vključuje zagotavljanje povratnih informacij o vsakem koraku procesa sklepanja modela. Procesno nadzorovani modeli nagrajevanja (PRM) so usposobljeni za napovedovanje pravilnosti vsakega koraka rešitve.
- Nadzorovano na podlagi rezultatov: Nadzorovano na podlagi rezultatov zagotavlja povratne informacije samo na podlagi končnega rezultata razmišljanja modela. Outcome-supervised reward modeli (ORM) se učijo z uporabo končnega odgovora rešitve, pravilnost pa se ugotavlja s samodejnim preverjanjem.
2.4 Nagrajevanje hekanja
V RL se vdiranje v nagrajevanje nanaša na pojav, pri katerem agent izkoristi napako v zasnovi funkcije nagrajevanja, da poveča kumulativno nagrado na način, ki ne ustreza prvotnemu namenu oblikovalca. Čeprav to vedenje tehnično ustreza cilju optimizacije funkcije nagrajevanja, dejanski učinek odstopa od pričakovanega cilja naloge in lahko povzroči celo negativne posledice.
Analiza ključnih točk:
- Opredelitev in manifestacija:
- Agent najde napako v funkciji nagrajevanja in pridobi visoko nagrado z uporabo »bližnjic«, namesto da bi dejansko rešil problem.
- Na primer, čistilni robot ugasne luči, da bi prostor "izgledal" čist, namesto da bi ga dejansko očistil; posrednik igre večkrat dosega točke, ne da bi dosegel cilj ravni; odločitev, da ne bo zmanjšala hitrosti, da bi zmanjšala število zavornih časov, kar ogroža varnost; ustvarjanje nesmiselne vsebine, ki se ujema s ključnimi besedami, da bi pretentali visoke rezultate.
- Glavni vzroki:
- Nepopolna zasnova funkcije nagrajevanja: pretirana poenostavitev ali nepopolna zasnova robnih primerov.
- Neusklajenost med cilji in nagradami: funkcija nagrajevanja ne odraža v celoti pravega cilja, zaradi česar se agent optimizira za »napačen« cilj.
- rešitve:
- Izboljšajte zasnovo nagrajevanja: uvedite večdimenzionalne nagrade (npr. varnost, učinkovitost itd.) ali dinamično prilagodite funkcijo nagrajevanja.
- Kontradiktorno preverjanje: zaznajte, ali posrednik »goljufa« z dodatnimi mehanizmi.
- Ročno posredovanje in omejitve: nastavite vedenjske meje (npr. varnostni sloj) ali ročne povratne informacije (npr. RLHF).
- Inverzno krepitveno učenje (IRL): naučite se bolj realistične funkcije nagrajevanja iz strokovnih demonstracij.
- Učenje hierarhične okrepitve: nalogo razdelite na podcilje, da zmanjšate tveganje lokalne optimizacije.
- Povezava s prekomernim opremljanjem:
- Oba kažeta nepovezanost med meritvami usposabljanja in uspešnostjo v resničnem svetu, vendar Reward Hacking daje večji poudarek pomanjkljivostim v oblikovanju funkcije nagrajevanja kot posplošljivi sposobnosti modela.
- Povzetek:
- Reward Hacking razkriva izziv usklajevanja ciljev v RL. Reševanje tega problema zahteva kombinacijo oblikovanja robustnejših mehanizmov nagrajevanja, uvajanja zunanjih omejitev in vključevanja človeškega predznanja, da se zagotovi, da je agentovo vedenje učinkovito in v skladu z načrtom.
3 DeepSeek-R1-Zero in DeepSeek-R1
3.1 Pregled
Prejšnje raziskave so se za izboljšanje učinkovitosti modela v veliki meri zanašale na velike količine nadzorovanih podatkov. Ta študija kaže, da tudi brez SFT kot hladnega zagona lahko RL v velikem obsegu bistveno izboljša sposobnost razmišljanja modela. Poleg tega lahko uvedba majhne količine podatkov o hladnem zagonu dodatno optimizira delovanje. Sledijo modeli, povezani z DeepSeek-R1:
- DeepSeek-R1-Zero: Ta model uporablja RL neposredno za osnovni model brez podatkov SFT.
- DeepSeek-R1: Ta model uporablja RL, začenši s kontrolno točko, ki je bila natančno nastavljena s tisoči dolgih vzorcev CoT.
- DeepSeek-R1-Distill-xx: Destilira zmožnost razmišljanja DeepSeek-R1 v majhen gost model.
3.2 DeepSeek-R1-Nič
Naslednja slika prikazuje ključne točke pri usposabljanju modela DeepSeek-R1-Zero:

PS: Upoštevati je treba, da dokument ne zagotavlja veliko informacij o podatkih, uporabljenih v procesu RL za DeepSeek-R1-Zero. Vendar pa obstaja nekaj razlag postopka in količine podatkov v poznejšem usposabljanju R1, čeprav ni posebej specifično.
3.2.1 Algoritem RL
Da bi zmanjšali stroške usposabljanja RL, avtorji uporabljajo lastno metodo DeepSeek GRPO (Group Relative Policy Optimization), [2402.03300] DeepSeekMath: Premik meja matematičnega sklepanja v modelih odprtega jezika. Ta metoda opusti model kritike, ki je po velikosti običajno primerljiv z modelom politike, in namesto tega oceni izhodišče z uporabo skupinskega rezultata. Ustrezna razlaga je prikazana na spodnji sliki (slika s Twitterja):

3.2.2 Modeliranje nagrajevanja
Nagrade so vir signalov za usposabljanje in določajo smer optimizacije RL. Za usposabljanje DeepSeek-R1-Zero so avtorji uporabili sistem nagrajevanja na podlagi pravil, ki je v glavnem sestavljen iz dveh vrst nagrad:
- Nagrada za natančnost: Ocenite, ali je odgovor pravilen. Na primer:
- Pri matematičnih problemih z determinističnimi rezultati mora model zagotoviti končni odgovor v določeni obliki (na primer v škatli), tako da je mogoče njegovo pravilnost zanesljivo preveriti s pravili.
- Podobno je za težave LeetCode povratne informacije mogoče ustvariti s prevajalnikom na podlagi vnaprej določenih testnih primerov.
- Nagrada za obliko: Nagrada za obliko se uporablja tudi za prisilo modela, da svoj miselni proces postavi med » « in » ” oznake.
Med razvojem DeepSeek-R1-Zero avtor ni uporabil modela nevralnega nagrajevanja rezultatov ali modela nevralnega nagrajevanja procesa, ker je avtor ugotovil, da lahko nevronski model nagrajevanja naleti na ponarejanje nagrajevanja (hekanje nagrajevanja) v obsežnih procesih RL; poleg tega preusposabljanje modela nagrajevanja ne zahteva le dodatnih sredstev za usposabljanje, ampak tudi zaplete celoten proces usposabljanja.
3.2.3 Predloga za usposabljanje
Za usposabljanje DeepSeek-R1-Zero so avtorji najprej oblikovali preprosto predlogo, ki osnovni model usmerja, da sledi nastavljenim navodilom. Kot je prikazano v tabeli 1 spodaj, zahteva predloga DeepSeek-R1-Zero za generiranje postopka sklepanja in nato poda končni odgovor.

Avtor je namenoma omejil omejitve na ta strukturni okvir, da bi se izognil uvajanju kakršnih koli vsebinskih pristranskosti – na primer vsiljevanju refleksivnega razmišljanja ali spodbujanju specifičnih strategij za reševanje problemov – da bi zagotovil, da je med postopkom RL mogoče natančno opazovati naravni razvoj modela.
3.2.4 Zaključek
Robustne zmožnosti sklepanja brez podatkov SFT: Z zagonom RL neposredno iz osnovnega modela je mogoče natančno spremljati razvojno pot modela brez motenj SFT. Kot prikazuje spodnja slika 3, se je čas razmišljanja DeepSeek-R1-Zero še naprej izboljševal (dolžina rasti se je postopoma podaljševala) skozi celoten proces usposabljanja. Ta izboljšava ni nastala zaradi zunanjih prilagoditev, temveč je bila naravni rezultat notranjega razvoja modela. DeepSeek-R1-Zero je naravno pridobil sposobnost reševanja vse bolj zapletenih nalog sklepanja, kot je sposobnost razmišljanja, z uporabo podaljšanih izračunov preskusnega časa.

DeepSeek-R1-Zero je med treningom doživel "aha trenutek". Kot je prikazano v spodnji tabeli 3, se je ta trenutek zgodil med srednjo različico modela. Med to stopnjo se je DeepSeek-R1-Zero naučil dodeliti več časa za razmišljanje težavam s ponovnim vrednotenjem svojega začetnega pristopa.

Večinsko glasovanje: Učinkovitost DeepSeek-R1-Zero je mogoče še izboljšati z uporabo večinskega glasovanja. Na primer, kot je prikazano v spodnji tabeli 2, po uporabi večinskega glasovanja v primerjalnem testu AIME njegova zmogljivost skoči z 71,0% na 86,7% in preseže OpenAI-o1-0912.

Slabosti: Čeprav DeepSeek-R1-Zero izkazuje močne zmožnosti sklepanja in avtonomno razvija nepričakovana in močna vedenja sklepanja, se še vedno sooča z izzivi, kot sta slaba berljivost in mešanje jezikov.
3.3 DeepSeek-R1
Da bi naredili postopek razmišljanja bolj berljiv in ga delili z odprto skupnostjo, avtorji nadalje raziskujejo metodo DeepSeek-R1, ki uporablja ljudem prijazne podatke o hladnem zagonu za RL. Po navdihu DeepSeek-R1-Zero sledita dve naravni vprašanji:
- Ali je mogoče zmogljivost sklepanja še izboljšati ali pospešiti proces konvergence z uvedbo majhne količine visokokakovostnih podatkov kot hladnega začetka?
- Kako lahko usposobimo uporabniku prijazen model, ki ne ustvarja le jasnih in koherentnih CoT, ampak tudi izkazuje močne zmožnosti posploševanja?
Kot odgovor na ta vprašanja smo oblikovali proces usposabljanja za DeepSeek-R1. Postopek je sestavljen iz več faz, kot je opisano spodaj:
Stopnja-1, kot je prikazano na spodnji sliki, trenira vmesno stanje DeepSeek-R1 prek SFT + RL:

Naslednja slika prikazuje stopnje 2, 3 in 4:
- Stopnja-2: zgoraj levo, sestavite 200K podatkov, ki niso razlogi, in 600K podatkov podatkov.
- Faza-3: zgoraj desno, SFT + RL vlak DeepSeek-R1.
- Faza-4: spodnja slika, Distill DeepSeek-R1-Destill-xx.

3.3.1 Hladni zagon (stopnja-1)
Za razliko od DeepSeek-R1-Zero, da bi preprečili nestabilno fazo hladnega zagona osnovnega modela na začetku usposabljanja RL, so avtorji zgradili in zbrali majhno količino podatkov Long CoT za DeepSeek-R1 za natančno nastavitev modela kot začetnega akterja RL. Za zbiranje teh podatkov so avtorji raziskovali različne metode:
- Uporaba nekajkratnih pozivov s primeri dolgega CoT
- Neposredno pozivanje modela k ustvarjanju podrobnih odgovorov z razmislekom in preverjanjem
- Zbiranje izhoda DeepSeek-R1-Zero v človeku berljivem formatu
- Izboljšanje rezultatov z naknadno obdelavo z ročnim označevanjem
Avtorji so skupaj zbrali na tisoče podatkov o hladnem zagonu, ki so bili uporabljeni za natančno nastavitev DeepSeek-V3-Base kot izhodiščne točke za RL. V primerjavi z DeepSeek-R1-Zero prednosti podatkov o hladnem zagonu vključujejo
- Berljivost: DeepSeek-R1-Zero Odgovori so lahko pomešani v več jezikih ali nimajo oblikovanja Markdown, ki se uporablja za označevanje odgovorov uporabnikov. Nasprotno pa je avtor pri ustvarjanju podatkov o hladnem zagonu za DeepSeek-R1 oblikoval berljivo obliko, ki vključuje povzetek na koncu vsakega odziva in filtrira neberljive odgovore. Tukaj je izhodni format definiran kot |special_token| |posebni_žeton|
, kjer je reasoning_process verižno razmišljanje poizvedbe, povzetek pa se uporablja za povzetek rezultatov sklepanja. - Potencial: Avtorji so s skrbnim načrtovanjem kombinacije človeških a priori podatkovnih vzorcev hladnega zagona ugotovili, da je njegova zmogljivost boljša od DeepSeek-R1-Zero.
3.3.2 RL, ki temelji na sklepanju (stopnja-1)
Po natančni nastavitvi DeepSeek-V3-Base na podlagi podatkov o hladnem zagonu se uporabi enak proces obsežnega usposabljanja RL kot DeepSeek-R1-Zero. Namen te stopnje je izboljšati sposobnost modela pri nalogah, ki zahtevajo veliko sklepanja, zlasti pri problemih programiranja, matematike, znanosti in logičnega sklepanja z jasnimi rešitvami.
Med usposabljanjem so avtorji opazili, da je CoT pogosto trpel zaradi mešanja jezikov, zlasti ko je poziv RL vključeval več jezikov. Da bi ublažili problem mešanja jezikov, so avtorji v usposabljanje RL uvedli nagrado za jezikovno doslednost, ki se izračuna na podlagi deleža besed v ciljnem jeziku v CoT. Čeprav poskusi ablacije kažejo, da ta metoda poravnave vodi do rahlega zmanjšanja zmogljivosti modela, je ta mehanizem nagrajevanja skladen s človeškimi preferencami in izboljša berljivost. Na koncu avtorji natančnost naloge Reasoning neposredno dodajo nagradi za jezikovno doslednost, da oblikujejo končno nagrado, in izvajajo usposabljanje RL na natančno nastavljenem modelu, dokler se ne zbliža z nalogo Reasoning.
3.3.3 Izdelava 800.000 izbranih podatkov (Stage-2)
Medtem ko RL for Reasoning konvergira, se podatki SFT zbirajo z uporabo nastale kontrolne točke za naslednji krog usposabljanja. Za razliko od začetnih podatkov o hladnem začetku, ki se osredotočajo predvsem na sklepanje, ta stopnja vključuje podatke iz drugih področij za izboljšanje sposobnosti modela pri pisanju, igranju vlog in drugih splošnih nalogah. Natančneje, podatki so ustvarjeni in model je natančno nastavljen na naslednji način:
- Podatki o sklepanju: Pozivi za sklepanje so izbrani in trajektorije sklepanja so ustvarjene z izvajanjem zavrnitvenega vzorčenja iz zgoraj omenjene kontrolne točke, usposobljene za RL (DeepSeek-R1, stopnja 1). V prejšnji fazi so bili vključeni samo podatki, ki jih je bilo mogoče ovrednotiti z nagradami na podlagi pravil. Vendar je bil na tej stopnji nabor podatkov razširjen z vključitvijo več podatkov, od katerih so bili nekateri ustvarjeni z modelom nagrajevanja, resnični odgovori pa so bili ocenjeni s podajanjem napovedi modela v DeepSeek-V3 (DeepSeek V3 kot sodnik). Poleg tega, ker je rezultat modela včasih zmeden in težko berljiv, so bile miselne verige mešanih jezikov, dolgi odstavki in kodni bloki izločeni. Za vsak poziv je bilo vzorčenih več odgovorov in ohranjeni so bili samo pravilni (Best-of-N). Skupno je bilo zbranih približno 600.000 vzorcev usposabljanja, povezanih z razmišljanjem.
- Podatki, ki niso povezani s sklepanjem: kot so pisanje, faktoidna vprašanja, samozavedanje in prevod, so uporabili postopek DeepSeek-V3 in ponovno uporabili nekatere nabore podatkov SFT DeepSeek-V3. Za nekatera opravila, ki niso povezana s sklepanjem, se DeepSeek-V3 pokliče za ustvarjanje potencialnih CoT, preden odgovori na vprašanje. Vendar za preproste poizvedbe, kot je »Pozdravljeni«, v odgovoru ni na voljo miselna veriga. Na koncu je bilo zbranih skupno približno 200.000 vzorcev usposabljanja, ki niso bili razumni.
3.3.4 SFT & RL za vse scenarije (Stage-3)
Dva kroga natančnega prilagajanja skupaj približno 800.000 izbranih vzorcev sta bila izvedena na DeepSeek-V3-Base z uporabo dveh zgoraj omenjenih nizov podatkov (Reasoning in non-Reasoning).
Za nadaljnjo uskladitev modela s človeškimi preferencami so avtorji uvedli drugo fazo RL, katere cilj je izboljšati uporabnost in neškodljivost modela, hkrati pa izboljšati njegove zmožnosti razmišljanja. Natančneje, model je bil usposobljen s kombinacijo signalov nagrajevanja in raznolikih takojšnjih distribucij.
- Za podatke sklepanja se upošteva metodologija, opisana v DeepSeek-R1-Zero, z uporabo na pravilih temelječega mehanizma nagrajevanja za vodenje učenja modela na področjih matematike, programiranja in logičnega sklepanja.
- Za splošne podatke se model nagrajevanja uporablja za zajemanje človeških preferenc v kompleksnih in subtilnih situacijah. Na podlagi postopka DeepSeek-V3 se uporablja podobna strategija prednostnih parov in distribucij takojšnjega usposabljanja.
- Kar zadeva uporabnost, se upošteva samo končni povzetek, ki zagotavlja, da se ocena osredotoča na praktičnost in ustreznost odziva za uporabnika, hkrati pa zmanjša motnje v osnovni proces sklepanja.
- Kar zadeva neškodljivost, je celoten odziv modela izčrpno ovrednoten, vključno s postopkom razmišljanja in povzetkom, da se identificirajo in odpravijo morebitna tveganja, pristranskosti ali škodljiva vsebina, ki se lahko pojavijo med procesom generiranja.
- Navsezadnje je mogoče z integracijo signalov nagrajevanja in diverzifikacijo distribucije podatkov usposobiti model, ki daje prednost tako koristi kot neškodljivosti, obenem pa je odličen v sklepanju.
3.3.5 Destilacija (stopnja-4)
Da bi opremili učinkovitejši majhen model s sposobnostjo razmišljanja DeepSeek-R1, so avtorji neposredno natančno prilagodili odprtokodna modela Qwen in LLaMA z uporabo 800.000 vzorcev, izbranih v DeepSeek-R1-Stage-1. Rezultati kažejo, da ta metoda neposredne destilacije bistveno izboljša sposobnost razmišljanja majhnih modelov. Osnovni modeli, ki jih uporabljajo avtorji, vključujejo Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B in Llama-3.3-70B-Instruct. Llama-3.3 je bil izbran, ker je njegova sposobnost sklepanja nekoliko boljša kot Llama-3.1.
Za model destilacije avtor uporablja samo SFT in ne vključuje stopnje RL. Čeprav lahko uvedba RL močno izboljša delovanje modela, je avtorjev glavni namen tukaj prikazati učinkovitost tehnologije destilacije, raziskovanje stopnje RL pa je prepuščeno nadaljnjim raziskavam.
PS: Poleg tega je dejansko mogoče uporabiti končni DeepSeek-R1 za ustvarjanje zgornjih podatkov in rekonstrukcijo 800.000 podatkov, uporabljenih za destilacijo, in destilirani model ima lahko boljši učinek; cena pa je, da je treba podatke rekonstruirati.