DeepSeek R1 paberi tõlgendamine ja peamised tehnilised punktid

1 Taust

Kevadfestivali ajal, DeepSeek R1 äratas taas laialdast tähelepanu ning isegi meie varem kirjutatud DeepSeek V3 tõlgendusartikkel edastati uuesti ja seda arutati palju.

Kuigi DeepSeek R1 analüüse ja reproduktsioone on tehtud palju, otsustasime siinkohal koostada mõned vastavad lugemismärkmed.

Kasutame mudeli ehituse ja peamiste tehniliste punktide demonstreerimiseks kolme põhilist skemaatilist diagrammi, destilleerides DeepSeek-R1 seeria olemust, et anda selle disainiideedest intuitiivsem ülevaade.

Vastav paber on [2501.12948] DeepSeek-R1: Arutlusvõime ergutamine LLM-ides tugevdava õppe kaudu

ja vastav avatud lähtekoodiga mudel on DeepSeek-R1

2 Sissejuhatus

2.1 Üldised arutlusalgoritmid

Nagu on näidatud alloleval joonisel 2, selgitab autor nelja levinumat arutlusalgoritmi. Kuigi need erinevad konkreetsete üksikasjade poolest, sisaldavad need kõik kahte põhitoimingut:

Laiendus: looge žetoonid lahendustee laiendamiseks.
Agregeerimine: lõpliku vastuse saamiseks integreerige iga tee tulemused. Arvutusressursside suurendamine laiendamisfaasis võib tavaliselt parandada vastuse kvaliteeti liitmisetapis.

Iseseisvus (SC). Nagu on näidatud joonisel 2a, on SC põhiidee genereerida mitu erinevat väljundit (mida saab saavutada valimi parameetrite muutmisega jne) ja seejärel hääletada kõigi vastuste poolt, et valida kõrgeima võidumääraga vastus. Põhiparameeter on kandidaatide vastuste arv n.

Rebase algoritm: nagu on näidatud alloleval joonisel 2b, genereerib Rebase ka mitu väljundit, kuid need genereeritakse mitmes etapis. Iga samm hinnatakse preemiamudeli abil ja suurima punktisumma saanud tulemust kasutatakse genereerimise jätkamiseks. Lõpuks luuakse mitme haruga arutluspuu. Kõrgeima punktisummaga (Best-of-N) vastus valitakse välja liitmisetapis.

Monte Carlo puuotsing (MCTS): nagu on näidatud alloleval joonisel 2c, on MCTS võimas arutlusalgoritm, mis laiendab sõlmede järkjärgulist valimit ja konstrueerib lahenduspuu, kuni see jõuab kandidaatlahendust sisaldava lehesõlmeni. Iga lahendust hinnatakse tasu mudeli või simulatsiooni kaudu ja skoor edastatakse tagasi selle esivanemate sõlmedesse, et värskendada nende tasu väärtusi, viies seega lõpule iteratsiooni. Võtmeparameeter on samuti n ja n suurendamine võimaldab võimalike lahenduste sügavamat ja laiemat uurimist.

Internaliseeritud kognitiivne ahel (ICoT). Nagu on näidatud alloleval joonisel 2d, saavad uusimad LLM-id, nagu OpenAI o1 ja Qwen-QWQ, treenimise ajal arutluskäitumist arvesse võtta, ilma et oleks vaja selget arutlusalgoritmi. Põhiidee on luua CoT-jada, jaotada keerulised probleemid mitmeks alamprobleemiks ja seejärel neid vastuseid iteratiivselt optimeerida, peegeldades varasemaid väljundeid, et lõpuks jõuda lahenduseni.

2.2 Põhjenduste joondamise meetodid

2.2.1 Parim-of-N meetodi ülevaade

Lühidalt öeldes on Best-of-N LLM-i järeldustes laialdaselt kasutatav joondusmeetod, mille eesmärk on tagada genereeritud tulemuste kõrge kvaliteet, genereerides mitu kandidaatvastust ja valides neist parima. See koosneb kolmest põhiprotsessist:

Genereerimisprotsess: antud viipa X jaoks genereerib meetod Best-of-N N IID vastust (Y1, Y₂, …, Yₙ), kus N-i nimetatakse sageli "partii suuruseks".
Hindamismehhanism: iga loodud vastust hinnatakse preemiamudeli abil, et saada vastav skoor {s(Y₁), s(Y₂), …, s(Yₙ)}.
Parima vastuse valimine: lõpuks valitakse väljundiks kõigi genereeritud vastuste seas kõrgeima punktisummaga vastus, st Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}.

Selle meetodi eelised on järgmised:

See võib tõhusalt vältida keerulisi peenhäälestuse etappe, muutes lihtsamaks keelemudelite juurutamise, mis on eelnevalt koolitatud või juhiste abil viimistletud.
Seda on lihtne rakendada, arusaadav ja sisuliselt hüperparameetriteta: peamine hüperparameeter on N, mida saab järeldamisel dünaamiliselt reguleerida.
See on põlvkonna kvaliteedi osas väga konkurentsivõimeline ja võib isegi konkureerida mõne keeruka koolitusjärgse tehnikaga, nagu RLHF või DPO. Uuringud näitavad, et Best-of-N-meetod toimib hästi tasu ja KL-i erinevuse vahelisel kompromissikõveral, edestades isegi teisi keerukaid joondusstrateegiaid.

Selle meetodi puudused on

järeldus nõuab N jada genereerimist, mis võib põhjustada märkimisväärseid arvutuskulusid. Praktikas on N mõistlik väärtus vahemikus 4 kuni 128, kuid kõige arenenumate treeningjärgsete meetoditega konkureerimiseks võib vaja minna kõrgemaid N väärtusi, näiteks 1000 kuni 60 000, mis võib põhjustada peaaegu vastuvõetamatuid arvutuskulusid.

Parima-N-meetodit kasutatakse sageli kvaliteetsete andmekogumite genereerimiseks järgnevaks järelevalveks peenhäälestamiseks ja see mängis võtmerolli LLaMA-2 ja LLaMA-3 joondamise protsessis.

2.2.2 OpenAI parim N-meetod

OpenAI pakkus esmakordselt välja Best-of-N proovivõtu [2009.01325] Inimeste tagasiside põhjal kokkuvõtete tegemise õppimine . Täpsemalt kasutatakse seda kokkuvõtliku mudeli toimivuse hindamiseks ja optimeerimiseks, valides mitmest mudelist koostatud parima kokkuvõtte. See meetod aitab teadlastel paremini mõista seost erinevate hindamismõõdikute ja inimese hindaja eelistuste vahel ning seda kasutatakse mudeli koolituse ja optimeerimise suunamiseks.

OpenAI kasutab järelkontrollis ka Best-of-N proovivõttu (rejection sampling). [2112.09332] WebGPT: brauseri abiga küsimustele vastamine inimese tagasisidega. Täpsemalt, BC-mudelist või RL-mudelist valitakse kindel arv vastuseid (4, 16 või 64) ja võistleva tasu mudeli optimeerimismeetodiks valitakse see, millel on kõrgeim tasumudeli skoor. See meetod ei nõua täiendavat väljaõpet, kuid suurendab selle saavutamise etapi arvutuslikku keerukust.

2.2.3 Google BOND meetod

Veebilehel [2407.14622] BOND: LLM-ide joondamine Best-of-N destilleerimisega, soovitavad Google'i autorid Best-of-N destilleerimise (BOND), uus RLHF-algoritm, mis on loodud N-parim diskreetimisstrateegia simuleerimiseks jaotuse sobitamise algoritmi kaudu, ilma et järeldamise ajal arvutuskulusid märkimisväärselt suurendataks.

Täpsemalt, autor tuletab kõigepealt N-parim valimi täpse analüütilise jaotuse ja annab N-test parima valimi tõenäosusfunktsiooni:

Teiseks väljendavad autorid probleemi jaotuse sobitamise probleemina;

hiljem teevad autorid ettepaneku kasutada jaotuse sobitamise eesmärgina Jeffreysi erinevust:

Lõpuks pakuvad autorid N-i valimise probleemi lahendamiseks välja iteratiivse BOND-meetodi, mis parandab strateegia toimivust, destilleerides iteratiivselt Best-of-N-jaotuse. Konkreetsed sammud hõlmavad järgmist:

Initsialiseerige abiankurdusstrateegia π(ankur).

Käivitage iteratiivselt BOND, et destilleerida Best-of-N π (ankur) ja värskendada π (ankur) pärast iga sammu.

2.3 Protsessi järelevalve ja tulemuste järelevalve

Tulemus ja protsess viitavad preemiamudeli hindamise kahele aspektile:

Tulemuse tasu mudel: hinnake, kas mudeli väljundi lõpptulemus on õige või ootuspärane.
Protsessi tasustamise mudel: hindab, kas mudeli arutluskäik ja otsuste tegemise sammud tulemuste genereerimise protsessis on mõistlikud ja tõhusad.

Näiteks OpenAI Let's Verify Step by Step | OpenAI mainib ka:

Protsessi järelevalve (Outcome-supervised): hõlmab tagasiside andmist mudeli arutlusprotsessi iga etapi kohta. Protsessi järelevalvega tasumudelid (PRM) on koolitatud ennustama lahenduse iga sammu õigsust.
Outcome-supervised: Outcome-supervised annab tagasisidet ainult mudeli arutluskäigu lõpptulemuse põhjal. Tulemuse järelvalvega preemiamudelid (ORM) koolitatakse lahenduse lõpliku vastuse abil ning õigsus määratakse automaatse kontrolliga.

2.4 Preemia häkkimine

RL-is viitab tasu häkkimine nähtusele, kus agent kasutab preemiafunktsiooni ülesehituses olevat viga, et maksimeerida kumulatiivset tasu viisil, mis ei vasta disaineri algsele kavatsusele. Kuigi see käitumine vastab tehniliselt tasustamisfunktsiooni optimeerimise eesmärgile, erineb tegelik mõju eeldatavast ülesande eesmärgist ja võib isegi põhjustada negatiivseid tagajärgi.

Põhipunktide analüüs:

Definitsioon ja manifestatsioon:
1. Agent leiab preemiafunktsioonis vea ja saab suure tasu, kasutades probleemi lahendamise asemel otseteid.
2. Näiteks koristamisrobot lülitab tuled välja, et ruum puhas välja näeks, selle asemel, et seda tegelikult koristada; mänguagent kogub korduvalt punkte ilma taseme eesmärki täitmata; otsustades mitte aeglustada, et vähendada pidurdusaegade arvu, mis kujutab endast ohtu ohutusele; luua mõttetu sisu, mis vastab märksõnadele, et saavutada kõrgeid tulemusi.
Algpõhjused:
1. Preemiafunktsiooni mittetäielik ülesehitus: liigne lihtsustamine või servajuhtumite katmata jätmine.
2. Eesmärkide ja preemiate ebaühtlus: tasu funktsioon ei kajasta täielikult tegelikku eesmärki, mistõttu agent optimeerib "vale" eesmärgi.
Lahendused:
1. Täiustage preemiakujundust: tutvustage mitmemõõtmelisi preemiaid (nt ohutus, tõhusus jne) või kohandage dünaamiliselt preemiafunktsiooni.
2. Konkurentsipõhine kontroll: tuvastage lisamehhanismide abil, kas agent "petab".
3. Käsitsi sekkumine ja piirangud: seadke käitumispiirid (nt turvakiht) või käsitsi tagasiside (nt RLHF).
4. Vastupidine tugevdamine õppimine (IRL): õppige ekspertide demonstratsioonidest realistlikumat tasustamisfunktsiooni.
5. Hierarhiline tugevdusõpe: jagage ülesanne alaeesmärkideks, et vähendada kohaliku optimeerimise ohtu.
Seos liigse paigaldamisega:
1. Mõlemal on treeningmõõdikute ja reaalse jõudluse vaheline seos, kuid Reward Hacking paneb rohkem rõhku tasu funktsiooni disainivigade kui mudeli üldistusvõimele.
Kokkuvõte:
1. Preemia häkkimine paljastab eesmärkide joondamise väljakutse RL-is. Selle probleemi lahendamiseks on vaja kombineerida jõulisemate tasustamismehhanismide väljatöötamist, väliste piirangute kehtestamist ja inimeste eelnevate teadmiste kaasamist tagamaks, et agendi käitumine on nii tõhus kui ka kooskõlas kavandatava eesmärgiga.

3 DeepSeek-R1-Zero & DeepSeek-R1

3.1 Ülevaade

Varasemad uuringud on mudeli jõudluse parandamiseks suures osas tuginenud suurele hulgale kontrollitud andmetele. See uuring näitab, et isegi ilma SFT-ta külmkäivituseta võib suuremahuline RL oluliselt parandada mudeli arutlusvõimet. Lisaks võib väikese hulga külmkäivitusandmete kasutuselevõtt jõudlust veelgi optimeerida. Järgmised on mudeliga DeepSeek-R1 seotud mudelid:

DeepSeek-R1-Zero: see mudel rakendab RL-i otse põhimudelile ilma SFT-andmeteta.
DeepSeek-R1: see mudel rakendab RL-i alates kontrollpunktist, mida on peenhäälestatud tuhandete pikkade CoT-näidistega.
DeepSeek-R1-Distill-xx: destilleerib DeepSeek-R1 arutlusvõime väikeseks tihedaks mudeliks.

3.2 DeepSeek-R1-Zero

Järgmisel joonisel on näidatud DeepSeek-R1-Zero mudeli koolituse põhipunktid:

PS: Tuleb märkida, et paber ei anna palju teavet DeepSeek-R1-Zero RL protsessis kasutatud andmete kohta. Siiski on mõningane selgitus andmete genereerimise protsessi ja kvantiteedi kohta järgnevas R1 koolituses, kuigi see pole eriti konkreetne.

3.2.1 RL-algoritm

RL koolituskulude vähendamiseks kasutavad autorid DeepSeek enda GRPO (Group Relative Policy Optimization) meetodit [2402.03300] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. See meetod loobub kriitikumudelist, mille suurus on tavaliselt võrreldav poliitikamudeliga, ja hindab selle asemel lähtejoont rühmaskoori abil. Vastav selgitus on näidatud alloleval joonisel (pilt Twitterist):

3.2.2 Preemia modelleerimine

Preemiad on treeningsignaalide allikaks ja määravad RL optimeerimissuuna. DeepSeek-R1-Zero treenimiseks kasutasid autorid reeglipõhist tasusüsteemi, mis koosneb peamiselt kahte tüüpi preemiatest:

Preemia täpsuse eest: hinnake, kas vastus on õige. Näiteks:
- Deterministlike tulemustega matemaatiliste ülesannete puhul peab mudel esitama lõpliku vastuse kindlas vormingus (näiteks kasti sees), et selle õigsust saaks reeglite abil usaldusväärselt kontrollida.
- Samamoodi saab LeetCode'i probleemide korral tagasisidet genereerida kompilaatori abil, mis põhineb etteantud testjuhtumitel.
Vormingu preemia: vormingupreemiat kasutatakse ka selleks, et sundida mudelit paigutama oma mõtteprotsessi " ” ja „ ” sildid.

DeepSeek-R1-Zero väljatöötamise ajal ei kasutanud autor Outcome Neural Reward Model ega Process Neural Reward Model, sest autor leidis, et Neural Reward Model võib suuremahulistes RL protsessides kohata tasu võltsimist ( Reward Hacking ); lisaks ei nõua tasumudeli ümberõpe mitte ainult täiendavaid koolitusressursse, vaid muudab keeruliseks ka kogu koolitusprotsessi.

3.2.3 Koolitusmall

DeepSeek-R1-Zero treenimiseks koostasid autorid esmalt lihtsa malli, mis suunab baasmudelit järgima seatud juhiseid. Nagu on näidatud allolevas tabelis 1, nõuab mall järeldusprotsessi genereerimiseks ja seejärel lõpliku vastuse andmiseks DeepSeek-R1-Zero.

Autor piiras piiranguid selle struktuurse raamistikuga teadlikult, et vältida mis tahes sisulise kallutatuse sisseviimist – näiteks reflektiivse arutluskäigu sundimist või konkreetsete probleemide lahendamise strateegiate propageerimist – tagamaks, et mudeli loomulikku arengut saab RL-protsessi ajal täpselt jälgida.

3.2.4 Järeldus

Tugevad arutlusvõimalused ilma SFT-andmeteta: käivitades RL-i otse baasmudelist, saab mudeli arengutrajektoori tähelepanelikult jälgida ilma SFT-häireteta. Nagu allolevalt jooniselt 3 on näha, paranes DeepSeek-R1-Zero mõtlemisaeg (kasvu pikkus järk-järgult pikenes) kogu treeningprotsessi vältel. See paranemine ei tulenenud välistest korrigeerimistest, vaid oli mudeli sisemise arengu loomulik tulemus. DeepSeek-R1-Zero sai loomulikult võimaluse lahendada järjest keerukamaid järeldusülesandeid, näiteks võime peegeldada, kasutades pikendatud katseaja arvutusi.

DeepSeek-R1-Zero koges treeningul "ahaa-hetke". Nagu on näidatud allolevas tabelis 3, toimus see hetk mudeli keskmise versiooni etapis. Selles etapis õppis DeepSeek-R1-Zero oma esialgset lähenemisviisi ümber hinnates probleemidele rohkem mõtlemisaega eraldama.

Enamushääletamine: DeepSeek-R1-Zero jõudlust saab häälteenamusega hääletamise abil veelgi parandada. Näiteks, nagu on näidatud allolevas tabelis 2, hüppab selle jõudlus pärast AIME võrdlustestis enamuse hääletamist 71.0%-lt 86.7%-le, ületades OpenAI-o1-0912.

Nõrgad küljed: kuigi DeepSeek-R1-Zero demonstreerib tugevat arutlusvõimet ja arendab iseseisvalt ootamatut ja võimsat arutluskäitumist, seisab see siiski silmitsi probleemidega, nagu halb loetavus ja keele segamine.

3.3 DeepSeek-R1

Arutlusprotsessi loetavamaks muutmiseks ja selle jagamiseks avatud kogukonnaga uurivad autorid DeepSeek-R1 meetodit, mis kasutab RL-i jaoks inimsõbralikke külmkäivitusandmeid. DeepSeek-R1-Zerost inspireerituna järgnevad kaks loomulikku küsimust:

Kas arutlusvõimet saab veelgi parandada või lähenemisprotsessi kiirendada väikese hulga kvaliteetsete andmete kasutuselevõtuga külmkäivitusena?
Kuidas me saame treenida kasutajasõbralikku mudelit, mis mitte ainult ei loo selgeid ja sidusaid CoT-sid, vaid demonstreerib ka tugevat üldistusvõimet?

Vastuseks nendele küsimustele koostasime DeepSeek-R1 jaoks koolitusprotsessi. Protsess koosneb mitmest etapist, mida kirjeldatakse allpool:

Etapp-1, nagu on näidatud alloleval joonisel, treenib DeepSeek-R1 vaheolekut SFT + RL kaudu:

Järgmine joonis näitab etappe 2, 3 ja 4:

2. etapp: üleval vasakpoolne, konstrueerige 200 000 mitte-arutlusandmeid ja 600 000 arutlusandmeid.
3. etapp: üleval paremal, SFT + RL rong DeepSeek-R1.
4. etapp: madalam näitaja, destill DeepSeek-R1-Distill-xx.

3.3.1 Külmkäivitus (1. etapp)

Erinevalt mudelist DeepSeek-R1-Zero, et vältida baasmudeli ebastabiilset külmkäivituse faasi RL-i koolituse alguses, koostasid autorid ja kogusid DeepSeek-R1 jaoks väikese koguse Long CoT-andmeid, et mudelit algse RL-i näitlejana täpsustada. Nende andmete kogumiseks uurisid autorid erinevaid meetodeid:

Mõne võttega viipade kasutamine koos Long CoT näidetega
Ajendades mudelit otse üksikasjalikke vastuseid genereerima koos peegelduse ja kontrollimisega
DeepSeek-R1-Zero väljundi kogumine inimesele loetavas vormingus
Tulemuste viimistlemine käsitsi märgistamise abil järeltöötlusega

Autorid kogusid kokku tuhandeid Cold Start andmeid, mida kasutati RL lähtepunktina DeepSeek-V3-Base'i peenhäälestamiseks. Võrreldes mudeliga DeepSeek-R1-Zero, on Cold Start andmete eelised järgmised

Loetavus: DeepSeek-R1-Zero vastuseid saab segada mitmes keeles või neil puudub kasutaja vastuste esiletõstmiseks kasutatav Markdowni vorming. Seevastu DeepSeek-R1 jaoks Cold Start andmete loomisel kujundas autor loetava vormingu, mis sisaldab iga vastuse lõpus kokkuvõtet ja filtreerib välja loetamatud vastused. Siin on väljundvorming määratletud kui |special_token| |eriline_märk|
, kus arutlusprotsess on päringu aheldatud mõtlemine ja kokkuvõtet kasutatakse arutlustulemuste kokkuvõtmiseks.
Potentsiaal: hoolikalt kavandades inim-a priori Cold Start andmemustrite kombinatsiooni, täheldasid autorid, et selle jõudlus on parem kui DeepSeek-R1-Zero.

3.3.2 Põhjenduspõhine RL (1. etapp)

Pärast DeepSeek-V3-Base'i külmkäivitusandmete peenhäälestamist kasutatakse sama suuremahulist RL-i treeningprotsessi nagu DeepSeek-R1-Zero. Selle etapi eesmärk on parandada mudeli võimet arutlusi nõudvates ülesannetes, eriti programmeerimise, matemaatika, loodusteaduste ja loogilise arutlusprobleemide puhul, koos selgete lahendustega.

Koolituse ajal täheldasid autorid, et CoT kannatas sageli keelte segunemise all, eriti kui RL-i viip hõlmas mitut keelt. Keelte segamise probleemi leevendamiseks võtsid autorid RL koolitusse sisse keele järjepidevuse tasu, mis arvutatakse sihtkeele sõnade osakaalu alusel CoT-s. Kuigi ablatsioonikatsed näitavad, et see joondusmeetod põhjustab mudeli jõudluse mõningast langust, on see tasustamismehhanism kooskõlas inimeste eelistustega ja parandab loetavust. Lõpuks lisavad autorid arutlusülesande täpsuse otse keele järjepidevuse tasule, et moodustada lõplik tasu, ja rakendavad RL-i koolitust peenhäälestatud mudelil, kuni see läheneb arutlusülesandele.

3.3.3 800 000 valitud andmete koostamine (2. etapp)

Samal ajal kui RL for Reasoning läheneb, kogutakse SFT andmeid järgmise treeningvooru jaoks saadud kontrollpunkti abil. Erinevalt esialgsetest Cold Starti andmetest, mis keskenduvad peamiselt arutluskäigule, sisaldab see etapp andmeid teistest valdkondadest, et parandada mudeli kirjutamis-, rollimängu- ja muude üldotstarbeliste ülesannete võimet. Täpsemalt, andmed genereeritakse ja mudelit peenhäälestatakse järgmiselt.

Põhjendusandmed: Põhjendusviibad valitakse ja arutlustrajektoorid genereeritakse, sooritades eelnimetatud RL-i koolitatud kontrollpunktist (DeepSeek-R1, 1. etapp) tagasilükkamise valimi. Eelmises etapis kaasati ainult andmed, mida sai reeglipõhiste preemiate abil hinnata. Kuid selles etapis laiendati andmekogumit, lisades rohkem andmeid, millest osa genereeriti preemiamudeli abil, ja tegelikke vastuseid hinnati mudeli ennustuste sisestamisega DeepSeek-V3-sse (kohtunikuna DeepSeek V3). Lisaks, kuna mudeli väljund on mõnikord segane ja raskesti loetav, filtreeriti välja segakeelsed mõtteahelad, pikad lõigud ja koodiplokid. Iga viipa jaoks valiti mitu vastust ja alles jäeti ainult õiged (parim N). Kokku koguti umbes 600 000 arutlusõppe näidist.
Mittearutluslikud andmed: näiteks kirjutamine, faktilised küsimused, eneseteadlikkus ja tõlkimine, kasutasid DeepSeek-V3 protsessi ja taaskasutasid mõnda DeepSeek-V3 SFT-andmestikku. Mõnede mitte-arutlemisülesannete puhul kutsutakse DeepSeek-V3 enne küsimusele vastamist potentsiaalseid CoT-sid genereerima. Lihtsate päringute (nt „Tere“) puhul aga vastuses mõtteahelat ei ole. Lõppkokkuvõttes koguti kokku umbes 200 000 mittearutlemise koolituse näidist.

3.3.4 SFT ja RL kõigi stsenaariumide jaoks (3. etapp)

Kaks peenhäälestusvooru viidi DeepSeek-V3-Base'is läbi kokku umbes 800 000 valitud proovi, kasutades kahte eelnimetatud andmekogumit (arutlev ja mittemõistev).

Mudeli edasiseks vastavusse viimiseks inimeste eelistustega rakendasid autorid RL-i teist etappi, mille eesmärk on parandada mudeli kasulikkust ja kahjutust, täiustades samal ajal ka selle arutlusvõimet. Täpsemalt, mudelit koolitati preemiasignaalide ja erinevate kiirete jaotuste kombinatsiooniga.

Arutlusandmete puhul järgitakse punktis DeepSeek-R1-Zero kirjeldatud metoodikat, kasutades reeglipõhist tasustamismehhanismi, et suunata mudeli õppimist matemaatika, programmeerimise ja loogilise mõtlemise valdkonnas.
Üldandmete jaoks kasutatakse tasu mudelit inimeste eelistuste jäädvustamiseks keerulistes ja peentes olukordades. Sarnast eelistuspaaride ja treenimisviibade jaotamise strateegiat kasutatakse DeepSeek-V3 protsessi põhjal.
Kasulikkuse osas võetakse arvesse ainult lõplikku kokkuvõtet, tagades, et hindamine keskendub vastuse praktilisusele ja asjakohasusele kasutaja jaoks, minimeerides samal ajal häireid aluseks olevas arutlusprotsessis.
Mis puudutab kahjutust, siis hinnatakse põhjalikult kogu mudeli vastust, sealhulgas arutlusprotsessi ja kokkuvõtet, et tuvastada ja kõrvaldada võimalikud riskid, eelarvamused või kahjulik sisu, mis võivad genereerimisprotsessi käigus tekkida.
Lõppkokkuvõttes saab tasusignaalide integreerimise ja andmete levitamise mitmekesistamisega välja õpetada mudeli, mis seab esikohale nii kasu kui ka kahjutuse, saavutades samas suurepäraselt ka arutlusvõime.

3.3.5 Destilleerimine (4. etapp)

Tõhusama väikese mudeli varustamiseks DeepSeek-R1 arutlusvõimega viimistlesid autorid otse avatud lähtekoodiga mudelid Qwen ja LLaMA, kasutades DeepSeek-R1-Stage-1-s valitud 800 000 näidist. Tulemused näitavad, et see otsedestilleerimismeetod parandab oluliselt väikeste mudelite arutlusvõimet. Autorite kasutatud põhimudelite hulka kuuluvad Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B ja Llama-3.3-70B-Instruct. Llama-3.3 valiti, kuna selle arutlusvõime on veidi parem kui Llama-3.1.

Destilleerimismudeli jaoks kasutab autor ainult SFT-d ja ei sisalda RL-i etappi. Kuigi RL-i kasutuselevõtt võib mudeli jõudlust oluliselt parandada, on siinkohal autori põhieesmärk demonstreerida destilleerimistehnoloogia efektiivsust ning RL-i etapi uurimine on jäetud järgnevate uuringute hooleks.

PS: Lisaks on tegelikult võimalik kasutada lõplikku DeepSeek-R1 ülaltoodud andmete genereerimiseks ja destilleerimiseks kasutatud 800 000 andmete rekonstrueerimiseks ning destilleeritud mudelil võib olla parem mõju; hind on aga see, et andmed tuleb rekonstrueerida.

DeepSeek R1 paberi tõlgendamine ja peamised tehnilised punktid

1 Taust