1 Agtergrond
Tydens die Lentefees, DeepSeek R1 het weereens wydverspreide aandag getrek, en selfs die DeepSeek V3-interpretasieartikel wat ons voorheen geskryf het, is ook weer oorgedra en baie bespreek.
Alhoewel daar baie ontledings en reproduksies van DeepSeek R1 was, het ons hier besluit om 'n paar ooreenstemmende leesnotas saam te stel.
Ons sal drie skematiese kerndiagramme gebruik om modelkonstruksie en sleuteltegniese punte te demonstreer, en die essensie van die DeepSeek-R1-reeks distilleer om 'n meer intuïtiewe begrip van sy ontwerpidees te gee.
Die ooreenstemmende vraestel is [2501.12948] DeepSeek-R1: Aansporing van redenasievermoë in LLM's via versterkingsleer
en die ooreenstemmende oopbronmodel is DeepSeek-R1
2 Inleiding
2.1 Algemene redenasie-algoritmes
Soos getoon in Figuur 2 hieronder, verduidelik die skrywer die vier algemene redenasie-algoritmes. Alhoewel hulle in spesifieke besonderhede verskil, sluit hulle almal twee kernbedrywighede in:
- Uitbreiding: genereer tekens om die oplossingspad uit te brei.
- Aggregasie: integreer die resultate van elke pad om die finale antwoord te verkry. Die verhoging van die berekeningshulpbronne in die uitbreidingsfase kan gewoonlik die kwaliteit van die antwoord in die samevoegingsfase verbeter.
Selfkonsekwentheid (SC). Soos getoon in Figuur 2a, is die kerngedagte van SC om verskeie verskillende uitsette te genereer (wat bereik kan word deur steekproefparameters te verander, ens.), en dan vir al die antwoorde te stem om die antwoord met die hoogste wenkoers te kies. Die sleutelparameter is die aantal kandidaatantwoorde n.
Rebase-algoritme: Soos getoon in Figuur 2b hieronder, genereer Rebase ook veelvuldige uitsette, maar hulle word in verskeie stappe gegenereer. Elke stap word aangeteken deur gebruik te maak van die beloningsmodel, en die resultaat met die hoogste telling word gebruik om voort te gaan genereer. Laastens word 'n redenasieboom met veelvuldige takke gegenereer. Die antwoord met die hoogste telling (Beste-van-N) word in die samevoegingstadium gekies.
Monte Carlo Tree Search (MCTS): Soos getoon in Figuur 2c hieronder, is MCTS 'n kragtige Redeneringsalgoritme wat nodusse uitbrei deur geleidelik te monster en 'n oplossingsboom konstrueer totdat dit 'n blaarknoop bereik wat 'n kandidaatoplossing bevat. Elke oplossing word aangeteken deur middel van 'n beloningsmodel of simulasie, en die telling word teruggepropageer na sy voorouer-nodusse om hul beloningswaardes op te dateer en sodoende 'n iterasie te voltooi. Die sleutelparameter is ook n, en toenemende n maak voorsiening vir dieper en breër verkenning van potensiële oplossings.
Geïnternaliseerde kognitiewe ketting (ICoT). Soos getoon in Figuur 2d hieronder, kan die nuutste LLM's, soos OpenAI o1 en Qwen-QWQ, redeneringsgedrag tydens opleiding internaliseer sonder dat 'n eksplisiete redenasie-algoritme nodig is. Die kerngedagte is om 'n CoT-volgorde te genereer, komplekse probleme in veelvuldige subprobleme te ontbind, en dan hierdie antwoorde iteratief te optimaliseer deur te besin oor vorige uitsette om uiteindelik by 'n oplossing te kom.

2.2 Redenering belyningsmetodes
2.2.1 Beste-van-N-metode-oorsig
Kortom, Best-of-N is 'n belyningsmetode wat wyd gebruik word in LLM-afleiding, wat daarop gemik is om die hoë gehalte van die gegenereerde resultate te verseker deur verskeie kandidaat-reaksies te genereer en die beste een te kies. Dit bestaan uit drie hoofprosesse:
- Generasieproses: Vir 'n gegewe aansporing X genereer die Beste-van-N-metode N IID-reaksies (Y₁, Y₂, …, Yₙ), waar N dikwels na verwys word as die "batchgrootte".
- Tellingmeganisme: Elke gegenereerde respons word deur 'n beloningsmodel aangeteken om 'n ooreenstemmende telling te verkry {s(Y₁), s(Y₂), …, s(Yₙ)}.
- Kies die beste respons: Laastens word die respons met die hoogste telling onder alle gegenereerde response gekies as die uitset, maw Y_Beste-van-N = argmaks {s(Y₁), s(Y₂), …, s(Yₙ)}.
Die voordele van hierdie metode is:
- Dit kan komplekse fynverstellingstappe effektief vermy, wat dit makliker maak om taalmodelle te ontplooi wat vooraf opgelei is of met instruksies verfyn is.
- Dit is eenvoudig om te implementeer, maklik om te verstaan, en in wese vry van hiperparameters: die hoof hiperparameter is N, wat dinamies aangepas kan word tydens afleiding.
- Dit is hoogs mededingend in terme van generasiekwaliteit en kan selfs met sommige komplekse na-opleidingstegnieke soos RLHF of DPO meeding. Navorsing toon dat die Best-of-N-metode goed presteer op die afruilkurwe tussen beloning en KL-divergensie, selfs ander komplekse belyningstrategieë oortref.
Die nadele van hierdie metode is
- die afleiding vereis die generering van N rye, wat kan lei tot beduidende berekeningsbokoste. In die praktyk wissel 'n redelike waarde vir N van 4 tot 128, maar om met die mees gevorderde na-opleidingsmetodes mee te ding, kan hoër N-waardes vereis word, soos 1000 tot 60000, wat tot byna onaanvaarbare berekeningsbokoste kan lei.
Die beste-van-N-metode word dikwels gebruik om datastelle van hoë gehalte te genereer vir daaropvolgende fyninstelling onder toesig en het 'n sleutelrol gespeel in die belyningsproses van LLaMA-2 en LLaMA-3.
2.2.2 OpenAI beste-van-N-metode
OpenAI het die eerste keer Best-of-N-steekproefneming voorgestel [2009.01325] Leer om op te som uit menslike terugvoer . Dit word spesifiek gebruik om die werkverrigting van die opsommingsmodel te evalueer en te optimaliseer deur die beste opsomming te kies wat uit verskeie modelle gegenereer word. Hierdie metode help navorsers om die verband tussen verskillende evalueringsmaatstawwe en menslike assessorvoorkeure beter te verstaan, en word gebruik om modelopleiding en -optimering te lei.
OpenAI gebruik ook Best-of-N-steekproefneming (verwerpingsteekproefneming) in die opvolg [2112.09332] WebGPT: Blaaiergesteunde vraagbeantwoording met menslike terugvoer. Spesifiek, 'n vaste aantal antwoorde (4, 16 of 64) word uit die BC-model of RL-model gesteek, en die een met die hoogste beloningsmodeltelling word gekies as 'n optimaliseringsmetode vir die teenstrydige beloningsmodel. Hierdie metode vereis nie bykomende opleiding nie, maar verhoog die berekeningskompleksiteit van die afleidingstadium om te bereik.
2.2.3 Google BOND metode
In [2407.14622] BOND: Belyn LLM's met Best-of-N Distillation, die skrywers van Google stel Best-of-N Distillation (BOND) voor, 'n nuwe RLHF-algoritme wat ontwerp is om die Best-of-N-steekproefnemingstrategie te simuleer deur 'n Distribution Matching-algoritme sonder om die berekeningsbokoste tydens Inferensie aansienlik te verhoog.

Spesifiek, die skrywer lei eers die presiese analitiese verspreiding van Beste-van-N-steekproefneming af en gee die waarskynlikheidsfunksie van Beste-van-N-steekproefneming:

Tweedens druk die skrywers die probleem uit as 'n verspreidingspassingsprobleem;

daarna stel die skrywers voor om Jeffreys se divergensie te gebruik as die doelwit wat ooreenstem met die verspreiding:

Ten slotte, om die probleem van die seleksie van N op te los, stel die skrywers die iteratiewe BOND-metode voor, wat die prestasie van die strategie verbeter deur die Best-of-N-verspreiding iteratief te distilleer. Die spesifieke stappe sluit in:
Inisialiseer die hulpankerstrategie π(anker).
Voer BOND iteratief uit om die Best-of-N π(anker) te distilleer en werk π(anker) op na elke stap.

2.3 Prosestoesig en uitkomstoesig
Uitkoms en Proses verwys na die twee aspekte van die beloningsmodel-evaluering:
- Uitkomsbeloningmodel: Evalueer of die finale resultaat van die modeluitset korrek of soos verwag is.
- Prosesbeloningsmodel: Evalueer of die model se redenasie en besluitnemingstappe in die proses om resultate te genereer, redelik en effektief is.
Byvoorbeeld, OpenAI se Kom ons verifieer stap vir stap | OpenAI noem ook:
- Prosestoesig (uitkoms-toesig): behels die verskaffing van terugvoer oor elke stap van die model se Redeneringsproses. Proses-toesig beloningsmodelle (PRM) is opgelei om die korrektheid van elke stap van die oplossing te voorspel.
- Uitkoms-toesig: Uitkoms-toesig gee terugvoer slegs gebaseer op die finale resultaat van die model se redenasie. Uitkoms-toesig beloningsmodelle (ORM) word opgelei deur die finale antwoord van die oplossing te gebruik, en korrektheid word bepaal deur outomatiese kontrolering.
2.4 Beloning hacking
In RL verwys beloning hacking na die verskynsel waarin 'n agent 'n fout in die ontwerp van die beloningsfunksie uitbuit om die kumulatiewe beloning te maksimeer op 'n manier wat nie aan die oorspronklike bedoeling van die ontwerper voldoen nie. Alhoewel hierdie gedrag tegnies voldoen aan die optimaliseringsdoelwit van die beloningsfunksie, wyk die werklike effek af van die verwagte taakdoelwit en kan dit selfs tot negatiewe gevolge lei.
Sleutelpuntanalise:
- Definisie en manifestasie:
- Die agent vind 'n fout in die beloningsfunksie en kry 'n hoë beloning deur "kortpaaie" te neem in plaas daarvan om die probleem werklik op te los.
- Byvoorbeeld, 'n skoonmaakrobot skakel die ligte af om die kamer skoon te laat "lyk", eerder as om dit werklik skoon te maak; 'n spelagent teken herhaaldelik punte aan sonder om die vlakdoel te voltooi; kies om nie stadiger te ry nie om die aantal remtye te verminder, wat 'n veiligheidsgevaar inhou; betekenislose inhoud genereer wat ooreenstem met sleutelwoorde om hoë tellings te mislei.
- Oorsake:
- Onvolledige beloningsfunksie-ontwerp: oorvereenvoudiging of versuim om randgevalle te dek.
- Wanbelyning tussen doelwitte en belonings: die beloningsfunksie slaag nie daarin om die werklike doelwit ten volle te weerspieël nie, wat veroorsaak dat die agent vir die "verkeerde" doelwit optimeer.
- Oplossings:
- Verbeter beloningsontwerp: stel multidimensionele belonings in (bv. veiligheid, doeltreffendheid, ens.) of pas die beloningsfunksie dinamies aan.
- Teenstrydige verifikasie: bespeur of die agent "bedrieg" deur bykomende meganismes.
- Handmatige intervensie en beperkings: stel gedragsgrense (bv. veiligheidslaag) of handterugvoer (bv. RLHF).
- Omgekeerde versterkingsleer (IRL): leer 'n meer realistiese beloningsfunksie uit deskundige demonstrasies.
- Hiërargiese versterkingsleer: ontbind die taak in subdoelwitte om die risiko van plaaslike optimalisering te verminder.
- Assosiasie met oorpas:
- Albei toon 'n breuk tussen opleidingsmetrieke en werklike prestasie, maar Reward Hacking plaas meer klem op die ontwerpfoute van die beloningsfunksie as op die veralgemeningsvermoë van die model.
- Opsomming:
- Reward Hacking onthul die uitdaging van doelbelyning in RL. Om hierdie probleem op te los vereis 'n kombinasie van die ontwerp van meer robuuste beloningsmeganismes, die bekendstelling van eksterne beperkings, en die inkorporering van menslike voorkennis om te verseker dat die agent se gedrag beide doeltreffend en in lyn is met die ontwerpvoorneme.
3 DeepSeek-R1-Zero & DeepSeek-R1
3.1 Oorsig
Vorige navorsing het grootliks staatgemaak op groot hoeveelhede data onder toesig om modelprestasie te verbeter. Hierdie studie toon dat selfs sonder SFT as 'n koue begin, grootskaalse RL die redenasievermoë van die model aansienlik kan verbeter. Daarbenewens kan die bekendstelling van 'n klein hoeveelheid kouebegindata werkverrigting verder optimaliseer. Die volgende is die modelle wat verband hou met DeepSeek-R1:
- DeepSeek-R1-Zero: Hierdie model pas RL direk op die Basismodel toe sonder enige SFT-data.
- DeepSeek-R1: Hierdie model pas RL toe vanaf 'n kontrolepunt wat met duisende lang CoT-monsters verfyn is.
- DeepSeek-R1-Distill-xx: Distilleer die redenasievermoë van DeepSeek-R1 in 'n klein digte model.
3.2 DeepSeek-R1-Zero
Die volgende figuur toon die sleutelpunte in die opleiding van die DeepSeek-R1-Zero-model:

NS: Daar moet kennis geneem word dat die vraestel nie veel inligting verskaf oor die data wat in die RL-proses van DeepSeek-R1-Zero gebruik word nie. Daar is egter 'n mate van verduideliking van die datagenereringsproses en -hoeveelheid in daaropvolgende R1-opleiding, hoewel dit nie besonder spesifiek is nie.
3.2.1 RL-algoritme
Om die opleidingskoste van RL te verminder, gebruik die skrywers DeepSeek se eie GRPO (Group Relative Policy Optimization) metode, [2402.03300] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. Hierdie metode laat vaar die Kritiek-model, wat gewoonlik in grootte vergelykbaar is met die Beleidsmodel, en skat eerder die basislyn deur 'n groeptelling te gebruik. Die ooreenstemmende verduideliking word in die figuur hieronder getoon (foto van Twitter):

3.2.2 Beloningsmodellering
Belonings is die bron van opleiding seine en bepaal die optimalisering rigting van RL. Om DeepSeek-R1-Zero op te lei, het die skrywers 'n reëlgebaseerde beloningstelsel gebruik, wat hoofsaaklik uit twee tipes belonings bestaan:
- Akkuraatheidbeloning: Evalueer of die antwoord korrek is. Byvoorbeeld:
- In wiskundige probleme met deterministiese resultate, moet die model die finale antwoord in 'n spesifieke formaat (soos binne 'n boks) verskaf sodat die korrektheid daarvan betroubaar deur reëls geverifieer kan word.
- Net so, vir LeetCode-probleme, kan terugvoer gegenereer word met behulp van 'n samesteller gebaseer op voorafbepaalde toetsgevalle.
- Formaatbeloning: 'n Formatbeloning word ook gebruik om die model te dwing om sy denkproses tussen die " " en " ” tags.
Tydens die ontwikkeling van DeepSeek-R1-Zero het die skrywer nie die Uitkoms Neurale Beloningsmodel of die Prosesneurale Beloningsmodel gebruik nie, omdat die skrywer gevind het dat Neurale Beloningsmodel beloningspoofing (Reward Hacking) in grootskaalse RL-prosesse kan teëkom; boonop verg die heropleiding van die beloningsmodel nie net bykomende opleidingshulpbronne nie, maar bemoeilik ook die hele opleidingsproses.
3.2.3 Opleidingsjabloon
Om DeepSeek-R1-Zero op te lei, het die skrywers eers 'n eenvoudige sjabloon ontwerp om die basismodel te lei om die gestelde instruksies te volg. Soos in Tabel 1 hieronder getoon, vereis die Sjabloon DeepSeek-R1-Zero om 'n afleidingsproses te genereer en dan die finale antwoord te gee.

Die skrywer het doelbewus die beperkings tot hierdie strukturele raamwerk beperk om te verhoed dat enige inhoudsvooroordeel bekendgestel word – byvoorbeeld om reflektiewe redenering af te dwing of spesifieke probleemoplossingstrategieë te bevorder – om te verseker dat die natuurlike evolusie van die model akkuraat waargeneem kan word tydens die RL-proses.
3.2.4 Gevolgtrekking
Robuuste redenasievermoëns sonder SFT-data: Deur RL direk vanaf die Basismodel te begin, kan die evolusietrajek van die model noukeurig gemonitor word sonder SFT-inmenging. Soos Figuur 3 hieronder toon, het DeepSeek-R1-Zero se dinktyd steeds verbeter (die groeilengte het geleidelik langer geword) deur die opleidingsproses. Hierdie verbetering het nie uit eksterne aanpassings gekom nie, maar was 'n natuurlike gevolg van die model se interne ontwikkeling. DeepSeek-R1-Zero het natuurlik die vermoë gekry om toenemend komplekse afleidingstake op te los, soos die vermoë om te reflekteer, deur gebruik te maak van uitgebreide toetstydberekeninge.

DeepSeek-R1-Zero het 'n "aha-oomblik" tydens opleiding ervaar. Soos in Tabel 3 hieronder getoon, het hierdie oomblik tydens die model se middelste weergawestadium plaasgevind. Gedurende hierdie stadium het DeepSeek-R1-Zero geleer om meer dinktyd aan probleme toe te ken deur sy aanvanklike benadering te herevalueer.

Meerderheidstemming: DeepSeek-R1-Zero se prestasie kan verder verbeter word deur meerderheidstem toe te pas. Byvoorbeeld, soos in Tabel 2 hieronder getoon, nadat meerderheidstem in die AIME-maatstaftoets gebruik is, spring sy prestasie van 71.0% na 86.7%, wat OpenAI-o1-0912 oortref.

Swakpunte: Terwyl DeepSeek-R1-Zero sterk Redeneringsvermoëns demonstreer en outonoom onverwagte en kragtige Redeneringsgedrag ontwikkel, staar dit steeds uitdagings soos swak leesbaarheid en taalvermenging in die gesig.
3.3 DeepSeek-R1
Om die Redeneringsproses meer leesbaar te maak en dit met die oop gemeenskap te deel, ondersoek die skrywers verder die DeepSeek-R1-metode, wat mensvriendelike koue-begindata vir RL gebruik. Geïnspireer deur DeepSeek-R1-Zero, volg twee natuurlike vrae:
- Kan redenasieprestasie verder verbeter word of die konvergensieproses versnel word deur 'n klein hoeveelheid data van hoë gehalte as 'n koue begin bekend te stel?
- Hoe kan ons 'n gebruikersvriendelike model oplei wat nie net duidelike en samehangende CoT's genereer nie, maar ook sterk veralgemeningsvermoëns demonstreer?
In antwoord op hierdie vrae het ons 'n opleidingsproses vir DeepSeek-R1 ontwerp. Die proses bestaan uit verskeie fases, soos hieronder beskryf:
Stadium-1, soos in die figuur hieronder getoon, lei die intermediêre toestand van DeepSeek-R1 deur SFT + RL:

Die volgende figuur toon fases-2, 3 en 4:
- Fase-2: links bo, konstrueer 200K nie-redenerende data en 600K redeneerdata.
- Stadium-3: regs bo, SFT + RL trein DeepSeek-R1.
- Fase-4: laer figuur, Distilleer DeepSeek-R1-Distilleer-xx.

3.3.1 Koue begin (stadium-1)
Anders as DeepSeek-R1-Zero, om die onstabiele Koue Begin-fase van die Basismodel aan die begin van RL-opleiding te voorkom, het die skrywers 'n klein hoeveelheid Long CoT-data vir DeepSeek-R1 gebou en ingesamel om die model as die aanvanklike RL-akteur te verfyn. Om hierdie data in te samel, het die skrywers verskeie metodes ondersoek:
- Gebruik paar-skoot-aanwysings met lang CoT-voorbeelde
- Om die model direk aan te spoor om gedetailleerde antwoorde met refleksie en verifikasie te genereer
- Versamel DeepSeek-R1-Zero-uitset in 'n mens-leesbare formaat
- Verfyning van die resultate deur na-verwerking met handmatige etikettering
Die skrywers het 'n totaal van duisende Cold Start-data ingesamel, wat gebruik is om DeepSeek-V3-Base as die beginpunt vir RL te verfyn. In vergelyking met DeepSeek-R1-Zero, sluit die voordele van Cold Start-data in
- Leesbaarheid: DeepSeek-R1-Zero Antwoorde kan in verskeie tale gemeng word of het nie die Markdown-formatering wat gebruik word om gebruikersantwoorde uit te lig nie. Daarenteen, toe die outeur Cold Start-data vir DeepSeek-R1 geskep het, het die skrywer 'n leesbare formaat ontwerp wat 'n opsomming aan die einde van elke reaksie insluit en onleesbare antwoorde uitfiltreer. Hier word die uitvoerformaat gedefinieer as |special_token| |spesiale_token|
, waar redenering_proses die gekettingde denke van die Navraag is en opsomming word gebruik om die redenasieresultate op te som. - Potensiaal: Deur noukeurig 'n kombinasie van menslike-a priori Koue Begin-datapatrone te ontwerp, het die skrywers opgemerk dat die prestasie daarvan beter is as DeepSeek-R1-Zero.
3.3.2 Redenering-gedrewe RL (stadium-1)
Nadat DeepSeek-V3-Basis op Cold Start-data fyn ingestel is, word dieselfde grootskaalse RL-opleidingsproses as DeepSeek-R1-Zero gebruik. Hierdie stadium het ten doel om die model se vermoë in Redenering-intensiewe take te verbeter, veral oor programmering, wiskunde, wetenskap en logiese redenasieprobleme met duidelike oplossings.
Tydens opleiding het die skrywers opgemerk dat CoT dikwels aan taalvermenging gely het, veral wanneer die RL-aanvraag verskeie tale behels het. Om die taalvermengingsprobleem te verlig, het die skrywers 'n taalkonsekwentheidsbeloning in RL-opleiding ingestel, wat bereken word op grond van die proporsie woorde in die doeltaal in CoT. Alhoewel ablasie-eksperimente toon dat hierdie belyningsmetode tot 'n effense afname in modelprestasie lei, is hierdie beloningsmeganisme in ooreenstemming met menslike voorkeure en verhoog dit leesbaarheid. Laastens voeg die skrywers die akkuraatheid van die Redenering-taak direk by die taalkonsekwentheidsbeloning om die finale beloning te vorm, en implementeer RL-opleiding op die fyn-ingestelde model totdat dit konvergeer op die Redenering-taak.
3.3.3 Konstruksie van 800 000 geselekteerde data (stadium-2)
Terwyl RL for Reasoning konvergeer, word SFT-data ingesamel deur die gevolglike kontrolepunt vir die volgende opleidingsrondte te gebruik. Anders as die aanvanklike Cold Start-data, wat hoofsaaklik op Redenering fokus, inkorporeer hierdie stadium data van ander domeine om die model se vermoë in skryf, rolspel en ander algemene-doel take te verbeter. Spesifiek, die data word gegenereer en die model word soos volg verfyn:
- Redeneringsdata: Redeneringsaanwysings word gekies en Redeneringsbane word gegenereer deur verwerpingsteekproefneming vanaf die voorgenoemde RL-opgeleide Kontrolepunt (DeepSeek-R1 Stadium 1) uit te voer. In die vorige stadium is slegs data ingesluit wat met reëlgebaseerde belonings geëvalueer kon word. Op hierdie stadium is die datastel egter uitgebrei deur meer data in te sluit, waarvan sommige met behulp van 'n beloningsmodel gegenereer is, en die werklike antwoorde is beoordeel deur die modelvoorspellings in DeepSeek-V3 (DeepSeek V3 as beoordelaar) in te voer. Daarby, omdat die modeluitset soms verwarrend en moeilik is om te lees, is gemengde-taal-denkkettings, lang paragrawe en kodeblokke uitgefiltreer. Vir elke aansporing is veelvuldige antwoorde gemonster en slegs die korrekte (Beste-van-N) is behou. In totaal is ongeveer 600 000 redeneringsverwante opleidingsmonsters ingesamel.
- Nie-redenerende data: soos skryf, feitevrae, selfbewustheid en vertaling, het die DeepSeek-V3-proses gebruik en sommige van DeepSeek-V3 se SFT-datastelle hergebruik. Vir sommige nie-redenerende take word DeepSeek-V3 geroep om potensiële CoT's te genereer voordat die vraag beantwoord word. Vir eenvoudige navrae soos "Hallo", word geen gedagteketting egter in die Antwoord verskaf nie. Op die ou end is 'n totaal van ongeveer 200 000 nie-Redeneer-opleidingmonsters ingesamel.
3.3.4 SFT & RL vir alle scenario's (Fase-3)
Twee rondtes van fyn-instelling 'n totaal van ongeveer 800 000 geselekteerde monsters is uitgevoer op DeepSeek-V3-Base met behulp van die twee voorgenoemde datastelle (Redenering en nie-redenering).
Om die model verder met menslike voorkeure in lyn te bring, het die skrywers 'n tweede fase van RL geïmplementeer, wat daarop gemik is om die model se bruikbaarheid en onskadelikheid te verbeter, terwyl ook sy Redeneringsvermoëns verfyn word. Spesifiek, die model is opgelei met 'n kombinasie van beloningseine en diverse vinnige verspreidings.
- Vir Redenering-data word die metodologie wat in DeepSeek-R1-Zero beskryf word, gevolg, deur 'n reëlgebaseerde beloningsmeganisme te gebruik om die model se leer op die gebied van wiskunde, programmering en logiese redenering te lei.
- Vir algemene data word die beloningsmodel gebruik om menslike voorkeure in komplekse en subtiele situasies vas te vang. 'n Soortgelyke strategie van voorkeurpare en opleidingsspoedverspreidings word gebruik gebaseer op die DeepSeek-V3-proses.
- Wat bruikbaarheid betref, word slegs die finale opsomming oorweeg, om te verseker dat die evaluering fokus op die praktiese en relevansie van die Antwoord vir die gebruiker, terwyl inmenging met die onderliggende Redeneringsproses tot die minimum beperk word.
- Wat skadeloosheid betref, word die hele reaksie van die model omvattend geëvalueer, insluitend die Redeneringsproses en opsomming, om enige potensiële risiko's, vooroordele of skadelike inhoud wat tydens die genereringsproses mag ontstaan, te identifiseer en uit te skakel.
- Uiteindelik, deur beloningseine te integreer en dataverspreiding te diversifiseer, kan 'n model opgelei word wat beide voordeel en skadeloosheid prioritiseer terwyl dit ook uitblink in Redenering.
3.3.5 Distillasie (stadium-4)
Om 'n meer doeltreffende klein model met die redenasievermoë van DeepSeek-R1 toe te rus, het die skrywers die oopbronmodelle Qwen en LLaMA direk verfyn deur die 800 000 monsters wat in DeepSeek-R1-Stage-1 gekies is, te gebruik. Die resultate toon dat hierdie direkte distillasiemetode die redenasievermoë van klein modelle aansienlik verbeter. Die basiese modelle wat deur die skrywers gebruik word, sluit in Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B en Llama-3.3-70B-Instruct. Lama-3.3 is gekies omdat sy redenasievermoë effens beter is as Lama-3.1.
Vir die distillasiemodel gebruik die skrywer slegs SFT en sluit nie die RL stadium in nie. Alhoewel die bekendstelling van RL die werkverrigting van die model aansienlik kan verbeter, is die skrywer se hoofdoel hier om die doeltreffendheid van distillasietegnologie te demonstreer, en die verkenning van die RL-stadium word aan daaropvolgende navorsing oorgelaat.
NS: Daarbenewens is dit eintlik moontlik om die finale DeepSeek-R1 te gebruik om die bogenoemde data te genereer en die 800 000 data wat vir distillasie gebruik word te rekonstrueer, en die gedistilleerde model kan 'n beter effek hê; die prys is egter dat die data gerekonstrueer moet word.