DeepSeek R1-paperinterpretatie en belangrijkste technische punten

1 Achtergrond

Tijdens het Lentefestival, DeepSeek R1 trok opnieuw veel aandacht, en zelfs het DeepSeek V3-interpretatieartikel dat we eerder schreven, werd opnieuw uitgezonden en veel besproken.

Hoewel er veel analyses en reproducties van DeepSeek R1 zijn gemaakt, hebben we besloten om hier enkele bijbehorende leesnotities samen te stellen.

Aan de hand van drie kernschema's demonstreren we de modelconstructie en de belangrijkste technische punten. Zo wordt de essentie van de DeepSeek-R1-serie samengevat en krijgt u een intuïtiever inzicht in de ontwerpideeën.

Het bijbehorende papier is [2501.12948] DeepSeek-R1: Stimulering van het redeneervermogen in LLM's via Reinforcement Learning

en het bijbehorende open source model is DeepSeek-R1

2 Inleiding

2.1 Algemene redeneringsalgoritmen

Zoals weergegeven in Figuur 2 hieronder, legt de auteur de vier veelvoorkomende redeneeralgoritmen uit. Hoewel ze verschillen in specifieke details, omvatten ze allemaal twee kernbewerkingen:

Uitbreiding: genereer tokens om het oplossingspad uit te breiden.
Aggregatie: integreer de resultaten van elk pad om het uiteindelijke antwoord te verkrijgen. Het vergroten van de rekenkracht in de uitbreidingsfase kan doorgaans de kwaliteit van het antwoord in de aggregatiefase verbeteren.

Zelfconsistentie (SC). Zoals weergegeven in Figuur 2a, is het kernidee van SC om meerdere verschillende outputs te genereren (wat kan worden bereikt door het veranderen van bemonsteringsparameters, etc.), en vervolgens te stemmen op alle antwoorden om het antwoord met de hoogste winstpercentage te selecteren. De belangrijkste parameter is het aantal kandidaat-antwoorden n.

Rebase-algoritme: Zoals weergegeven in Figuur 2b hieronder, genereert Rebase ook meerdere outputs, maar deze worden gegenereerd in meerdere stappen. Elke stap wordt gescoord met behulp van het Reward-model, en het resultaat met de hoogste score wordt gebruikt om door te gaan met genereren. Ten slotte wordt een redeneringsboom met meerdere takken gegenereerd. Het antwoord met de hoogste score (Best-of-N) wordt geselecteerd in de aggregatiefase.

Monte Carlo Tree Search (MCTS): Zoals weergegeven in Afbeelding 2c hieronder, is MCTS een krachtig Reasoning-algoritme dat knooppunten uitbreidt door geleidelijk te bemonsteren en een oplossingsboom construeert totdat het een bladknooppunt bereikt dat een kandidaatoplossing bevat. Elke oplossing wordt gescoord via een Reward-model of simulatie, en de score wordt teruggepropageerd naar de voorouderknooppunten om hun beloningswaarden bij te werken, en zo een iteratie te voltooien. De sleutelparameter is ook n, en het verhogen van n maakt diepere en bredere verkenning van potentiële oplossingen mogelijk.

Geïnternaliseerde cognitieve keten (ICoT). Zoals weergegeven in figuur 2d hieronder, kunnen de nieuwste LLM's, zoals OpenAI o1 en Qwen-QWQ, redeneergedrag internaliseren tijdens training zonder de noodzaak van een expliciet redeneeralgoritme. Het kernidee is om een CoT-reeks te genereren, complexe problemen op te splitsen in meerdere subproblemen en deze antwoorden vervolgens iteratief te optimaliseren door te reflecteren op eerdere uitkomsten om uiteindelijk tot een oplossing te komen.

2.2 Redeneringsuitlijningsmethoden

2.2.1 Overzicht van de Best-of-N-methode

Kortom, Best-of-N is een alignment-methode die veel wordt gebruikt in LLM-inferentie, die erop gericht is de hoge kwaliteit van de gegenereerde resultaten te garanderen door meerdere kandidaatreacties te genereren en de beste te selecteren. Het bestaat uit drie hoofdprocessen:

Generatieproces: Voor een gegeven prompt X genereert de Best-of-N-methode N IID-reacties (Y₁, Y₂, …, Yₙ), waarbij N vaak de “batchgrootte” wordt genoemd.
Scoremechanisme: Elk gegenereerd antwoord wordt gescoord door een beloningsmodel om een bijbehorende score te verkrijgen {s(Y₁), s(Y₂), …, s(Yₙ)}.
Het selecteren van het beste antwoord: Ten slotte wordt het antwoord met de hoogste score van alle gegenereerde antwoorden geselecteerd als uitvoer, d.w.z. Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}.

De voordelen van deze methode zijn:

Complexe stappen voor het verfijnen van de instellingen kunnen hiermee effectief worden vermeden, waardoor het eenvoudiger wordt om taalmodellen te implementeren die vooraf zijn getraind of met instructies zijn verfijnd.
Het is eenvoudig te implementeren, gemakkelijk te begrijpen en in principe vrij van hyperparameters: de belangrijkste hyperparameter is N, die dynamisch kan worden aangepast tijdens de inferentie.
Het is zeer competitief in termen van generatiekwaliteit en kan zelfs concurreren met sommige complexe post-trainingtechnieken zoals RLHF of DPO. Onderzoek toont aan dat de Best-of-N-methode goed presteert op de trade-offcurve tussen beloning en KL-divergentie, en zelfs andere complexe alignmentstrategieën overtreft.

De nadelen van deze methode zijn:

de inferentie vereist het genereren van N-reeksen, wat kan leiden tot aanzienlijke rekenoverhead. In de praktijk varieert een redelijke waarde voor N van 4 tot 128, maar om te kunnen concurreren met de meest geavanceerde post-trainingsmethoden, kunnen hogere N-waarden vereist zijn, zoals 1000 tot 60000, wat kan leiden tot bijna onaanvaardbare rekenoverhead.

De best-of-N-methode wordt vaak gebruikt om datasets van hoge kwaliteit te genereren voor daaropvolgende begeleide fine-tuning en speelde een belangrijke rol in het uitlijningsproces van LLaMA-2 en LLaMA-3.

2.2.2 OpenAI best-of-N-methode

OpenAI stelde voor het eerst Best-of-N-sampling voor in [2009.01325] Leren samenvatten op basis van menselijke feedback . Het wordt specifiek gebruikt om de prestaties van het samenvattingsmodel te evalueren en optimaliseren door de beste samenvatting te selecteren die is gegenereerd uit meerdere modellen. Deze methode helpt onderzoekers de relatie tussen verschillende evaluatiemetrieken en menselijke beoordelaarsvoorkeuren beter te begrijpen, en wordt gebruikt om modeltraining en -optimalisatie te begeleiden.

OpenAI gebruikt ook Best-of-N-sampling (afwijzingssampling) in de follow-up [2112.09332] WebGPT: Browser-ondersteunde vraag-antwoordfunctie met menselijke feedback. Specifiek wordt een vast aantal antwoorden (4, 16 of 64) bemonsterd uit het BC-model of RL-model, en degene met de hoogste beloningsmodelscore wordt geselecteerd als een optimalisatiemethode voor het adversarial reward-model. Deze methode vereist geen extra training, maar verhoogt de computationele complexiteit van de inferentiefase om te bereiken.

2.2.3 Google BOND-methode

In [2407.14622] BOND: Door LLM's af te stemmen op Best-of-N Distillation, stellen de auteurs van Google Best-of-N Distillation (BOND) voor, een nieuw RLHF-algoritme dat is ontworpen om de Best-of-N-samplingstrategie te simuleren via een Distribution Matching-algoritme zonder de rekenkundige overhead tijdens de inferentie significant te verhogen.

De auteur leidt eerst de exacte analytische verdeling van Best-of-N-sampling af en geeft de waarschijnlijkheidsfunctie van Best-of-N-sampling:

In de tweede plaats formuleren de auteurs het probleem als een distributiematchingprobleem;

Vervolgens stellen de auteurs voor om Jeffreys divergentie te gebruiken als doelstelling voor de verdelingsmatching:

Tot slot, om het probleem van het selecteren van N op te lossen, stellen de auteurs de iteratieve BOND-methode voor, die de prestaties van de strategie verbetert door iteratief de Best-of-N-distributie te distilleren. De specifieke stappen omvatten:

Initialiseer de hulpankerstrategie π(anker).

Voer BOND iteratief uit om de Best-of-N π(anker) te distilleren en werk π(anker) na elke stap bij.

2.3 Procesbegeleiding en uitkomstbegeleiding

Resultaat en Proces verwijzen naar de twee aspecten van de evaluatie van het beloningsmodel:

Uitkomstbeloningsmodel: Evalueer of het uiteindelijke resultaat van de modeluitvoer correct is of voldoet aan de verwachting.
Procesbeloningsmodel: Evalueert of de redeneer- en besluitvormingsstappen van het model in het proces van het genereren van resultaten redelijk en effectief zijn.

OpenAI's Let's Verify Step by Step | OpenAI vermeldt bijvoorbeeld ook:

Processupervisie (Outcome-supervised): omvat het geven van feedback op elke stap van het Reasoning-proces van het model. Processupervised Reward Models (PRM) worden getraind om de correctheid van elke stap van de oplossing te voorspellen.
Outcome-supervised: Outcome-supervised geeft feedback op basis van alleen het uiteindelijke resultaat van de redenering van het model. Outcome-supervised reward models (ORM) worden getraind met behulp van het uiteindelijke antwoord van de oplossing, en correctheid wordt bepaald door automatische controle.

2.4 Beloning hacken

In RL verwijst reward hacking naar het fenomeen waarbij een agent een fout in het ontwerp van de reward-functie uitbuit om de cumulatieve reward te maximaliseren op een manier die niet voldoet aan de oorspronkelijke bedoeling van de ontwerper. Hoewel dit gedrag technisch gezien voldoet aan het optimalisatiedoel van de reward-functie, wijkt het daadwerkelijke effect af van het verwachte taakdoel en kan het zelfs leiden tot negatieve gevolgen.

Belangrijkste analysepunten:

Definitie en manifestatie:
1. De agent vindt een fout in de beloningsfunctie en krijgt een hoge beloning door ‘snelkoppelingen’ te nemen in plaats van het probleem daadwerkelijk op te lossen.
2. Bijvoorbeeld, een schoonmaakrobot schakelt de lichten uit om de kamer er schoon uit te laten zien, in plaats van deze daadwerkelijk schoon te maken; een game-agent scoort herhaaldelijk punten zonder het leveldoel te bereiken; kiest ervoor om niet langzamer te gaan rijden om het aantal keren dat hij moet remmen te verminderen, wat een veiligheidsrisico vormt; genereert betekenisloze content die overeenkomt met trefwoorden om hoge scores te misleiden.
Grondoorzaken:
1. Onvolledig ontwerp van de beloningsfunctie: oversimplificatie of het niet dekken van randgevallen.
2. Misalignment tussen doelen en beloningen: de beloningsfunctie weerspiegelt het echte doel niet volledig, waardoor de agent optimaliseert voor het ‘verkeerde’ doel.
Oplossingen:
1. Verbeter het beloningsontwerp: introduceer multidimensionale beloningen (bijv. veiligheid, efficiëntie, enz.) of pas de beloningsfunctie dynamisch aan.
2. Tegenstrijdige verificatie: ontdek of de agent “vals speelt” via aanvullende mechanismen.
3. Handmatige interventie en beperkingen: stel gedragsgrenzen in (bijv. veiligheidslaag) of handmatige feedback (bijv. RLHF).
4. Inverse reinforcement learning (IRL): leer een realistischere beloningsfunctie aan de hand van demonstraties van experts.
5. Hiërarchisch reinforcement learning: verdeel de taak in subdoelen om het risico op lokale optimalisatie te verkleinen.
Associatie met overfitting:
1. In beide gevallen is er sprake van een discrepantie tussen trainingsmetriek en prestaties in de praktijk. Bij Reward Hacking ligt de nadruk echter meer op de ontwerpfouten van de beloningsfunctie dan op het generalisatievermogen van het model.
Samenvatting:
1. Reward Hacking onthult de uitdaging van het afstemmen van doelen in RL. Het oplossen van dit probleem vereist een combinatie van het ontwerpen van robuustere beloningsmechanismen, het introduceren van externe beperkingen en het opnemen van menselijke voorkennis om ervoor te zorgen dat het gedrag van de agent zowel efficiënt is als in lijn met de ontwerpintentie.

3 DeepSeek-R1-nul en DeepSeek-R1

3.1 Overzicht

Eerder onderzoek heeft grotendeels vertrouwd op grote hoeveelheden supervised data om de modelprestaties te verbeteren. Deze studie toont aan dat zelfs zonder SFT als cold start, grootschalige RL het redeneervermogen van het model aanzienlijk kan verbeteren. Bovendien kan de introductie van een kleine hoeveelheid cold start-data de prestaties verder optimaliseren. De volgende modellen zijn gerelateerd aan DeepSeek-R1:

DeepSeek-R1-Zero: Dit model past RL rechtstreeks toe op het basismodel, zonder SFT-gegevens.
DeepSeek-R1: Dit model past RL toe vanaf een controlepunt dat is verfijnd met duizenden lange CoT-samples.
DeepSeek-R1-Distill-xx: Distilleert het redeneervermogen van DeepSeek-R1 in een klein Dense-model.

3.2 DeepSeek-R1-nul

De volgende afbeelding toont de belangrijkste punten in de training van het DeepSeek-R1-Zero-model:

PS: Opgemerkt moet worden dat het artikel niet veel informatie geeft over de data die gebruikt worden in het RL-proces van DeepSeek-R1-Zero. Er is echter wel enige uitleg over het datageneratieproces en de hoeveelheid in de daaropvolgende R1-training, hoewel deze niet bijzonder specifiek is.

3.2.1 RL-algoritme

Om de trainingskosten van RL te verlagen, gebruiken de auteurs DeepSeek's eigen GRPO (Group Relative Policy Optimization) methode, [2402.03300] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. Deze methode laat het Critic model, dat doorgaans vergelijkbaar is in omvang met het Policy model, achterwege en schat in plaats daarvan de baseline met behulp van een groepsscore. De bijbehorende uitleg wordt getoond in de onderstaande afbeelding (afbeelding van Twitter):

3.2.2 Beloningsmodellering

Beloningen zijn de bron van trainingssignalen en bepalen de optimalisatierichting van RL. Om DeepSeek-R1-Zero te trainen, gebruikten de auteurs een op regels gebaseerd beloningssysteem, dat voornamelijk bestaat uit twee soorten beloningen:

Nauwkeurigheidsbeloning: Evalueer of het antwoord correct is. Bijvoorbeeld:
- Bij wiskundige problemen met deterministische resultaten moet het model het uiteindelijke antwoord in een specifiek formaat (bijvoorbeeld in een kader) weergeven, zodat de juistheid ervan op betrouwbare wijze kan worden geverifieerd met behulp van regels.
- Voor LeetCode-problemen kan op vergelijkbare wijze feedback worden gegenereerd met behulp van een compiler op basis van vooraf gedefinieerde testcases.
Formaatbeloning: Een formaatbeloning wordt ook gebruikt om het model te dwingen zijn denkproces tussen de “ " En " "labels.

Tijdens de ontwikkeling van DeepSeek-R1-Zero heeft de auteur geen gebruik gemaakt van het Outcome Neural Reward Model of het Process Neural Reward Model, omdat de auteur had ontdekt dat het Neural Reward Model in grootschalige RL-processen te maken kan krijgen met beloningsvervalsing (Reward Hacking). Bovendien vereist het opnieuw trainen van het Reward Model niet alleen extra trainingsbronnen, maar maakt het ook het hele trainingsproces ingewikkelder.

3.2.3 Trainingsjabloon

Om DeepSeek-R1-Zero te trainen, ontwierpen de auteurs eerst een eenvoudige Template om het Base-model te begeleiden bij het volgen van de ingestelde instructies. Zoals weergegeven in Tabel 1 hieronder, vereist de Template dat DeepSeek-R1-Zero een inferentieproces genereert en vervolgens het definitieve antwoord geeft.

De auteur heeft de beperkingen van dit structurele raamwerk opzettelijk beperkt om te voorkomen dat er inhoudelijke vooringenomenheid ontstaat – bijvoorbeeld door reflectief redeneren af te dwingen of specifieke probleemoplossingsstrategieën te promoten – om ervoor te zorgen dat de natuurlijke evolutie van het model nauwkeurig kan worden waargenomen tijdens het RL-proces.

3.2.4 Conclusie

Robuuste redeneercapaciteiten zonder SFT-gegevens: Door RL rechtstreeks vanuit het basismodel te starten, kan het evolutietraject van het model nauwlettend worden gevolgd zonder SFT-interferentie. Zoals figuur 3 hieronder laat zien, bleef de denktijd van DeepSeek-R1-Zero verbeteren (de groeilengte werd geleidelijk langer) gedurende het trainingsproces. Deze verbetering kwam niet voort uit externe aanpassingen, maar was een natuurlijk resultaat van de interne ontwikkeling van het model. DeepSeek-R1-Zero kreeg op natuurlijke wijze het vermogen om steeds complexere inferentietaken op te lossen, zoals het vermogen om te reflecteren, door gebruik te maken van uitgebreide testtijdberekeningen.

DeepSeek-R1-Zero ervoer een "aha-moment" tijdens de training. Zoals weergegeven in Tabel 3 hieronder, vond dit moment plaats tijdens de middelste versiefase van het model. Tijdens deze fase leerde DeepSeek-R1-Zero om meer denktijd aan problemen toe te wijzen door zijn initiële aanpak opnieuw te evalueren.

Meerderheidsstemming: De prestaties van DeepSeek-R1-Zero kunnen verder worden verbeterd door meerderheidsstemming toe te passen. Zoals bijvoorbeeld in Tabel 2 hieronder wordt getoond, springt de prestatie van 71,0% naar 86,7% nadat meerderheidsstemming is gebruikt in de AIME-benchmarktest, waarmee OpenAI-o1-0912 wordt overtroffen.

Zwakke punten: Hoewel DeepSeek-R1-Zero sterke redeneervaardigheden vertoont en autonoom onverwachte en krachtige redeneergedragingen ontwikkelt, kent het nog steeds uitdagingen zoals slechte leesbaarheid en taalvermenging.

3.3 DeepSeek-R1

Om het redeneringsproces leesbaarder te maken en te delen met de open community, verkennen de auteurs verder de DeepSeek-R1-methode, die gebruikmaakt van mensvriendelijke cold-start-gegevens voor RL. Geïnspireerd door DeepSeek-R1-Zero volgen twee natuurlijke vragen:

Kan de redeneerprestatie verder worden verbeterd of kan het convergentieproces worden versneld door een kleine hoeveelheid hoogwaardige gegevens als koude start te introduceren?
Hoe kunnen we een gebruiksvriendelijk model trainen dat niet alleen duidelijke en samenhangende CoT's genereert, maar ook sterke generalisatiemogelijkheden vertoont?

Als antwoord op deze vragen hebben we een trainingsproces ontworpen voor DeepSeek-R1. Het proces bestaat uit meerdere fasen, zoals hieronder beschreven:

Fase 1, zoals weergegeven in de onderstaande afbeelding, traint de tussenliggende toestand van DeepSeek-R1 via SFT + RL:

De volgende afbeelding toont fase 2, 3 en 4:

Fase 2: linksboven, construeer 200K niet-redenerende gegevens en 600K redenerende gegevens.
Fase 3: rechtsboven, SFT + RL trein DeepSeek-R1.
Fase 4: onderste figuur, Distill DeepSeek-R1-Distill-xx.

3.3.1 Koude start (fase 1)

In tegenstelling tot DeepSeek-R1-Zero, om de onstabiele Cold Start-fase van het basismodel aan het begin van de RL-training te voorkomen, bouwden en verzamelden de auteurs een kleine hoeveelheid Long CoT-gegevens voor DeepSeek-R1 om het model als de initiële RL Actor te verfijnen. Om deze gegevens te verzamelen, onderzochten de auteurs verschillende methoden:

Het gebruik van prompts met weinig opnamen met Long CoT-voorbeelden
Het model direct aanzetten tot het genereren van gedetailleerde antwoorden met reflectie en verificatie
Verzamelen van DeepSeek-R1-Zero-uitvoer in een voor mensen leesbaar formaat
Verfijning van de resultaten door middel van nabewerking met handmatige etikettering

De auteurs verzamelden in totaal duizenden Cold Start-gegevens, die werden gebruikt om DeepSeek-V3-Base te verfijnen als startpunt voor RL. Vergeleken met DeepSeek-R1-Zero omvatten de voordelen van Cold Start-gegevens:

Leesbaarheid: DeepSeek-R1-Zero Responses kunnen in meerdere talen worden gemengd of missen de Markdown-opmaak die wordt gebruikt om gebruikersantwoorden te markeren. Daarentegen heeft de auteur bij het maken van Cold Start-gegevens voor DeepSeek-R1 een leesbaar formaat ontworpen dat een samenvatting aan het einde van elk antwoord bevat en onleesbare antwoorden eruit filtert. Hier is het uitvoerformaat gedefinieerd als |special_token| |speciale_token|
, waarbij reasoning_process het aaneengeschakelde denken van de Query is en summary wordt gebruikt om de redeneerresultaten samen te vatten.
Potentieel: Door zorgvuldig een combinatie van a priori Cold Start-gegevenspatronen te ontwerpen, observeerden de auteurs dat de prestaties ervan beter zijn dan die van DeepSeek-R1-Zero.

3.3.2 Redenerend gestuurd RL (fase 1)

Na het finetunen van DeepSeek-V3-Base op Cold Start-gegevens, wordt hetzelfde grootschalige RL-trainingsproces als DeepSeek-R1-Zero gebruikt. Deze fase is gericht op het verbeteren van het vermogen van het model in Reasoning-intensieve taken, met name op het gebied van programmeer-, wiskunde-, wetenschaps- en logisch redeneerproblemen met duidelijke oplossingen.

Tijdens de training merkten de auteurs op dat CoT vaak last had van taalvermenging, vooral wanneer de RL-prompt meerdere talen betrof. Om het taalvermengingsprobleem te verlichten, introduceerden de auteurs een taalconsistentiebeloning in RL-training, die wordt berekend op basis van de verhouding van woorden in de doeltaal in CoT. Hoewel ablatie-experimenten aantonen dat deze uitlijningsmethode leidt tot een lichte afname van de modelprestaties, is dit beloningsmechanisme consistent met menselijke voorkeuren en verbetert het de leesbaarheid. Tot slot voegen de auteurs de nauwkeurigheid van de Reasoning-taak rechtstreeks toe aan de taalconsistentiebeloning om de uiteindelijke beloning te vormen, en implementeren RL-training op het verfijnde model totdat het convergeert naar de Reasoning-taak.

3.3.3 Constructie van 800.000 geselecteerde data (fase 2)

Terwijl RL voor Reasoning convergeert, worden SFT-gegevens verzameld met behulp van het resulterende controlepunt voor de volgende trainingsronde. In tegenstelling tot de initiële Cold Start-gegevens, die zich voornamelijk richten op Reasoning, integreert deze fase gegevens uit andere domeinen om het vermogen van het model te verbeteren op het gebied van schrijven, rollenspellen en andere algemene taken. Specifiek worden de gegevens gegenereerd en wordt het model als volgt verfijnd:

Redeneringsgegevens: Redeneringsprompts worden geselecteerd en Redeneringstrajecten worden gegenereerd door afwijzingssampling uit te voeren van het eerder genoemde RL-getrainde Checkpoint (DeepSeek-R1 Stage 1). In de vorige fase werden alleen gegevens opgenomen die konden worden geëvalueerd met behulp van op regels gebaseerde beloningen. In deze fase werd de dataset echter uitgebreid met meer gegevens, waarvan een deel werd gegenereerd met behulp van een beloningsmodel, en de echte antwoorden werden beoordeeld door de modelvoorspellingen in DeepSeek-V3 te voeren (DeepSeek V3 als Judge). Omdat de modeluitvoer soms verwarrend en moeilijk te lezen is, werden bovendien gemengde taalgedachteketens, lange paragrafen en codeblokken eruit gefilterd. Voor elke prompt werden meerdere antwoorden bemonsterd en werden alleen de juiste (Best-of-N) behouden. In totaal werden ongeveer 600.000 redeneringsgerelateerde trainingssamples verzameld.
Niet-redenerende gegevens: zoals schrijven, factoidvragen, zelfbewustzijn en vertaling, gebruikten het DeepSeek-V3-proces en hergebruikten enkele van de SFT-datasets van DeepSeek-V3. Voor sommige niet-redenerende taken wordt DeepSeek-V3 aangeroepen om potentiële CoT's te genereren voordat de vraag wordt beantwoord. Voor eenvoudige query's zoals "Hallo" wordt er echter geen gedachteketen in het antwoord gegeven. Uiteindelijk werden in totaal ongeveer 200.000 niet-redenerende trainingsmonsters verzameld.

3.3.4 SFT & RL voor alle scenario's (fase 3)

Er werden twee ronden van finetuning van in totaal ongeveer 800.000 geselecteerde monsters uitgevoerd op DeepSeek-V3-Base met behulp van de twee eerder genoemde datasets (Reasoning en non-Reasoning).

Om het model verder af te stemmen op menselijke voorkeuren, implementeerden de auteurs een tweede fase van RL, die erop gericht is om het nut en de onschadelijkheid van het model te verbeteren en tegelijkertijd de Reasoning-mogelijkheden te verfijnen. Het model werd specifiek getraind met een combinatie van beloningssignalen en diverse promptdistributies.

Voor redeneergegevens wordt de methodologie beschreven in DeepSeek-R1-Zero gevolgd, waarbij een op regels gebaseerd beloningsmechanisme wordt gebruikt om het leren van het model op het gebied van wiskunde, programmeren en logisch redeneren te begeleiden.
Voor algemene gegevens wordt het Reward-model gebruikt om menselijke voorkeuren vast te leggen in complexe en subtiele situaties. Een vergelijkbare strategie van voorkeursparen en training prompt-distributies wordt gebruikt op basis van het DeepSeek-V3-proces.
Wat betreft bruikbaarheid wordt alleen de uiteindelijke samenvatting in overweging genomen. Zo wordt gewaarborgd dat de evaluatie zich richt op de bruikbaarheid en relevantie van het antwoord voor de gebruiker, terwijl de verstoring van het onderliggende redeneringsproces tot een minimum wordt beperkt.
Wat betreft onschadelijkheid wordt de volledige respons van het model uitgebreid geëvalueerd, inclusief het redeneringsproces en de samenvatting, om mogelijke risico's, vooroordelen of schadelijke inhoud die tijdens het generatieproces kunnen ontstaan, te identificeren en te elimineren.
Uiteindelijk kan door het integreren van beloningssignalen en het diversifiëren van de datadistributie een model worden getraind dat zowel voordeel als onschadelijkheid vooropstelt en tegelijkertijd uitblinkt in redeneren.

3.3.5 Destillatie (fase 4)

Om een efficiënter klein model uit te rusten met het redeneervermogen van DeepSeek-R1, hebben de auteurs de open source-modellen Qwen en LLaMA rechtstreeks verfijnd met behulp van de 800.000 samples die zijn geselecteerd in DeepSeek-R1-Stage-1. De resultaten laten zien dat deze directe distillatiemethode het redeneervermogen van kleine modellen aanzienlijk verbetert. De basismodellen die door de auteurs worden gebruikt, zijn Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B en Llama-3.3-70B-Instruct. Llama-3.3 werd geselecteerd omdat het redeneervermogen ervan iets beter is dan Llama-3.1.

Voor het distillatiemodel gebruikt de auteur alleen SFT en neemt hij de RL-fase niet op. Hoewel de introductie van RL de prestaties van het model aanzienlijk kan verbeteren, is het hoofddoel van de auteur hier om de effectiviteit van distillatietechnologie aan te tonen, en de verkenning van de RL-fase wordt overgelaten aan vervolgonderzoek.

PS: Het is bovendien mogelijk om de uiteindelijke DeepSeek-R1 te gebruiken om bovenstaande gegevens te genereren en de 800.000 gegevens die voor de distillatie zijn gebruikt, te reconstrueren. Het gedistilleerde model kan een beter effect hebben. De prijs hiervoor is echter dat de gegevens moeten worden gereconstrueerd.

DeepSeek R1-paperinterpretatie en belangrijkste technische punten

1 Achtergrond