1 Baggrund

Under forårsfesten, DeepSeek R1 igen vakte stor opmærksomhed, og selv den DeepSeek V3 fortolkningsartikel, vi tidligere skrev, blev også gentransmitteret og diskuteret en del.

Selvom der har været mange analyser og gengivelser af DeepSeek R1, har vi her besluttet at samle nogle tilsvarende læsenoter.

Vi vil bruge tre skematiske kernediagrammer til at demonstrere modelkonstruktion og vigtige tekniske punkter, destillerer essensen af DeepSeek-R1-serien for at give en mere intuitiv forståelse af dens designideer.

Det tilsvarende papir er [2501.12948] DeepSeek-R1: Incentivisering af ræsonnement i LLM'er via forstærkningslæring

og den tilsvarende open source-model er DeepSeek-R1

2 Indledning

2.1 Almindelige ræsonnement algoritmer

Som vist i figur 2 nedenfor forklarer forfatteren de fire almindelige ræsonnementalgoritmer. Selvom de adskiller sig i specifikke detaljer, omfatter de alle to kerneoperationer:

  • Udvidelse: Generer tokens for at udvide løsningsstien.
  • Aggregation: Integrer resultaterne af hver vej for at opnå det endelige svar. Forøgelse af beregningsressourcerne i udvidelsesfasen kan normalt forbedre kvaliteten af besvarelsen i aggregeringsfasen.

Selvkonsistens (SC). Som vist i figur 2a er kerneideen med SC at generere flere forskellige output (som kan opnås ved at ændre sampling-parametre osv.), og derefter stemme på alle svarene for at vælge svaret med den højeste vinderrate. Nøgleparameteren er antallet af kandidatbesvarelser n.

Rebase-algoritme: Som vist i figur 2b nedenfor genererer Rebase også flere output, men de genereres i flere trin. Hvert trin scores ved hjælp af belønningsmodellen, og resultatet med den højeste score bruges til at fortsætte med at generere. Til sidst genereres et ræsonnementtræ med flere grene. Svaret med den højeste score (Bedst-af-N) vælges i sammenlægningsfasen.

Monte Carlo Tree Search (MCTS): Som vist i figur 2c nedenfor er MCTS en kraftfuld Reasoning-algoritme, der udvider noder ved gradvist at udtage prøver og konstruerer et løsningstræ, indtil det når en bladknude, der indeholder en kandidatløsning. Hver løsning scores gennem en belønningsmodel eller -simulering, og scoren spredes tilbage til dens forfædres noder for at opdatere deres belønningsværdier og dermed fuldføre en iteration. Nøgleparameteren er også n, og stigende n giver mulighed for dybere og bredere udforskning af potentielle løsninger.

Internaliseret kognitiv kæde (ICoT). Som vist i figur 2d nedenfor, kan de seneste LLM'er, såsom OpenAI o1 og Qwen-QWQ, internalisere ræsonnementadfærd under træning uden behov for en eksplicit ræsonneringsalgoritme. Kerneideen er at generere en CoT-sekvens, dekomponere komplekse problemer i flere underproblemer og derefter iterativt optimere disse svar ved at reflektere over tidligere output for til sidst at nå frem til en løsning.

2.2 Begrundelsestilpasningsmetoder

2.2.1 Oversigt over Best-of-N-metoden

Kort sagt er Best-of-N en tilpasningsmetode, der er meget brugt i LLM-inferens, som har til formål at sikre den høje kvalitet af de genererede resultater ved at generere flere kandidatsvar og vælge den bedste. Den består af tre hovedprocesser:

  1. Genereringsproces: For en given prompt X genererer Best-of-N-metoden N IID-svar (Y₁, Y₂, …, Yₙ), hvor N ofte omtales som "batchstørrelsen".
  2. Scoringsmekanisme: Hver genereret respons scores af en belønningsmodel for at opnå en tilsvarende score {s(Y₁), s(Y₂), …, s(Yₙ)}.
  3. Valg af det bedste svar: Til sidst vælges svaret med den højeste score blandt alle genererede svar som output, dvs. Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}.

Fordelene ved denne metode er:

  1. Det kan effektivt undgå komplekse finjusteringstrin, hvilket gør det nemmere at implementere sprogmodeller, der er blevet fortrænet eller finjusteret med instruktioner.
  2. Den er enkel at implementere, let at forstå og i det væsentlige fri for hyperparametre: Hovedhyperparameteren er N, som kan justeres dynamisk under inferens.
  3. Det er meget konkurrencedygtigt med hensyn til generationskvalitet og kan endda konkurrere med nogle komplekse eftertræningsteknikker såsom RLHF eller DPO. Forskning viser, at Best-of-N-metoden klarer sig godt på afvejningskurven mellem belønning og KL-divergens, og endda overgår andre komplekse tilpasningsstrategier.

Ulemperne ved denne metode er

  1. slutningen kræver generering af N sekvenser, hvilket kan føre til betydelige beregningsmæssige overhead. I praksis varierer en rimelig værdi for N fra 4 til 128, men for at kunne konkurrere med de mest avancerede eftertræningsmetoder kan der være behov for højere N-værdier, såsom 1000 til 60000, hvilket kan føre til næsten uacceptabelt beregningsmæssigt overhead.

Best-of-N-metoden bruges ofte til at generere datasæt af høj kvalitet til efterfølgende overvåget finjustering og spillede en nøglerolle i justeringsprocessen af LLaMA-2 og LLaMA-3.

2.2.2 OpenAI best-of-N-metoden

OpenAI foreslog først Best-of-N-sampling i [2009.01325] At lære at opsummere fra menneskelig feedback . Specifikt bruges den til at evaluere og optimere oversigtsmodellens ydeevne ved at vælge den bedste oversigt genereret fra flere modeller. Denne metode hjælper forskere med bedre at forstå forholdet mellem forskellige evalueringsmetrikker og menneskelige bedømmerpræferencer og bruges til at vejlede modeltræning og optimering.

OpenAI bruger også Best-of-N sampling (rejection sampling) i opfølgningen [2112.09332] WebGPT: Browser-assisteret besvarelse af spørgsmål med menneskelig feedback. Konkret udtages et fast antal svar (4, 16 eller 64) fra BC-modellen eller RL-modellen, og den med den højeste belønningsmodelscore vælges som en optimeringsmetode for den modstridende belønningsmodel. Denne metode kræver ikke yderligere træning, men øger den beregningsmæssige kompleksitet af inferensstadiet at opnå.

2.2.3 Google BOND-metoden

I [2407.14622] BOND: Justering af LLM'er med Best-of-N-destillation, forfatterne fra Google foreslår Best-of-N-destillation (BOND), en ny RLHF-algoritme designet til at simulere Best-of-N-samplingstrategien gennem en Distribution Matching-algoritme uden væsentligt at øge beregningsoverheaden under inferens.

Specifikt udleder forfatteren først den nøjagtige analytiske fordeling af Best-of-N sampling og giver sandsynlighedsfunktionen for Best-of-N sampling:

For det andet udtrykker forfatterne problemet som et distributionsmatchningsproblem;

bagefter foreslår forfatterne at bruge Jeffreys divergens som fordelingsmatchingsmål:

Til sidst, for at løse problemet med at vælge N, foreslår forfatterne den iterative BOND-metode, som forbedrer effektiviteten af strategien ved iterativt at destillere Best-of-N-fordelingen. De specifikke trin omfatter:

Initialiser hjælpeankerstrategien π(anker).

Udfør BOND iterativt for at destillere Best-of-N π(anker) og opdater π(anker) efter hvert trin.

2.3 Procestilsyn og resultatsupervision

Resultat og proces refererer til de to aspekter af belønningsmodellens evaluering:

  • Resultatbelønningsmodel: Evaluer, om det endelige resultat af modellens output er korrekt eller som forventet.
  • Procesbelønningsmodel: Evaluerer om modellens ræsonnement og beslutningstagningstrin i processen med at generere resultater er rimelige og effektive.

For eksempel OpenAI's Let's Verify Step by Step | OpenAI nævner også:

  • Procestilsyn (Outcome-supervised): involverer at give feedback på hvert trin i modellens Reasoning-proces. Procesovervågede belønningsmodeller (PRM) er trænet til at forudsige rigtigheden af hvert trin i løsningen.
  • Outcome-supervised: Outcome-superviseret giver feedback kun baseret på det endelige resultat af modellens begrundelse. Resultatovervågede belønningsmodeller (ORM) trænes ved at bruge det endelige svar på løsningen, og rigtigheden bestemmes ved automatisk kontrol.

2.4 Belønningshacking

I RL refererer belønningshacking til det fænomen, hvor en agent udnytter en fejl i designet af belønningsfunktionen til at maksimere den kumulative belønning på en måde, der ikke opfylder designerens oprindelige intention. Selvom denne adfærd teknisk set opfylder belønningsfunktionens optimeringsmål, afviger den faktiske effekt fra det forventede opgavemål og kan endda føre til negative konsekvenser.

Nøglepunktsanalyse:

  1. Definition og manifestation:
    1. Agenten finder en fejl i belønningsfunktionen og opnår en høj belønning ved at tage "genveje" i stedet for rent faktisk at løse problemet.
    2. For eksempel slukker en rengøringsrobot lyset for at få rummet til at "se" rent ud i stedet for rent faktisk at gøre det rent; en spilagent scorer gentagne gange point uden at fuldføre niveaumålet; at vælge ikke at sænke farten for at reducere antallet af bremsetider, hvilket udgør en sikkerhedsrisiko; generere meningsløst indhold, der matcher søgeord for at narre høje scores.
  2. Grundårsager:
    1. Ufuldstændig design af belønningsfunktion: Oversimplificering eller manglende dækning af kantsager.
    2. Forskydning mellem mål og belønninger: belønningsfunktionen afspejler ikke fuldt ud det virkelige mål, hvilket får agenten til at optimere til det "forkerte" mål.
  3. Løsninger:
    1. Forbedre belønningsdesign: indfør multidimensionelle belønninger (f.eks. sikkerhed, effektivitet osv.) eller juster belønningsfunktionen dynamisk.
    2. Modstridende verifikation: opdage, om agenten "snyder" gennem yderligere mekanismer.
    3. Manuel intervention og begrænsninger: sæt adfærdsmæssige grænser (f.eks. sikkerhedslag) eller manuel feedback (f.eks. RLHF).
    4. Invers forstærkningslæring (IRL): lær en mere realistisk belønningsfunktion fra ekspertdemonstrationer.
    5. Hierarkisk forstærkende læring: nedbryde opgaven i delmål for at reducere risikoen for lokal optimering.
  4. Tilknytning til overfitting:
    1. Begge udviser en afbrydelse mellem træningsmålinger og præstationer i den virkelige verden, men Reward Hacking lægger mere vægt på designfejlene i belønningsfunktionen end på modellens generaliseringsevne.
  5. Oversigt:
    1. Reward Hacking afslører udfordringen med måljustering i RL. Løsning af dette problem kræver en kombination af design af mere robuste belønningsmekanismer, indførelse af eksterne begrænsninger og inkorporering af menneskelig forhåndsviden for at sikre, at agentens adfærd er både effektiv og i overensstemmelse med designhensigten.

3 DeepSeek-R1-Nul & DeepSeek-R1

3.1 Oversigt

Tidligere forskning har i vid udstrækning været afhængig af store mængder overvågede data for at forbedre modellens ydeevne. Denne undersøgelse viser, at selv uden SFT som koldstart, kan storskala RL forbedre modellens ræsonnementevne betydeligt. Derudover kan indførelsen af en lille mængde koldstartdata yderligere optimere ydeevnen. Følgende er modellerne relateret til DeepSeek-R1:

  1. DeepSeek-R1-Zero: Denne model anvender RL direkte på basismodellen uden nogen SFT-data.
  2. DeepSeek-R1: Denne model anvender RL startende fra et kontrolpunkt, der er blevet finjusteret med tusindvis af lange CoT-prøver.
  3. DeepSeek-R1-Distill-xx: Destillerer ræsonneringsevnen af DeepSeek-R1 til en lille tæt model.

3.2 DeepSeek-R1-Nul

Følgende figur viser hovedpunkterne i træningen af DeepSeek-R1-Zero-modellen:

PS: Det skal bemærkes, at papiret ikke giver meget information om de data, der bruges i RL-processen af DeepSeek-R1-Zero. Der er dog en vis forklaring på datagenereringsprocessen og -mængden i den efterfølgende R1-træning, selvom den ikke er særlig specifik.

3.2.1 RL-algoritme

For at reducere uddannelsesomkostningerne ved RL bruger forfatterne DeepSeeks egen GRPO (Group Relative Policy Optimization) metode, [2402.03300] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. Denne metode opgiver Critic-modellen, som normalt er sammenlignelig i størrelse med Policy-modellen, og estimerer i stedet basislinjen ved hjælp af en gruppescore. Den tilsvarende forklaring er vist i figuren nedenfor (billede fra Twitter):

3.2.2 Belønningsmodellering

Belønninger er kilden til træningssignaler og bestemmer optimeringsretningen for RL. For at træne DeepSeek-R1-Zero brugte forfatterne et regelbaseret belønningssystem, som hovedsageligt består af to typer belønninger:

  • Nøjagtighedsbelønning: Vurder om svaret er korrekt. For eksempel:
    • I matematiske problemer med deterministiske resultater skal modellen give det endelige svar i et bestemt format (såsom inde i en boks), så dets rigtighed kan verificeres pålideligt af regler.
    • Tilsvarende, for LeetCode-problemer, kan feedback genereres ved hjælp af en compiler baseret på foruddefinerede testcases.
  • Formatbelønning: En formatbelønning bruges også til at tvinge modellen til at placere sin tankeproces mellem " " og " ” tags.

Under udviklingen af DeepSeek-R1-Zero brugte forfatteren ikke Outcome Neural Reward Model eller Process Neural Reward Model, fordi forfatteren fandt ud af, at Neural Reward Model kan støde på belønningsspoofing (Reward Hacking) i storstilede RL-processer; derudover kræver genoptræning af belønningsmodellen ikke kun yderligere træningsressourcer, men komplicerer også hele træningsprocessen.

3.2.3 Træningsskabelon

For at træne DeepSeek-R1-Zero designede forfatterne først en simpel skabelon til at guide basismodellen til at følge instruktionerne. Som vist i tabel 1 nedenfor, kræver skabelonen DeepSeek-R1-Zero for at generere en slutningsproces og derefter give det endelige svar.

Forfatteren begrænsede bevidst begrænsningerne til denne strukturelle ramme for at undgå at indføre enhver indholdsbias – for eksempel at fremtvinge reflekterende ræsonnementer eller fremme specifikke problemløsningsstrategier – for at sikre, at den naturlige udvikling af modellen kan observeres nøjagtigt under RL-processen.

3.2.4 Konklusion

Robuste ræsonnementer uden SFT-data: Ved at starte RL direkte fra basismodellen kan modellens udviklingsbane overvåges nøje uden SFT-interferens. Som figur 3 nedenfor viser, fortsatte DeepSeek-R1-Zeros tænketid med at forbedres (vækstlængden blev gradvist længere) gennem hele træningsprocessen. Denne forbedring kom ikke fra eksterne tilpasninger, men var et naturligt resultat af modellens interne udvikling. DeepSeek-R1-Zero fik naturligvis evnen til at løse stadig mere komplekse slutningsopgaver, såsom evnen til at reflektere, ved at bruge udvidede testtidsberegninger.

DeepSeek-R1-Zero oplevede et "aha-øjeblik" under træningen. Som vist i tabel 3 nedenfor opstod dette øjeblik under modellens mellemste versionsfase. I løbet af denne fase lærte DeepSeek-R1-Zero at allokere mere tænketid til problemer ved at revurdere sin indledende tilgang.

Flertalsafstemning: DeepSeek-R1-Zeros præstation kan forbedres yderligere ved at anvende flertalsafstemning. For eksempel, som vist i tabel 2 nedenfor, efter at flertalsafstemning er brugt i AIME benchmark-testen, springer dens ydeevne fra 71.0% til 86.7%, hvilket overgår OpenAI-o1-0912.

Svagheder: Mens DeepSeek-R1-Zero demonstrerer stærke ræsonnementevner og selvstændigt udvikler uventet og kraftfuld ræsonnementadfærd, står den stadig over for udfordringer såsom dårlig læsbarhed og sprogblanding.

3.3 DeepSeek-R1

For at gøre Reasoning-processen mere læsbar og dele den med det åbne fællesskab, udforsker forfatterne yderligere DeepSeek-R1-metoden, som bruger menneskevenlige koldstartsdata til RL. Inspireret af DeepSeek-R1-Zero følger to naturlige spørgsmål:

  1. Kan ræsonnementets ydeevne forbedres yderligere eller konvergensprocessen accelereres ved at introducere en lille mængde data af høj kvalitet som en kold start?
  2. Hvordan kan vi træne en brugervenlig model, der ikke kun genererer klare og sammenhængende CoT'er, men også demonstrerer stærke generaliseringsevner?

Som svar på disse spørgsmål har vi designet en træningsproces for DeepSeek-R1. Processen består af flere faser, som beskrevet nedenfor:

Trin-1, som vist i figuren nedenfor, træner den mellemliggende tilstand af DeepSeek-R1 gennem SFT + RL:

Følgende figur viser trin 2, 3 og 4:

  • Trin 2: øverst til venstre, konstruer 200K ikke-Ræsonneringsdata og 600K Reasoning data.
  • Etape-3: øverst til højre, SFT + RL tog DeepSeek-R1.
  • Trin-4: lavere tal, Destiller DeepSeek-R1-Distill-xx.

3.3.1 Koldstart (trin 1)

I modsætning til DeepSeek-R1-Zero byggede og indsamlede forfatterne en lille mængde Long CoT-data til DeepSeek-R1 for at forhindre den ustabile koldstartfase af basismodellen i begyndelsen af RL-træning for at finjustere modellen som den indledende RL-aktør. For at indsamle disse data udforskede forfatterne forskellige metoder:

  • Brug af få-skuds-prompter med lange CoT-eksempler
  • Får modellen direkte til at generere detaljerede svar med refleksion og verifikation
  • Indsamling af DeepSeek-R1-Nul output i et menneskeligt læsbart format
  • Forfining af resultaterne gennem efterbehandling med manuel mærkning

Forfatterne indsamlede i alt tusindvis af Cold Start-data, som blev brugt til at finjustere DeepSeek-V3-Base som udgangspunkt for RL. Sammenlignet med DeepSeek-R1-Zero omfatter fordelene ved Cold Start-data

  • Læsbarhed: DeepSeek-R1-Zero Responses kan blandes på flere sprog eller mangler den Markdown-formatering, der bruges til at fremhæve brugernes svar. I modsætning hertil, da forfatteren oprettede koldstartsdata til DeepSeek-R1, designede forfatteren et læsbart format, der inkluderer en oversigt i slutningen af hvert svar og filtrerer ulæselige svar fra. Her er outputformatet defineret som |special_token| |special_token| , hvor ræsonnement_proces er den kædede tænkning af forespørgslen, og resumé bruges til at opsummere ræsonnementets resultater.
  • Potentiale: Ved omhyggeligt at designe en kombination af human-a priori Cold Start-datamønstre, observerede forfatterne, at dens ydeevne er overlegen i forhold til DeepSeek-R1-Zero.

3.3.2 Fornuftsdrevet RL (trin 1)

Efter finjustering af DeepSeek-V3-Base på koldstartsdata anvendes den samme storstilede RL-træningsproces som DeepSeek-R1-Zero. Denne fase har til formål at forbedre modellens evne til at ræsonnere-intensive opgaver, især på programmering, matematik, naturvidenskab og logiske ræsonnement problemer med klare løsninger.

Under træningen observerede forfatterne, at CoT ofte led af sprogblanding, især når RL-prompten involverede flere sprog. For at afhjælpe sprogblandingsproblemet indførte forfatterne en sprogkonsistensbelønning i RL-træning, som beregnes ud fra andelen af ord på målsproget i CoT. Selvom ablationseksperimenter viser, at denne tilpasningsmetode fører til et lille fald i modelydelsen, er denne belønningsmekanisme i overensstemmelse med menneskelige præferencer og forbedrer læsbarheden. Endelig tilføjer forfatterne direkte nøjagtigheden af Reasoning-opgaven til sprogkonsistensbelønningen for at danne den endelige belønning, og implementerer RL-træning på den finjusterede model, indtil den konvergerer med Reasoning-opgaven.

3.3.3 Konstruktion af 800.000 udvalgte data (Stage-2)

Mens RL for Reasoning konvergerer, indsamles SFT-data ved hjælp af det resulterende kontrolpunkt for næste træningsrunde. I modsætning til de indledende Cold Start-data, som hovedsageligt fokuserer på Reasoning, inkorporerer denne fase data fra andre domæner for at forbedre modellens evne til at skrive, rollespil og andre generelle opgaver. Specifikt genereres dataene, og modellen finjusteres som følger:

  • Begrundelsesdata: Begrundelsesprompter vælges, og ræsonnementbaner genereres ved at udføre afvisningsprøvetagning fra det førnævnte RL-trænede Checkpoint (DeepSeek-R1 Stage 1). I det foregående trin blev kun data, der kunne evalueres ved hjælp af regelbaserede belønninger, inkluderet. Men på dette stadium blev datasættet udvidet ved at inkludere flere data, hvoraf nogle blev genereret ved hjælp af en belønningsmodel, og de rigtige svar blev bedømt ved at indlæse modelforudsigelserne i DeepSeek-V3 (DeepSeek V3 som dommer). Fordi modeloutputtet til tider er forvirrende og svært at læse, blev tankekæder på blandede sprog, lange afsnit og kodeblokke filtreret fra. For hver prompt blev der udtaget flere svar, og kun de korrekte (Best-of-N) blev bibeholdt. I alt blev der indsamlet omkring 600.000 ræsonnement-relaterede træningsprøver.
  • Ikke-ræsonnerende data: såsom skrivning, faktaspørgsmål, selvbevidsthed og oversættelse, brugte DeepSeek-V3-processen og genbrugte nogle af DeepSeek-V3's SFT-datasæt. For nogle opgaver uden begrundelse kaldes DeepSeek-V3 for at generere potentielle CoT'er, før spørgsmålet besvares. Men for simple forespørgsler såsom "Hej", er der ikke angivet nogen tankekæde i svaret. Til sidst blev der indsamlet i alt omkring 200.000 non-Reasoning træningsprøver.

3.3.4 SFT & RL for alle scenarier (trin 3)

To runder af finjustering i alt omkring 800.000 udvalgte prøver blev udført på DeepSeek-V3-Base ved hjælp af de to førnævnte datasæt (Reasoning og non-Reasoning).

For yderligere at afstemme modellen med menneskelige præferencer implementerede forfatterne en anden fase af RL, som har til formål at forbedre modellens anvendelighed og harmløshed og samtidig forfine dens Reasoning-kapaciteter. Specifikt blev modellen trænet med en kombination af belønningssignaler og forskellige promptfordelinger.

  • For Reasoning-data følges metoden beskrevet i DeepSeek-R1-Zero ved at bruge en regelbaseret belønningsmekanisme til at guide modellens læring inden for matematik, programmering og logisk ræsonnement.
  • Til generelle data bruges belønningsmodellen til at fange menneskelige præferencer i komplekse og subtile situationer. En lignende strategi med præferencepar og træningspromptfordelinger bruges baseret på DeepSeek-V3-processen.
  • Med hensyn til anvendelighed tages kun den endelige opsummering i betragtning, hvilket sikrer, at evalueringen fokuserer på det praktiske og relevans af svaret for brugeren, mens interferens med den underliggende ræsonnementproces minimeres.
  • Hvad angår harmløshed, evalueres hele modellens svar omfattende, inklusive begrundelsesprocessen og resuméet, for at identificere og eliminere eventuelle potentielle risici, skævheder eller skadeligt indhold, der kan opstå under genereringsprocessen.
  • I sidste ende, ved at integrere belønningssignaler og diversificere datadistribution, kan en model, der prioriterer både fordele og harmløshed, samtidig med at den udmærker sig i Reasoning trænes.

3.3.5 Destillation (trin 4)

For at udstyre en mere effektiv lille model med ræsonneringsevnen fra DeepSeek-R1, finjusterede forfatterne direkte open source-modellerne Qwen og LLaMA ved hjælp af de 800.000 samples udvalgt i DeepSeek-R1-Stage-1. Resultaterne viser, at denne direkte destillationsmetode markant forbedrer små modellers ræsonnementevne. De grundlæggende modeller brugt af forfatterne omfatter Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B og Llama-3.3-70B-Instruct. Llama-3.3 blev valgt, fordi dens ræsonnement er en smule bedre end Llama-3.1.

For destillationsmodellen bruger forfatteren kun SFT og inkluderer ikke RL-stadiet. Selvom introduktionen af RL i høj grad kan forbedre modellens ydeevne, er forfatterens hovedformål her at demonstrere effektiviteten af destillationsteknologi, og udforskningen af RL-stadiet er overladt til efterfølgende forskning.

PS: Derudover er det faktisk muligt at bruge den endelige DeepSeek-R1 til at generere ovenstående data og rekonstruere de 800.000 data, der bruges til destillation, og den destillerede model kan have en bedre effekt; prisen er dog, at dataene skal rekonstrueres.

Lignende indlæg

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *