DeepSeek R1 papperstolkning & viktiga tekniska punkter

1 Bakgrund

Under vårfesten, DeepSeek R1 återigen väckte stor uppmärksamhet, och även tolkningsartikeln DeepSeek V3 vi tidigare skrev återsändes också och diskuterades mycket.

Även om det har gjorts många analyser och reproduktioner av DeepSeek R1, har vi här beslutat att sammanställa några motsvarande läsanteckningar.

Vi kommer att använda tre schematiska kärndiagram för att demonstrera modellkonstruktion och viktiga tekniska punkter, destillerar essensen av DeepSeek-R1-serien för att ge en mer intuitiv förståelse av dess designidéer.

Motsvarande papper är [2501.12948] DeepSeek-R1: Incentiverande resonemangsförmåga i LLM:er via förstärkningsinlärning

och motsvarande öppen källkodsmodell är DeepSeek-R1

2 Inledning

2.1 Vanliga resonemangsalgoritmer

Som visas i figur 2 nedan förklarar författaren de fyra vanliga resonemangsalgoritmerna. Även om de skiljer sig åt i specifika detaljer, inkluderar de alla två kärnoperationer:

Expansion: generera tokens för att utöka lösningsvägen.
Aggregation: integrera resultaten för varje väg för att få det slutliga svaret. Att öka beräkningsresurserna i expansionsfasen kan vanligtvis förbättra kvaliteten på svaret i aggregeringsfasen.

Självständighet (SC). Som visas i figur 2a är kärnidén med SC att generera flera olika utdata (vilket kan uppnås genom att ändra samplingsparametrar, etc.), och sedan rösta på alla svar för att välja svaret med den högsta vinstgraden. Nyckelparametern är antalet kandidatsvar n.

Rebase-algoritm: Som visas i figur 2b nedan genererar Rebase också flera utgångar, men de genereras i flera steg. Varje steg poängsätts med hjälp av belöningsmodellen, och resultatet med högst poäng används för att fortsätta generera. Slutligen genereras ett resonemangsträd med flera grenar. Svaret med högst poäng (Bäst-av-N) väljs i aggregeringsstadiet.

Monte Carlo Tree Search (MCTS): Som visas i figur 2c nedan är MCTS en kraftfull resoneringsalgoritm som expanderar noder genom att sampla gradvis och konstruerar ett lösningsträd tills det når en lövnod som innehåller en lösningskandidat. Varje lösning poängsätts genom en belöningsmodell eller simulering, och poängen sprids tillbaka till sina förfädersnoder för att uppdatera deras belöningsvärden och på så sätt slutföra en iteration. Nyckelparametern är också n, och ökande n möjliggör djupare och bredare utforskning av potentiella lösningar.

Internaliserad kognitiv kedja (ICoT). Som visas i figur 2d nedan kan de senaste LLM:erna, såsom OpenAI o1 och Qwen-QWQ, internalisera resonemangsbeteende under träning utan behov av en explicit resonemangsalgoritm. Kärnidén är att generera en CoT-sekvens, dekomponera komplexa problem i flera delproblem och sedan iterativt optimera dessa svar genom att reflektera över tidigare utdata för att så småningom komma fram till en lösning.

2.2 Resonemangsanpassningsmetoder

2.2.1 Best-of-N-metoden översikt

Kort sagt, Best-of-N är en anpassningsmetod som används ofta i LLM-inferens, som syftar till att säkerställa den höga kvaliteten på de genererade resultaten genom att generera flera kandidatsvar och välja den bästa. Den består av tre huvudprocesser:

Genereringsprocess: För en given prompt X genererar Best-of-N-metoden N IID-svar (Y₁, Y₂, …, Yₙ), där N ofta hänvisas till som "batchstorleken".
Poängmekanism: Varje genererat svar poängsätts av en belöningsmodell för att erhålla motsvarande poäng {s(Y₁), s(Y₂), …, s(Yₙ)}.
Välja det bästa svaret: Slutligen väljs svaret med högst poäng bland alla genererade svar som utdata, dvs Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}.

Fördelarna med denna metod är:

Det kan effektivt undvika komplexa finjusteringssteg, vilket gör det lättare att distribuera språkmodeller som har förtränats eller finjusterats med instruktioner.
Den är enkel att implementera, lätt att förstå och i princip fri från hyperparametrar: huvudhyperparametern är N, som kan justeras dynamiskt under slutledning.
Det är mycket konkurrenskraftigt när det gäller generationskvalitet och kan till och med konkurrera med vissa komplexa efterträningstekniker som RLHF eller DPO. Forskning visar att Best-of-N-metoden fungerar bra på avvägningskurvan mellan belöning och KL-divergens, till och med överträffar andra komplexa inriktningsstrategier.

Nackdelarna med denna metod är

slutsatsen kräver generering av N sekvenser, vilket kan leda till betydande beräkningsoverhead. I praktiken sträcker sig ett rimligt värde för N från 4 till 128, men för att konkurrera med de mest avancerade metoderna efter träning kan det krävas högre N-värden, såsom 1000 till 60000, vilket kan leda till nästan oacceptabla beräkningskostnader.

Best-of-N-metoden används ofta för att generera datauppsättningar av hög kvalitet för efterföljande övervakad finjustering och spelade en nyckelroll i anpassningsprocessen av LLaMA-2 och LLaMA-3.

2.2.2 OpenAI best-of-N-metoden

OpenAI föreslog först Best-of-N-sampling i [2009.01325] Att lära sig att sammanfatta från mänsklig feedback . Specifikt används den för att utvärdera och optimera prestandan för sammanfattningsmodellen genom att välja den bästa sammanfattningen som genereras från flera modeller. Denna metod hjälper forskare att bättre förstå sambandet mellan olika utvärderingsmått och mänskliga bedömares preferenser, och används för att vägleda modellträning och optimering.

OpenAI använder även Best-of-N sampling (rejection sampling) i uppföljningen [2112.09332] WebGPT: Webbläsarassisterat frågesvar med mänsklig feedback. Specifikt samplas ett fast antal svar (4, 16 eller 64) från BC-modellen eller RL-modellen, och den med högst belöningsmodellpoäng väljs som en optimeringsmetod för den kontradiktoriska belöningsmodellen. Denna metod kräver ingen ytterligare träning, men ökar beräkningskomplexiteten för slutledningsstadiet att uppnå.

2.2.3 Google BOND-metod

I [2407.14622] BOND: Justerar LLM med Best-of-N-destillation, författarna från Google föreslår Best-of-N-destillation (BOND), en ny RLHF-algoritm utformad för att simulera Best-of-N-samplingsstrategin genom en Distribution Matching-algoritm utan att väsentligt öka beräkningsoverheaden under inferens.

Specifikt härleder författaren först den exakta analytiska fördelningen av Best-of-N-provtagning och ger sannolikhetsfunktionen för Best-of-N-provtagning:

För det andra uttrycker författarna problemet som ett distributionsmatchningsproblem;

efteråt föreslår författarna att använda Jeffreys divergens som fördelningsmatchningsmål:

Slutligen, för att lösa problemet med att välja N, föreslår författarna den iterativa BOND-metoden, som förbättrar strategins prestanda genom att iterativt destillera Best-of-N-distributionen. De specifika stegen inkluderar:

Initiera hjälpankarstrategin π(ankare).

Utför BOND iterativt för att destillera Best-of-N π(ankare) och uppdatera π(ankare) efter varje steg.

2.3 Processhandledning och resultathandledning

Resultat och process hänvisar till de två aspekterna av belöningsmodellens utvärdering:

Belöningsmodell för resultat: Utvärdera om det slutliga resultatet av modellens utdata är korrekt eller som förväntat.
Processbelöningsmodell: Utvärderar om modellens resonemang och beslutsfattande steg i processen att generera resultat är rimliga och effektiva.

Till exempel, OpenAIs Let's Verify Step by Step | OpenAI nämner också:

Processövervakning (Utfallsövervakad): innebär att ge feedback på varje steg i modellens Reasoning-process. Processövervakade belöningsmodeller (PRM) är tränade för att förutsäga riktigheten av varje steg i lösningen.
Resultatövervakad: Resultatövervakad ger feedback endast baserat på det slutliga resultatet av modellens resonemang. Resultatövervakade belöningsmodeller (ORM) tränas med hjälp av lösningens slutliga svar, och korrektheten bestäms genom automatisk kontroll.

2.4 Belöningshackning

I RL avser belöningshackning det fenomen där en agent utnyttjar ett fel i designen av belöningsfunktionen för att maximera den kumulativa belöningen på ett sätt som inte uppfyller designerns ursprungliga avsikt. Även om detta beteende tekniskt sett uppfyller belöningsfunktionens optimeringsmål, avviker den faktiska effekten från det förväntade uppgiftsmålet och kan till och med leda till negativa konsekvenser.

Nyckelpunktsanalys:

Definition och manifestation:
1. Agenten hittar ett fel i belöningsfunktionen och får en hög belöning genom att ta "genvägar" istället för att faktiskt lösa problemet.
2. Till exempel, en städrobot släcker lamporna för att få rummet att "se" rent ut, snarare än att faktiskt städa det; en spelagent får poäng upprepade gånger utan att fullborda nivåmålet; välja att inte sakta ner för att minska antalet bromstider, vilket utgör en säkerhetsrisk; generera meningslöst innehåll som matchar sökord för att lura höga poäng.
Grundorsaker:
1. Ofullständig design av belöningsfunktion: överförenkling eller misslyckande med att täcka kantfodral.
2. Felanpassning mellan mål och belöningar: belöningsfunktionen misslyckas med att helt återspegla det verkliga målet, vilket gör att agenten optimerar för "fel" mål.
Lösningar:
1. Förbättra belöningsdesign: introducera flerdimensionella belöningar (t.ex. säkerhet, effektivitet, etc.) eller justera belöningsfunktionen dynamiskt.
2. Motstridig verifiering: upptäck om agenten "fuskar" genom ytterligare mekanismer.
3. Manuell intervention och begränsningar: sätt beteendegränser (t.ex. säkerhetslager) eller manuell återkoppling (t.ex. RLHF).
4. Invers förstärkningsinlärning (IRL): lär dig en mer realistisk belöningsfunktion från expertdemonstrationer.
5. Hierarkisk förstärkningsinlärning: dekomponera uppgiften i delmål för att minska risken för lokal optimering.
Samband med övermontering:
1. Båda uppvisar ett avbrott mellan träningsmått och verkliga prestanda, men Reward Hacking lägger mer vikt vid designbristerna i belöningsfunktionen än på modellens generaliseringsförmåga.
Sammanfattning:
1. Reward Hacking avslöjar utmaningen med målanpassning i RL. Att lösa detta problem kräver en kombination av att designa mer robusta belöningsmekanismer, införa externa begränsningar och införliva mänskliga förkunskaper för att säkerställa att agentens beteende är både effektivt och i linje med designavsikten.

3 DeepSeek-R1-Zero & DeepSeek-R1

3.1 Översikt

Tidigare forskning har till stor del förlitat sig på stora mängder övervakad data för att förbättra modellens prestanda. Denna studie visar att även utan SFT som kallstart kan storskalig RL avsevärt förbättra modellens resonemangsförmåga. Dessutom kan införandet av en liten mängd kallstartsdata optimera prestandan ytterligare. Följande är modellerna relaterade till DeepSeek-R1:

DeepSeek-R1-Zero: Denna modell tillämpar RL direkt på basmodellen utan några SFT-data.
DeepSeek-R1: Denna modell tillämpar RL med början från en kontrollpunkt som har finjusterats med tusentals långa CoT-prover.
DeepSeek-R1-Distill-xx: Destillerar resoneringsförmågan hos DeepSeek-R1 till en liten tät modell.

3.2 DeepSeek-R1-Zero

Följande figur visar nyckelpunkterna i träningen av DeepSeek-R1-Zero-modellen:

PS: Det bör noteras att tidningen inte ger mycket information om data som används i RL-processen för DeepSeek-R1-Zero. Det finns dock en viss förklaring av datagenereringsprocessen och kvantiteten i efterföljande R1-utbildning, även om den inte är särskilt specifik.

3.2.1 RL-algoritm

För att minska utbildningskostnaden för RL använder författarna DeepSeek:s egen GRPO (Group Relative Policy Optimization) metod, [2402.03300] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. Denna metod överger Critic-modellen, som vanligtvis är jämförbar i storlek med Policy-modellen, och uppskattar istället baslinjen med hjälp av en grupppoäng. Motsvarande förklaring visas i figuren nedan (bild från Twitter):

3.2.2 Belöningsmodellering

Belöningar är källan till träningssignaler och bestämmer optimeringsriktningen för RL. För att träna DeepSeek-R1-Zero använde författarna ett regelbaserat belöningssystem, som huvudsakligen består av två typer av belöningar:

Exakthetsbelöning: Utvärdera om svaret är korrekt. Till exempel:
- I matematiska problem med deterministiska resultat måste modellen ge det slutliga svaret i ett specifikt format (som inuti en ruta) så att dess riktighet kan verifieras tillförlitligt med regler.
- På liknande sätt, för LeetCode-problem, kan feedback genereras med hjälp av en kompilator baserad på fördefinierade testfall.
Formatbelöning: En formatbelöning används också för att tvinga modellen att placera sin tankeprocess mellan " " och " "-taggar.

Under utvecklingen av DeepSeek-R1-Zero använde författaren inte Outcome Neural Reward Model eller Process Neural Reward Model eftersom författaren fann att Neural Reward Model kan stöta på belöningsspoofing (Reward Hacking) i storskaliga RL-processer; dessutom kräver omskolning av belöningsmodellen inte bara ytterligare utbildningsresurser, utan komplicerar också hela utbildningsprocessen.

3.2.3 Utbildningsmall

För att träna DeepSeek-R1-Zero designade författarna först en enkel mall för att vägleda basmodellen att följa instruktionerna. Som visas i Tabell 1 nedan kräver mallen DeepSeek-R1-Zero för att generera en slutledningsprocess och sedan ge det slutliga svaret.

Författaren begränsade medvetet begränsningarna till detta strukturella ramverk för att undvika att införa någon innehållsfördom – till exempel att tvinga fram reflekterande resonemang eller främja specifika problemlösningsstrategier – för att säkerställa att den naturliga utvecklingen av modellen kan observeras korrekt under RL-processen.

3.2.4 Slutsats

Robusta resonemangsmöjligheter utan SFT-data: Genom att starta RL direkt från basmodellen kan modellens utvecklingsbana övervakas noggrant utan SFT-interferens. Som figur 3 nedan visar, fortsatte DeepSeek-R1-Zeros tanketid att förbättras (tillväxtlängden blev gradvis längre) under hela träningsprocessen. Denna förbättring kom inte från externa justeringar, utan var ett naturligt resultat av modellens interna utveckling. DeepSeek-R1-Zero fick naturligtvis förmågan att lösa allt mer komplexa slutledningsuppgifter, såsom förmågan att reflektera, genom att använda utökade testtidsberäkningar.

DeepSeek-R1-Zero upplevde ett "aha-ögonblick" under träningen. Som visas i tabell 3 nedan inträffade detta ögonblick under modellens mellanversionsstadium. Under detta skede lärde sig DeepSeek-R1-Zero att tilldela mer tanketid till problem genom att omvärdera sin initiala metod.

Majoritetsomröstning: DeepSeek-R1-Zeros prestanda kan förbättras ytterligare genom att tillämpa majoritetsomröstning. Till exempel, som visas i tabell 2 nedan, efter att majoritetsröstning har använts i AIME benchmark-testet, hoppar dess prestanda från 71.0% till 86.7%, vilket överträffar OpenAI-o1-0912.

Svagheter: Medan DeepSeek-R1-Zero uppvisar starka resoneringsförmåga och självständigt utvecklar oväntade och kraftfulla resoneringsbeteenden, står den fortfarande inför utmaningar som dålig läsbarhet och språkblandning.

3.3 DeepSeek-R1

För att göra Reasoning-processen mer läsbar och dela den med det öppna samhället, utforskar författarna ytterligare DeepSeek-R1-metoden, som använder människovänliga kallstartsdata för RL. Inspirerad av DeepSeek-R1-Zero följer två naturliga frågor:

Kan resoneringsprestandan förbättras ytterligare eller konvergensprocessen påskyndas genom att introducera en liten mängd högkvalitativ data som en kallstart?
Hur kan vi träna en användarvänlig modell som inte bara genererar tydliga och sammanhängande CoTs, utan också visar starka generaliseringsförmåga?

Som svar på dessa frågor utformade vi en utbildningsprocess för DeepSeek-R1. Processen består av flera steg, som beskrivs nedan:

Steg-1, som visas i figuren nedan, tränar mellantillståndet för DeepSeek-R1 genom SFT + RL:

Följande figur visar steg 2, 3 och 4:

Steg-2: uppe till vänster, konstruera 200K icke-resonerande data och 600K reasoningdata.
Steg-3: övre högra, SFT + RL tåg DeepSeek-R1.
Steg-4: lägre siffra, Destiller DeepSeek-R1-Distill-xx.

3.3.1 Kallstart (steg 1)

Till skillnad från DeepSeek-R1-Zero, för att förhindra den instabila kallstartfasen av basmodellen i början av RL-träning, byggde och samlade författarna en liten mängd Long CoT-data för DeepSeek-R1 för att finjustera modellen som den initiala RL-aktören. För att samla in dessa data utforskade författarna olika metoder:

Använder få-shot-meddelanden med långa CoT-exempel
Får modellen direkt att generera detaljerade svar med reflektion och verifiering
Samlar DeepSeek-R1-Zero-utdata i ett läsbart format
Förfina resultatet genom efterbearbetning med manuell märkning

Författarna samlade in totalt tusentals Cold Start-data, som användes för att finjustera DeepSeek-V3-Base som utgångspunkt för RL. Jämfört med DeepSeek-R1-Zero inkluderar fördelarna med Cold Start-data

Läsbarhet: DeepSeek-R1-Zero Svar kan blandas på flera språk eller saknar Markdown-formateringen som används för att markera användarsvar. När man däremot skapade Cold Start-data för DeepSeek-R1 designade författaren ett läsbart format som inkluderar en sammanfattning i slutet av varje svar och filtrerar bort oläsbara svar. Här definieras utdataformatet som |special_token| |special_token|
, där reasoning_process är det kedjade tänkandet i frågan och summering används för att sammanfatta resonemangets resultat.
Potential: Genom att noggrant designa en kombination av human-a priori Cold Start-datamönster, observerade författarna att dess prestanda är överlägsen DeepSeek-R1-Zero.

3.3.2 Resonemangsdriven RL (steg 1)

Efter finjustering av DeepSeek-V3-Base på kallstartsdata används samma storskaliga RL-träningsprocess som DeepSeek-R1-Zero. Detta steg syftar till att förbättra modellens förmåga i Resoneringsintensiva uppgifter, särskilt på programmerings-, matematik-, naturvetenskapliga och logiska resonemangsproblem med tydliga lösningar.

Under utbildningen observerade författarna att CoT ofta led av språkblandning, särskilt när RL-prompten involverade flera språk. För att lindra språkblandningsproblemet införde författarna en språkkonsistensbelöning i RL-träning, som beräknas utifrån andelen ord på målspråket i CoT. Även om ablationsexperiment visar att denna anpassningsmetod leder till en liten minskning av modellens prestanda, är denna belöningsmekanism förenlig med mänskliga preferenser och förbättrar läsbarheten. Slutligen lägger författarna direkt till riktigheten av uppgiften Reasoning till språkkonsistensbelöningen för att bilda den slutliga belöningen, och implementerar RL-träning på den finjusterade modellen tills den konvergerar med Reasoning-uppgiften.

3.3.3 Konstruktion av 800 000 utvalda data (steg 2)

Medan RL for Reasoning konvergerar, samlas SFT-data in med hjälp av den resulterande kontrollpunkten för nästa träningsomgång. Till skillnad från de initiala Cold Start-data, som huvudsakligen fokuserar på Reasoning, innehåller detta steg data från andra domäner för att förbättra modellens förmåga att skriva, rollspel och andra allmänna uppgifter. Specifikt genereras data och modellen finjusteras enligt följande:

Resoneringsdata: Resoneringsuppmaningar väljs och resoneringsbanor genereras genom att utföra avvisningssampling från den tidigare nämnda RL-tränade Checkpoint (DeepSeek-R1 Steg 1). I det föregående steget inkluderades endast data som kunde utvärderas med hjälp av regelbaserade belöningar. Men i detta skede utökades datasetet genom att inkludera mer data, varav en del genererades med hjälp av en belöningsmodell, och de verkliga svaren bedömdes genom att mata in modellförutsägelserna i DeepSeek-V3 (DeepSeek V3 som domare). Dessutom, eftersom modellens utdata ibland är förvirrande och svår att läsa, filtrerades tankekedjor på blandade språk, långa stycken och kodblock bort. För varje prompt samplades flera svar och endast de korrekta (Best-of-N) behölls. Totalt samlades cirka 600 000 resonemangsrelaterade träningsprov in.
Icke-resonerande data: som att skriva, faktafrågor, självkännedom och översättning, använde DeepSeek-V3-processen och återanvände några av DeepSeek-V3:s SFT-datauppsättningar. För vissa icke-resonerande uppgifter anropas DeepSeek-V3 för att generera potentiella CoTs innan frågan besvaras. Men för enkla frågor som "Hej" finns ingen tankekedja i svaret. I slutändan samlades totalt cirka 200 000 icke-Reasoning-träningsprover in.

3.3.4 SFT & RL för alla scenarier (steg-3)

Två omgångar av finjusteringar, totalt cirka 800 000 utvalda prover utfördes på DeepSeek-V3-Base med användning av de två ovan nämnda datamängderna (Reasoning och non-Reasoning).

För att ytterligare anpassa modellen till mänskliga preferenser implementerade författarna en andra fas av RL, som syftar till att förbättra modellens användbarhet och ofarlighet samtidigt som de förfinar dess resonemangskapacitet. Specifikt tränades modellen med en kombination av belöningssignaler och olika snabbdistributioner.

För Reasoning-data följs metodiken som beskrivs i DeepSeek-R1-Zero, med hjälp av en regelbaserad belöningsmekanism för att vägleda modellens lärande inom områdena matematik, programmering och logiska resonemang.
För allmänna data används belöningsmodellen för att fånga mänskliga preferenser i komplexa och subtila situationer. En liknande strategi med preferenspar och utbildningsfördelningar används baserat på DeepSeek-V3-processen.
När det gäller användbarheten beaktas endast den slutliga sammanfattningen, vilket säkerställer att utvärderingen fokuserar på det praktiska och relevansen av svaret för användaren samtidigt som störningen av den underliggande resonemangsprocessen minimeras.
När det gäller ofarlighet, utvärderas hela modellens svar omfattande, inklusive resonemangsprocessen och sammanfattningen, för att identifiera och eliminera eventuella risker, fördomar eller skadligt innehåll som kan uppstå under genereringsprocessen.
I slutändan, genom att integrera belöningssignaler och diversifiera datadistributionen, kan en modell som prioriterar både nytta och ofarlighet samtidigt som den utmärker sig i Reasoning tränas.

3.3.5 Destillation (steg 4)

För att utrusta en mer effektiv liten modell med resonemangsförmågan hos DeepSeek-R1, finjusterade författarna direkt open source-modellerna Qwen och LLaMA med hjälp av de 800 000 proverna som valts ut i DeepSeek-R1-Stage-1. Resultaten visar att denna direktdestillationsmetod avsevärt förbättrar resonemangsförmågan hos små modeller. De grundläggande modellerna som används av författarna inkluderar Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B och Llama-3.3-70B-Instruct. Llama-3.3 valdes eftersom dess resonemangsförmåga är något bättre än Llama-3.1.

För destillationsmodellen använder författaren endast SFT och inkluderar inte RL-steget. Även om införandet av RL avsevärt kan förbättra modellens prestanda, är författarens huvudsakliga syfte här att demonstrera effektiviteten av destillationsteknik, och utforskningen av RL-stadiet lämnas till efterföljande forskning.

PS: Dessutom är det faktiskt möjligt att använda den slutliga DeepSeek-R1 för att generera ovanstående data och rekonstruera de 800 000 data som används för destillation, och den destillerade modellen kan ha en bättre effekt; men priset är att data behöver rekonstrueras.

DeepSeek R1 papperstolkning & viktiga tekniska punkter

1 Bakgrund