I dag vil vi dele DeepSeek R1, Titel: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning: Incentivizing the reasoning capability of LLM via reinforcement learning.
Dette papir introducerer DeepSeeks første generation af ræsonnement-modeller, DeepSeek-R1-Zero og DeepSeek-R1. DeepSeek-R1-Zero modellen blev trænet igennem storskala forstærkningslæring (RL) uden overvåget finjustering (SFT) som et indledende trin, der demonstrerer potentialet ved RL og de overlegne ræsonnementer. det bringer. Gennem forstærkende læring, DeepSeek-R1-Zero opstod naturligt med mange kraftfulde og interessante ræsonnementer. For yderligere at optimere nogle af problemerne med R1-Zero (sproglige forvirringer, forbedret generaliseringsevne), udgav de DeepSeek-R1, som kombinerer træning i flere trin og finjustering af koldstartsdata før forstærkningsindlæring. DeepSeek-R1 opnåede sammenlignelig ydeevne på ræsonnementsopgaven med OpenAI-01-1217. For at støtte forskningsmiljøet har de open source DeepSeek-R1-Zero, DeepSeek-R1 og seks tætte modeller (1.5B, 7B, 8B, 14B, 32B, 70B) destilleret fra DeepSeek-R1, som er baseret på Qwen og Llama.
Metodens karakteristika er opsummeret som følger:
- Forstærkningslæring anvendes direkte på basismodellen, uden at stole på overvåget finjustering (SFT) som et indledende trin.
- DeepSeek-R1 udviklingsprocessen introduceres, som kombinerer to forstærkende læringsfaser og to overvågede finjusteringsfaser for at lægge grundlaget for modellens ræsonnement og ikke-ræsonnement..
- Ydeevnen af små modeller på ræsonneringsopgaver forbedres ved at overføre ræsonneringsmønstrene for store modeller til små modeller vha. destillationsteknikker.
Oversigt
- Titel: DeepSeek-R1: Incentivisering af ræsonnement i LLM'er via forstærkningslæring
- Forfattere: DeepSeek-AI
- Github: deepseek R1
Motivering
- Nuværende store sprogmodeller (LLM'er) har gjort betydelige fremskridt i inferensopgaver, men står stadig over for udfordringer.
- Potentialet af ren forstærkningslæring (RL) til at forbedre LLM'ers ræsonnementevne er ikke blevet fuldt ud undersøgt, især uden at være afhængig af overvågede data.
- Modeller trænet gennem RL, som f.eks DeepSeek-R1-Zero, har problemer med læsbarhed og sprogblanding (f.eks. taler kinesisk og engelsk blandet), og har brug for yderligere forbedringer for at forbedre brugervenlighed.
Metoder

DeepSeek-R1-Nul: Bruger DeepSeek-V3-Base som basismodel, og GRPO (Group Relative Policy Optimization) som forstærkende læring rammer, uden overvågede data for at forbedre modellens ydeevne i slutninger.
DeepSeek-R1:
- Kold start: Indsamler en lille mængde højkvalitets lange CoT-data (Chain-of-Thought) og finjusterer DeepSeek-V3-Base model som den første aktør for forstærkende læring.
- Fornuftsorienteret forstærkende læring: Det samme forstærkende læringstræningsproces som DeepSeek-R1-Zero anvendes, men med fokus på at forbedre modellens ræsonnementevner inden for områder som kodning, matematik, naturvidenskab og logisk ræsonnement. Sproglige konsistensbelønninger introduceres for at afbøde problemet med sproglig blanding, der forekommer i CoT.
- Afvisningsprøveudtagning og overvåget finjustering: Bruger det konvergerede kontrolpunkt for forstærkningslæring til indsamle Supervised Fine-Tuning (SFT) data til efterfølgende træning.
- Forstærkende læring for alle scenarier: Implementerer en forstærkningsindlæringsfase på andet niveau, som har til formål at forbedre modellens hjælpsomhed og harmløshed samtidig med, at dens ræsonneringsevne optimeres.
- Vidensdestillation: Finjusterer open source-modellerne Qwen og Llama direkte ved hjælp af 800.000 samples kurateret af DeepSeek-R1.
Detaljerede metoder og procedurer:

DeepSeek-R1-Zero: Forstærkende læring til basismodeller
- Forstærkningslæringsalgoritme: Bruger algoritmen Group Relative Policy Optimization (GRPO), som kræver ikke en kritiker model, estimerer basislinjen efter gruppescore og reducerer træningsomkostninger.
- Belønningsmodellering: Bruger en regelbaseret belønningssystem, herunder

- nøjagtighedsbelønning: Evaluerer, om svaret er korrekt, såsom rigtigheden af det endelige resultat af matematisk problem svar, feedback fra compileren til kodeproblemer.
- Format belønning: Opfordrer modellen til placere tænkeprocessen imellem
og
tags.
Træningsskabelon: En skabelon indeholdende og
tags er designet til guide modellen til først at udlæse tænkeprocessen og derefter det endelige svar.

- Selvevolutionær proces: DeepSeek-R1-Nul demonstreret selvevolutionære karakteristika under træning og var i stand til selvstændigt at lære mere komplekse ræsonnementstrategier, såsom refleksion og udforskning af flere problemløsningsveje.

DeepSeek-R1: Forstærkningslæring kombineret med koldstart

- Kold start: At løse DeepSeek-R1-Zero's læsbarhedsproblem, DeepSeek-R1 samler først en lille mængde af højkvalitets CoT-data og finjusterer DeepSeek-V3-Base-modellen til tjene som den indledende aktør for forstærkende læring. Koldstartdata indeholder oversigtsmærker og uvenlige svar er filtreret fra.
- Metode: 1) Vælg højkvalitets Long COT-data. 2) Tilføj og tags.
- Fordele: 1) Optimeret læsbarhed (løs det flersprogede problem med R1-Zero eller problemet med markdown-format). 2) Omhyggeligt udvalgte menneske-foretrukne data kan fortsætte med at forbedre ydeevnen på R1-Zero.
- Spørgsmål: Hvorfor løse læsbarhedsproblemet? Er det ikke muligt at gøre det bedre uden at løse det (f.eks. at reducere længden af output og udlede mere effektivt)?
- Begrundelsesorienteret RL: Med udgangspunkt i koldstartsmodellen, en forstærkende læringsproces svarende til DeepSeek-R1-Zero anvendes med fokus på at forbedre modellens evner i opgaver som kodning, matematik, videnskabelig og logisk ræsonnement. For at løse problemet med blandede sprog (flersproget ræsonnement), sproglige konsistens belønninger er introduceret.
- Spørgsmål: Hvordan trænes videnskabelige og logiske ræsonnementopgaver og datasæt?
- Afvisningsprøveudtagning og SFT: Efter at den inferensstyrede forstærkningslæring konvergerer, bruges det opnåede kontrolpunkt til afvisningssampling for at generere nye SFT-data, som kombineres med dataene fra DeepSeek-V3 for at forbedre modellens evner inden for skrivning, rollespil og generelle opgaver.
- Formål:
- Denne fase påbegyndes efter inferensorienteret forstærkningslæring (RL) proces konvergerer.
- Hovedformålet er at indsamle overvågede finjusteringsdata (SFT). til brug i efterfølgende træningsrunder.
- I modsætning til de indledende koldstartsdata, som kun fokuserer på inferens, sigter denne fase på udvide modellens muligheder at dække skrivning, rollespil og andre generelle opgaver, ikke kun slutninger.
- Dataindsamling – Inferensdata:
- Metode: Brug kontrolpunkter opnået fra den slutningsorienterede RL-fase til at generere slutningsbaner ved afvisningsprøvetagning.
- Udvidelse af datasæt: I modsætning til den tidligere RL-fase, som kun brugte regelbaserede belønningsdata, introduceres ikke-regelbaserede belønningsdata her. I nogle tilfælde bruges en generativ belønningsmodel (DeepSeek-V3) til at bestemme svaret.
- Datafiltrering: For at sikre kvalitet og læsbarhed filtreres outputtet for at fjerne:
- tankekæder indeholdende blandede sprog
- lange afsnit
- kodeblokke
- Prøveudtagning og udvælgelse: For hver prompt blev der genereret flere svar. Kun det "korrekte" svar blev bibeholdt for datasættet.
- Datasætstørrelse: Tilnærmelsesvis 600.000 slutningsrelaterede træningsprøver blev indsamlet på denne måde.
- Dataindsamling – ikke-inferensdata:
- Dækning: Skrivning, faktuel besvarelse af spørgsmål (QA), selvbevidsthed og oversættelse.
- Bladet nævner brugen af DeepSeek-V3's behandler og genbruger en del af DeepSeek-V3 SFT-datasættet at håndtere disse ikke-inferens opgaver. Om 200.000 slutningsuafhængige prøver blev indsamlet. (Bemærk: Detaljerne om indsamlingen af ikke-inferensdata er yderligere beskrevet i afsnit 2.3.4)
- Brug af indsamlede data:
- De indsamlede ræsonnement og ikke-begrundende data (i alt ca. 800.000 prøver – 600.000 ræsonnementprøver + 200.000 ikke-begrundende prøver) blev derefter brugt til at finjuster DeepSeek-V3-Base-modellen til to epoker. Denne finjusterede model blev derefter brugt i den sidste RL-fase beskrevet i afsnit 2.3.4.
- Sammenfatning Dette trin bruger slutningsevnerne lært gennem RL at generere et mangfoldigt og højkvalitets SFT-datasæt. Dette datasæt styrker slutningsevnerne og udvider også de generelle muligheder for modellen for træning i den afsluttende tilpasnings- og forbedringsfase.
- Formål:
- Forstærkende læring for alle scenarier: For yderligere at tilpasse menneskelige præferencer implementeres en anden fase af forstærkende læring for at forbedre modellens hjælpsomhed og harmløshed.
- Inferensdata: fx matematik, kode, logisk inferens eller overvåget med regelbasemetoder.
- Generelle data: belønningsmodeller bruges stadig til at give præferenceoplysninger for komplekse og subtile scenarier. Modeller trænet med parvise data estimeres også.
- Nytte: fokuser kun på de endelige resuméresultater, hvilket reducerer interferens med slutningsprocessen.
- Harmløshed: overvåg hele reaktionen for at reducere eventuelle risici.
Modeldestillation (destillation):
- For at opnå en mere effektiv lille inferensmodel destillerer papiret inferensevnen af DeepSeek-R1 ind i open source-modellerne i Qwen- og Llama-serien. Destillationsprocessen bruger kun overvåget finjustering (SFT) og bruger ikke forstærkningsindlæringsstadiet.
Konklusion
DeepSeek-R1-Zero: Demonstrerer potentialet ved ren forstærkende læring i motiverende LLM-slutningsevne, og kan opnå stærk præstation uden at stole på overvågede data.


- Aha-øjeblik: Skønheden ved forstærkende læring (modellens øjeblik af oplysning, hvor den tildeler mere tænketid til et problem ved at lære at revurdere den indledende tilgang)
- Outputlængden fortsætter med at stige (tænketiden fortsætter med at stige)
- Nøjagtigheden bliver ved med at forbedres (prøvetagning af 16 svar for at beregne nøjagtigheden)

- DeepSeek-R1: Forbedrer modellens ydeevne yderligere ved at kombinere koldstartsdata og iterativ forstærkningsindlæring finjustering, opnå et niveau, der kan sammenlignes med OpenAI-01-1217 på forskellige opgaver.

- Vidensdestillation: Ved at bruge DeepSeek-R1 som lærermodel blev der genereret 800K træningsprøver, og flere små, tætte modeller blev finjusteret. Resultaterne viser, at dette destillationsmetode kan forbedre slutningsevnen væsentligt små modeller.
Begrænsning
- Begrænsning 1: Den generelle evne til DeepSeek-R1 skal forbedres. DeepSeek-R1 er stadig ringere end DeepSeek-V3 i opgaver som funktionskald, multi-turn dialog, komplekst rollespil og JSON-output.
- Begrænsning 2: Sprogblandingsproblem. DeepSeek-R1 kan støde på et sprogblandingsproblem ved behandling af ikke-kinesiske og ikke-engelske forespørgsler, for eksempel ræsonnement og besvarelse på engelsk.
- Begrænsning 3: Hurtig følsomhed. DeepSeek-R1 er følsom over for prompte ord, og få-shot prompt vil reducere dens ydeevne.
- Begrænsning 4: Begrænset anvendelse til softwareingeniøropgaver. På grund af den lange evalueringstid er forstærkningslæring i stor skala ikke blevet anvendt fuldt ud til softwareingeniøropgaver, og DeepSeek-R1 har begrænset forbedring i forhold til DeepSeek-V3 i benchmarks for softwareudvikling.