Idag ska vi dela DeepSeek R1, Titel: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning: Incentivizing the reasoning capability of LLM via reinforcement learning.

Detta dokument introducerar DeepSeek:s första generation av resonemangsmodeller, DeepSeek-R1-Zero och DeepSeek-R1. DeepSeek-R1-Zero-modellen tränades igenom storskalig förstärkningsinlärning (RL) utan övervakad finjustering (SFT) som ett första steg, vilket visar potentialen hos RL och de överlägsna resonemangsförmågan det ger. Genom förstärkningsinlärning, DeepSeek-R1-Zero uppstod naturligt med många kraftfulla och intressanta resonemang. För att ytterligare optimera några av problemen med R1-Zero (språklig förvirring, förbättrad generaliseringsförmåga) släppte de DeepSeek-R1, som kombinerar träning i flera steg och finjustering av kallstartsdata innan förstärkningsinlärning. DeepSeek-R1 uppnådde jämförbar prestanda på resonemangsuppgiften med OpenAI-01-1217. För att stödja forskarsamhället har de öppen källkod DeepSeek-R1-Zero, DeepSeek-R1 och sex täta modeller (1,5B, 7B, 8B, 14B, 32B, 70B) destillerade från DeepSeek-R1, som är baserade på Qwen och Llama.

Metodens egenskaper sammanfattas enligt följande:

  1. Förstärkningsinlärning appliceras direkt på basmodellen, utan att förlita sig på övervakad finjustering (SFT) som ett första steg.
  2. Utvecklingsprocessen DeepSeek-R1 introduceras, vilket kombinerar två förstärkningsinlärningsfaser och två övervakade finjusteringsfaser för att lägga grunden för modellens resonemang och icke-resonerande förmåga.
  3. Små modellers prestanda på resonemangsuppgifter förbättras genom att överföra resonemönstren för stora modeller till små modeller genom att destillationstekniker.

Översikt

Motivering

  • Nuvarande stora språkmodeller (LLM) har gjort betydande framsteg i slutledningsuppgifter, men står fortfarande inför utmaningar.
  • Potentialen av ren förstärkningsinlärning (RL) för att förbättra resonemangsförmågan hos LLM:er har inte utforskats fullt ut, särskilt utan att förlita sig på övervakad data.
  • Modeller utbildade genom RL, som t.ex DeepSeek-R1-Zero, har problem med läsbarhet och språkblandning (t.ex. talar kinesiska och engelska blandat) och behöver ytterligare förbättras för att förbättra användarvänligheten.

Metoder

DeepSeek-R1-Zero: Använder DeepSeek-V3-Base som basmodell, och GRPO (Group Relative Policy Optimization) som förstärkande lärande ram, utan övervakad data för att förbättra modellens prestanda vid slutledning.

DeepSeek-R1:

  • Kallstart: Samlar in en liten mängd högkvalitativ lång CoT-data (Chain-of-Thought) och finjusterar DeepSeek-V3-Basmodell som den initiala aktören för förstärkningsinlärning.
  • Resoneringsorienterad förstärkningsinlärning: Samma förstärkningsinlärningsträningsprocess som DeepSeek-R1-Zero tillämpas, men med fokus på att förbättra modellens resonemangsförmåga inom områden som kodning, matematik, naturvetenskap och logiska resonemang. Språkliga konsistensbelöningar introduceras för att mildra problemet med språklig blandning som förekommer i CoT.
  • Avslagssampling och övervakad finjustering: Använder den konvergerade kontrollpunkten för förstärkningsinlärning för att samla in data om övervakad finjustering (SFT). för efterföljande utbildning.
  • Förstärkningsinlärning för alla scenarier: Implementerar en förstärkningsinlärningsfas på andra nivån, som syftar till att förbättra modellens hjälpsamhet och ofarlighet samtidigt som den optimerar dess resonemangsförmåga.
  • Kunskapsdestillation: Finjusterar open source-modellerna Qwen och Llama direkt med hjälp av 800 000 samplingar som kurerats av DeepSeek-R1.

Detaljerade metoder och procedurer:

DeepSeek-R1-Zero: Förstärkningsinlärning för basmodeller

  • Förstärkningsinlärningsalgoritm: Använder algoritmen Group Relative Policy Optimization (GRPO), som kräver inte en kritiker modell, uppskattar baslinjen genom grupppoäng och minskar utbildningskostnaderna.
  • Belöningsmodellering: Använder a regelbaserat belöningssystem, inklusive
  • precision belöning: Utvärderar om svaret är korrekt, till exempel huruvida det slutliga resultatet är korrekt matematiskt problem svar, feedbacken från kompilatorn för kodproblem.
  • Formatbelöning: Uppmuntrar modellen att placera tankeprocessen mellan och taggar.

Utbildningsmall: En mall som innehåller och taggar är utformade för att vägleda modellen för att ge ut tankeprocessen först och sedan det slutliga svaret.

  • Självevolutionär process: DeepSeek-R1-Noll demonstrerad självevolutionära egenskaper under träning, och kunde självständigt lära sig mer komplexa resonemangsstrategier, såsom reflektion och utforskning av flera problemlösningsvägar.

DeepSeek-R1: Förstärkningsinlärning kombinerat med kallstart

  • Kallstart: För att lösa DeepSeek-R1-Nollor läsbarhetsproblem, DeepSeek-R1 samlar först en liten mängd högkvalitativa CoT-data och finjusterar DeepSeek-V3-Base-modellen till fungera som den första aktören för förstärkningsinlärning. Kallstartsdata innehåller sammanfattningstaggar och ovänliga svar filtreras bort.
    • Metod: 1) Välj högkvalitativ Long COT-data. 2) Lägg till och taggar.
    • Fördelar: 1) Optimerad läsbarhet (lös det flerspråkiga problemet med R1-Zero eller problemet med markdown-format). 2) Noggrant utvalda data som föredras av människor kan fortsätta att förbättra prestandan på R1-Zero.
    • Fråga: Varför lösa läsbarhetsproblemet? Är det inte möjligt att göra bättre utan att lösa det (t.ex. att minska längden på produktionen och dra slutsatser mer effektivt)?
  • Resonemangsorienterad RL: Baserat på kallstartsmodellen, en förstärkningsinlärningsprocess liknande DeepSeek-R1-Zero tillämpas, med fokus på att förbättra modellens förmåga i uppgifter som kodning, matematik, vetenskapligt och logiskt resonemang. För att lösa problemet med blandade språk (flerspråkiga resonemang), språkkonsistens belöningar introduceras.
    • Fråga: Hur tränas vetenskapliga och logiska resonemangsuppgifter och datauppsättningar?
  • Avslagsprovtagning och SFT: Efter att den slutledningsstyrda förstärkningsinlärningen konvergerar används den erhållna kontrollpunkten för avvisningssampling för att generera ny SFT-data, som kombineras med data från DeepSeek-V3 för att förbättra modellens förmåga att skriva, rollspel och allmänna uppgifter.
    • Ändamål:
      • Denna fas inleds efter inferensorienterad förstärkningsinlärning (RL) process konvergerar.
      • Huvudsyftet är att samla in data om övervakad finjustering (SFT). för användning i efterföljande träningsomgångar.
      • Till skillnad från de initiala kallstartsdata, som bara fokuserar på slutledning, syftar denna fas till att utöka modellens möjligheter att täcka skrivande, rollspel och andra allmänna uppgifter, inte bara slutledningar.
    • Datainsamling – Inferensdata:
      • Metod: Använd kontrollpunkter erhållna från den slutledningsorienterade RL-fasen för att generera slutledningsbanor genom avvisningssampling.
      • Datauppsättningsexpansion: Till skillnad från den tidigare RL-fasen, som endast använde regelbaserad belöningsdata, introduceras icke-regelbaserad belöningsdata här. I vissa fall används en generativ belöningsmodell (DeepSeek-V3) för att bestämma svaret.
      • Datafiltrering: För att säkerställa kvalitet och läsbarhet filtreras utdata för att ta bort:
        • tankekedjor som innehåller blandade språk
        • långa stycken
        • kodblock
      • Provtagning och urval: För varje prompt genererades flera svar. Endast det "korrekta" svaret behölls för datasetet.
      • Datauppsättningsstorlek: Cirka 600 000 slutledningsrelaterade träningsprov samlades in på detta sätt.
    • Datainsamling – icke-inferensdata:
      • Täckning: Skrivande, svar på faktafrågor (QA), självkännedom och översättning.
      • Tidningen nämner användningen av DeepSeek-V3 bearbetar och återanvänder en del av DeepSeek-V3 SFT-datauppsättningen att hantera dessa icke-inferensuppgifter. Om 200 000 slutledningsoberoende stickprov samlades in. (Obs: Detaljerna för insamlingen av icke-inferensdata beskrivs ytterligare i avsnitt 2.3.4)
    • Användning av insamlad data:
      • De insamlade resonemangs- och icke-resonerande uppgifterna (totalt ca 800 000 prov – 600 000 resonemangsprov + 200 000 icke-resonerande prov) användes sedan för att finjustera DeepSeek-V3-Base-modellen för två epoker. Denna finjusterade modell användes sedan i den sista RL-fasen som beskrivs i avsnitt 2.3.4.
    • Sammanfattning Detta steg använder slutledningsförmågan lärt sig genom RL för att generera en mångsidig och högkvalitativ SFT-datauppsättning. Denna datauppsättning stärker slutledningsförmågan och utökar även den allmänna kapaciteten för modellen för träning i den slutliga anpassnings- och förbättringsfasen.
  • Förstärkningsinlärning för alla scenarier: För att ytterligare anpassa mänskliga preferenser, implementeras en andra fas av förstärkningsinlärning för att förbättra modellens hjälpsamhet och ofarlighet.
    • Inferensdata: t.ex. matematik, kod, logisk slutledning eller övervakad med regelbasmetoder.
    • Allmän information: belöningsmodeller används fortfarande för att tillhandahålla preferensinformation för komplexa och subtila scenarier. Modeller tränade med parvisa data uppskattas också.
    • Användbarhet: fokusera endast på de slutliga sammanfattningsresultaten, vilket minskar störningen av slutledningsprocessen.
    • Harmlöshet: övervaka hela responsen för att minska eventuella risker.

Modelldestillation (destillation):

  • För att erhålla en mer effektiv liten slutledningsmodell destillerar tidningen slutledningsförmågan hos DeepSeek-R1 till öppen källkodsmodellerna i Qwen- och Llama-serien. Destillationsprocessen använder endast övervakad finjustering (SFT) och använder inte förstärkningsinlärningsstadiet.

Slutsats

DeepSeek-R1-Zero: Demonstrerar potentialen för ren förstärkningsinlärning för att motivera LLM slutledningsförmåga, och kan uppnå starka prestationer utan att förlita sig på övervakade uppgifter.

  • Aha-ögonblick: Skönheten med förstärkningsinlärning (modellens ögonblick av upplysning, där den tilldelar mer betänketid för ett problem genom att lära sig att omvärdera det första tillvägagångssättet)
  • Utmatningslängden fortsätter att öka (tänketiden fortsätter att öka)
  • Noggrannheten fortsätter att förbättras (provtagning av 16 svar för att beräkna noggrannheten)
  • DeepSeek-R1: Förbättrar modellens prestanda ytterligare genom att kombinera kallstartsdata och iterativ finjustering av förstärkningsinlärning, uppnå en nivå jämförbar med OpenAI-01-1217 på olika uppgifter.
  • Kunskapsdestillation: Med DeepSeek-R1 som lärarmodell genererades 800K träningsprov och flera små, täta modeller finjusterades. Resultaten visar att detta destillationsmetod kan avsevärt förbättra slutledningsförmågan hos små modeller.

Begränsning

  • Begränsning 1: Den allmänna förmågan hos DeepSeek-R1 behöver förbättras. DeepSeek-R1 är fortfarande sämre än DeepSeek-V3 i uppgifter som funktionsanrop, multi-turn dialog, komplexa rollspel och JSON-utdata.
  • Begränsning 2: Språkblandningsproblem. DeepSeek-R1 kan stöta på ett språkblandningsproblem vid bearbetning av icke-kinesiska och icke-engelska frågor, till exempel resonemang och svar på engelska.
  • Begränsning 3: Snabb känslighet. DeepSeek-R1 är känslig för promptord, och få-shot prompt kommer att minska dess prestanda.
  • Begränsning 4: Begränsad tillämpning för programvarutekniska uppgifter. På grund av den långa utvärderingstiden har storskalig förstärkningsinlärning inte tillämpats fullt ut på programvarutekniska uppgifter, och DeepSeek-R1 har begränsade förbättringar jämfört med DeepSeek-V3 i riktmärken för mjukvaruteknik.

Liknande inlägg

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *