Sammanfattning
Detta dokument introducerar DeepSeek:s första generation av resonemangsmodeller: DeepSeek-R1-Zero och DeepSeek-R1. DeepSeek-R1-Zero, som tränats genom storskalig förstärkningsinlärning (RL) utan övervakad finjustering (SFT), uppvisar anmärkningsvärda resonemangsförmågor. Genom RL utvecklar den på ett naturligt sätt kraftfulla resonemangsbeteenden. Den står dock inför utmaningar som dålig läsbarhet och språkblandning. För att ta itu med dessa problem och förbättra resonemangsprestanda utvecklades DeepSeek-R1, som innehåller flerstegsträning och kallstartdata före RL. DeepSeek-R1 uppnår prestanda som är jämförbara med OpenAI-o1-1217 på resonemangsuppgifter. För att stödja forskning har DeepSeek öppen källkod för båda modellerna och sex täta modeller (1,5B, 7B, 8B, 14B, 32B, 70B) från DeepSeek-R1 baserade på Qwen och Llama.
Viktiga bidrag
Efter träning: Förstärkningsinlärning i stor skala
- Framgångsrik tillämpning av RL direkt på basmodellen utan SFT
- Utvecklat DeepSeek-R1-Zero, som visar förmågor som självverifiering och reflektion
- Den första öppna forskningen som validerar att resonemangsförmågan kan stimuleras enbart genom RL
- Introducerad pipeline för DeepSeek-R1 med två RL-steg och två SFT-steg
Destillation: Stärka mindre modeller
- Visat att resonemangsmönster från större modeller effektivt kan destilleras till mindre modeller
- Öppen källkod för DeepSeek-R1 och dess API till nytta för forskarvärlden
- Finjusterade flera täta modeller som uppvisade exceptionell benchmarkprestanda
- Destillerade modeller är betydligt bättre än tidigare modeller med öppen källkod
Utvärderingsresultat
Resonemangsuppgifter
- DeepSeek-R1 uppnår 79,8% Pass@1 på AIME 2024, vilket överträffar OpenAI-o1-1217
- 97.3% poäng på MATH-500, presterar i nivå med OpenAI-o1-1217
- Prestationer på expertnivå i kodtävlingsuppgifter med 2.029 Elo-betyg på Codeforces
Uppgifter om kunskap
- Enastående resultat på MMLU (90.8%), MMLU-Pro (84.0%) och GPQA Diamond (71.5%)
- Överlägsen andra modeller med sluten källkod i utbildningsuppgifter
- Stark prestanda på faktabaserade benchmarks som SimpleQA
Allmän kapacitet
- Utmärker sig genom kreativt skrivande, svar på frågor, redigering och sammanfattning
- 87,6% vinstprocent på AlpacaEval 2.0 och 92,3% på ArenaHard
- Stark prestation i uppgifter som handlar om att förstå långa sammanhang
Framtida arbete
Teamet planerar att fokusera på:
- Förbättra allmänna förmågor inom områden som funktionsuppringning och komplexa rollspel
- Hantering av problem med språkblandning
- Förbättring av promptingteknik
- Förbättra prestandan i uppgifter inom programvaruutveckling
Slutsats
DeepSeek-R1 innebär en betydande förbättring av AI:s förmåga att resonera med hjälp av förstärkningsinlärning. Framgången för både huvudmodellen och dess destillerade versioner visar potentialen i detta tillvägagångssätt för att utveckla mer kapabla AI-system. Att dessa modeller släpps med öppen källkod kommer att bidra till ytterligare forskning och utveckling inom området.