Abstrakt

Denne artikel introducerer DeepSeek's første generation af ræsonneringsmodeller: DeepSeek-R1-Zero og DeepSeek-R1. DeepSeek-R1-Zero, der er trænet gennem storstilet forstærkningslæring (RL) uden overvåget finjustering (SFT), demonstrerer bemærkelsesværdige ræsonnementsevner. Gennem RL udvikler den naturligt en stærk ræsonnerende adfærd. Den står dog over for udfordringer som dårlig læsbarhed og sprogblanding. For at løse disse problemer og forbedre ræsonnementets ydeevne blev DeepSeek-R1 udviklet med flertrins-træning og koldstartsdata før RL. DeepSeek-R1 opnår præstationer, der kan sammenlignes med OpenAI-o1-1217 på ræsonneringsopgaver. For at understøtte forskning open-sourcer DeepSeek begge modeller og seks tætte modeller (1,5B, 7B, 8B, 14B, 32B, 70B) destilleret fra DeepSeek-R1 baseret på Qwen og Llama.

Vigtige bidrag

Efter træning: Forstærkningslæring i stor skala

  • Vellykket anvendelse af RL direkte på basismodellen uden SFT
  • Udviklet DeepSeek-R1-Zero, der demonstrerer evner som selvverifikation og refleksion
  • Første åbne forskning, der validerer, at ræsonnementsevner kan stimuleres udelukkende gennem RL
  • Introduceret pipeline til DeepSeek-R1 med to RL-trin og to SFT-trin

Destillation: Styrkelse af mindre modeller

  • Demonstreret, at ræsonnementer fra større modeller effektivt kan destilleres til mindre modeller
  • Open-sourced DeepSeek-R1 og dens API til gavn for forskningsverdenen
  • Finjusteret flere tætte modeller, der viser exceptionel benchmark-ydelse
  • Destillerede modeller er betydeligt bedre end tidligere open source-modeller

Resultater af evaluering

Ræsonnerende opgaver

  • DeepSeek-R1 opnår 79,8% Pass@1 på AIME 2024 og overgår dermed OpenAI-o1-1217
  • 97.3% score på MATH-500, præsterer på niveau med OpenAI-o1-1217
  • Præstationer på ekspertniveau i kodekonkurrenceopgaver med 2.029 Elo-rating på Codeforces

Viden-opgaver

  • Fremragende resultater på MMLU (90.8%), MMLU-Pro (84.0%) og GPQA Diamond (71.5%)
  • Overgår andre closed source-modeller i uddannelsesopgaver
  • Stærk performance på faktuelle benchmarks som SimpleQA

Generelle kapaciteter

  • Udmærker sig ved kreativ skrivning, besvarelse af spørgsmål, redigering og opsummering
  • 87,6% win-rate på AlpacaEval 2.0 og 92,3% på ArenaHard
  • Stærk præstation i opgaver med forståelse af lange kontekster

Fremtidigt arbejde

Teamet planlægger at fokusere på:

  1. Forbedring af generelle evner inden for områder som funktionskald og komplekst rollespil
  2. Håndtering af problemer med sprogblanding
  3. Forbedring af prompting-teknik
  4. Forbedring af ydeevnen på softwareudviklingsopgaver

Konklusion

DeepSeek-R1 repræsenterer et betydeligt fremskridt i AI's ræsonnementsevne gennem forstærkningslæring. Succesen med både hovedmodellen og dens destillerede versioner viser potentialet i denne tilgang til at udvikle mere kapable AI-systemer. Open source-udgivelsen af disse modeller vil bidrage til yderligere forskning og udvikling inden for området.

Lignende indlæg

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *