Abstrak

Hierdie vraestel stel DeepSeek se eerstegenerasie redenasiemodelle bekend: DeepSeek-R1-Zero en DeepSeek-R1. DeepSeek-R1-Zero, opgelei deur grootskaalse versterkingsleer (RL) sonder toesig fyninstelling (SFT), toon merkwaardige redenasievermoëns. Deur RL ontwikkel dit natuurlik kragtige redenasiegedrag. Dit staar egter uitdagings in die gesig, soos swak leesbaarheid en taalvermenging. Om hierdie kwessies aan te spreek en redenasieprestasie te verbeter, is DeepSeek-R1 ontwikkel, wat multi-stadium opleiding en koue-begin data voor RL insluit. DeepSeek-R1 behaal prestasie vergelykbaar met OpenAI-o1-1217 op redeneringstake. Om navorsing te ondersteun, DeepSeek oopbronne beide modelle en ses digte modelle (1.5B, 7B, 8B, 14B, 32B, 70B) gedistilleer vanaf DeepSeek-R1 gebaseer op Qwen en Llama.

Sleutelbydraes

Na-opleiding: Grootskaalse versterkingsleer

  • RL suksesvol toegepas op die basismodel sonder SFT
  • Ontwikkel DeepSeek-R1-Zero, demonstreer vermoëns soos selfverifikasie en refleksie
  • Eerste oop navorsing wat bevestig dat redenasievermoëns suiwer deur RL aangespoor kan word
  • Bekendgestel pyplyn vir DeepSeek-R1 met twee RL stadiums en twee SFT stadiums

Distillasie: Bemagtig kleiner modelle

  • Gedemonstreer dat redenasiepatrone van groter modelle effektief in kleineres gedistilleer kan word
  • Oopbron DeepSeek-R1 en sy API tot voordeel van navorsingsgemeenskap
  • Verskeie digte modelle verfyn wat uitsonderlike maatstafprestasie toon
  • Gedistilleerde modelle vaar aansienlik beter as vorige oopbronmodelle

Evaluering Resultate

Redeneringstake

  • DeepSeek-R1 behaal 79.8% Pass@1 op AIME 2024, wat OpenAI-o1-1217 oortref
  • 97.3%-telling op MATH-500, presteer op gelyke voet met OpenAI-o1-1217
  • Prestasie op kundige vlak in kodekompetisietake met 2 029 Elo-gradering op Codeforces

Kennistake

  • Uitstekende resultate op MMLU (90.8%), MMLU-Pro (84.0%), en GPQA Diamond (71.5%)
  • Oortref ander geslotebronmodelle in opvoedkundige take
  • Sterk prestasie op feitelike maatstawwe soos SimpleQA

Algemene vermoëns

  • Uitstekend in kreatiewe skryfwerk, vraagbeantwoording, redigering en opsomming
  • 87.6% wenkoers op AlpacaEval 2.0 en 92.3% op ArenaHard
  • Sterk prestasie in lang-konteks verstaan take

Toekomstige Werk

Die span beplan om te fokus op:

  1. Verbetering van algemene vermoëns op gebiede soos funksie roeping en komplekse rolspel
  2. Aanspreek van taalvermengingskwessies
  3. Verbetering van ingenieurswese
  4. Verbetering van werkverrigting op sagteware-ingenieurstake

Gevolgtrekking

DeepSeek-R1 verteenwoordig 'n beduidende vooruitgang in KI-redeneringsvermoëns deur versterkende leer. Die sukses van beide die hoofmodel en sy gedistilleerde weergawes demonstreer die potensiaal van hierdie benadering vir die ontwikkeling van meer bekwame KI-stelsels. Die oopbronvrystelling van hierdie modelle sal bydra tot verdere navorsing en ontwikkeling in die veld.

Soortgelyke plasings

Maak 'n opvolg-bydrae

Jou e-posadres sal nie gepubliseer word nie. Verpligte velde word met * aangedui