Rezumat

Această lucrare prezintă prima generație de modele de raționament DeepSeek: DeepSeek-R1-Zero și DeepSeek-R1. DeepSeek-R1-Zero, antrenat prin învățarea prin consolidare (RL) pe scară largă, fără reglaj fin supravegheat (SFT), demonstrează capacități remarcabile de raționament. Prin RL, acesta dezvoltă în mod natural comportamente de raționament puternice. Cu toate acestea, se confruntă cu provocări precum lizibilitatea redusă și amestecul de limbaje. Pentru a rezolva aceste probleme și pentru a îmbunătăți performanțele de raționament, a fost dezvoltat DeepSeek-R1, care încorporează formarea în mai multe etape și date de pornire la rece înainte de RL. DeepSeek-R1 atinge performanțe comparabile cu OpenAI-o1-1217 în sarcinile de raționament. Pentru a sprijini cercetarea, DeepSeek deschide ambele modele și șase modele dense (1.5B, 7B, 8B, 14B, 32B, 70B) distilate din DeepSeek-R1 bazate pe Qwen și Llama.

Contribuții cheie

Post-antrenament: Învățarea prin întărire pe scară largă

  • Aplicarea cu succes a RL direct la modelul de bază fără SFT
  • A dezvoltat DeepSeek-R1-Zero, demonstrând capacități precum autoverificarea și reflecția
  • Prima cercetare deschisă care validează faptul că capacitățile de raționament pot fi stimulate doar prin intermediul RL
  • Introdus conducta pentru DeepSeek-R1 cu două etape RL și două etape SFT

Distilare: Consolidarea modelelor mai mici

  • A demonstrat că modelele de raționament din modele mai mari pot fi distilate eficient în modele mai mici
  • Open-sourced DeepSeek-R1 și API-ul său în beneficiul comunității de cercetare
  • Ajustarea fină a mai multor modele dense cu performanțe excepționale în benchmark-uri
  • Modelele distilate depășesc semnificativ performanțele modelelor open-source anterioare

Rezultatele evaluării

Sarcini de raționament

  • DeepSeek-R1 atinge 79,8% Pass@1 pe AIME 2024, depășind OpenAI-o1-1217
  • 97,3% scor la MATH-500, performanțe egale cu OpenAI-o1-1217
  • Performanță la nivel de expert în sarcini de competiție de cod cu un rating Elo de 2.029 pe Codeforces

Sarcini de cunoaștere

  • Rezultate remarcabile la MMLU (90.8%), MMLU-Pro (84.0%) și GPQA Diamond (71.5%)
  • Surclasează alte modele cu sursă închisă în sarcinile educaționale
  • Performanță solidă în ceea ce privește reperele factuale precum SimpleQA

Capacități generale

  • excelează în scriere creativă, răspuns la întrebări, editare și rezumare
  • 87.6% win-rate pe AlpacaEval 2.0 și 92.3% pe ArenaHard
  • Performanță puternică în sarcinile de înțelegere a contextului pe termen lung

Lucrări viitoare

Echipa intenționează să se concentreze pe:

  1. Îmbunătățirea capacităților generale în domenii precum apelarea funcțiilor și jocul de rol complex
  2. Abordarea problemelor legate de amestecul de limbi
  3. Îmbunătățirea ingineriei prompting
  4. Îmbunătățirea performanței în sarcinile de inginerie software

Concluzie

DeepSeek-R1 reprezintă un progres semnificativ în capacitățile de raționament AI prin învățarea prin consolidare. Succesul atât al modelului principal, cât și al versiunilor sale distilate demonstrează potențialul acestei abordări pentru dezvoltarea unor sisteme AI mai performante. Publicarea open-source a acestor modele va contribui la continuarea cercetării și dezvoltării în domeniu.

Posturi similare

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *