Abstraktus

Šiame dokumente pristatomi DeepSeek pirmosios kartos samprotavimo modeliai: DeepSeek-R1-Zero ir DeepSeek-R1. DeepSeek-R1-Zero, apmokytas taikant didelio masto mokymąsi pastiprinant (angl. reinforcement learning, RL) be prižiūrimo derinimo (angl. supervised fine-tuning, SFT), demonstruoja puikius samprotavimo gebėjimus. Naudojant RL, jis natūraliai išvysto galingą samprotavimo elgseną. Tačiau jis susiduria su tokiomis problemomis kaip prastas skaitomumas ir kalbos maišymas. Siekiant išspręsti šias problemas ir pagerinti samprotavimo našumą, buvo sukurtas DeepSeek-R1, į kurį įtrauktas daugiapakopis mokymas ir šaltosios pradžios duomenys prieš RL. DeepSeek-R1 pasiekia panašų našumą kaip ir OpenAI-o1-1217 sprendžiant samprotavimo užduotis. Siekiant paremti mokslinius tyrimus, DeepSeek atvirai pateikia abu modelius ir šešis tankius modelius (1,5B, 7B, 8B, 14B, 32B, 70B), distiliuotus iš DeepSeek-R1, pagrįstus Qwen ir Llama.

Pagrindiniai įnašai

Po mokymų: Didelio masto pastiprinimo mokymasis

  • Sėkmingai pritaikytas RL tiesiogiai baziniam modeliui be SFT
  • Sukurtas "DeepSeek-R1-Zero", demonstruojantis tokias galimybes kaip savikontrolė ir atspindėjimas.
  • Pirmasis atviras tyrimas, patvirtinantis, kad mąstymo gebėjimai gali būti skatinami vien tik pasitelkiant RL.
  • Pristatytas DeepSeek-R1 vamzdynas su dviem RL pakopomis ir dviem SFT pakopomis

Distiliavimas: Mažesnių modelių įgalinimas

  • Parodė, kad didesnių modelių samprotavimo modelius galima veiksmingai išskaidyti į mažesnius.
  • Atviras "DeepSeek-R1" ir jo API, kad būtų naudingas mokslinių tyrimų bendruomenei
  • Patobulinti keli tankūs modeliai, pasižymintys išskirtiniu lyginamuoju našumu
  • Distiliuoti modeliai gerokai lenkia ankstesnius atvirojo kodo modelius

Vertinimo rezultatai

Argumentavimo užduotys

  • "DeepSeek-R1" pasiekė 79,8% Pass@1 AIME 2024, pranokdamas "OpenAI-o1-1217
  • 97,3% MATH-500 balų, pasiektas toks pat rezultatas kaip ir "OpenAI-o1-1217
  • Ekspertų lygio rezultatai atliekant kodų konkurso užduotis su 2 029 Elo reitingu Codeforces

Žinių užduotys

  • Puikūs MMLU (90,8%), MMLU-Pro (84,0%) ir GPQA Diamond (71,5%) rezultatai
  • Švietimo užduočių srityje pranoksta kitus uždarojo kodo modelius
  • Geri faktinių rodiklių, tokių kaip "SimpleQA", rezultatai

Bendrieji gebėjimai

  • Puikiai moka kūrybiškai rašyti, atsakyti į klausimus, redaguoti ir apibendrinti.
  • 87,6% laimėjimų rodiklis AlpacaEval 2.0 ir 92,3% - ArenaHard
  • Geri rezultatai atliekant ilgo konteksto supratimo užduotis

Ateities darbai

Komanda planuoja sutelkti dėmesį į:

  1. bendrųjų gebėjimų stiprinimas tokiose srityse kaip funkcijų iškvietimas ir sudėtingas vaidmenų atlikimas
  2. Kalbų maišymo problemų sprendimas
  3. Paraginimo inžinerijos tobulinimas
  4. Programinės įrangos inžinerijos užduočių atlikimo našumo gerinimas

Išvada

"DeepSeek-R1" - tai reikšminga pažanga dirbtinio intelekto samprotavimo gebėjimuose naudojant pastiprintą mokymąsi. Tiek pagrindinio modelio, tiek išsklaidytų jo versijų sėkmė rodo šio metodo potencialą kuriant pajėgesnes dirbtinio intelekto sistemas. Šių modelių išleidimas su atviruoju kodu prisidės prie tolesnių šios srities mokslinių tyrimų ir plėtros.

Panašios žinutės

Parašykite komentarą

El. pašto adresas nebus skelbiamas. Būtini laukeliai pažymėti *