Povzetek

Ta članek predstavlja modele razmišljanja prve generacije DeepSeek: DeepSeek-R1-Zero in DeepSeek-R1. DeepSeek-R1-Zero, usposobljen z obsežnim okrepitvenim učenjem (RL) brez nadzorovane natančne nastavitve (SFT), dokazuje izjemne zmožnosti sklepanja. Skozi RL naravno razvija močna razmišljanja. Vendar se sooča z izzivi, kot sta slaba berljivost in mešanje jezikov. Za reševanje teh težav in izboljšanje zmogljivosti razmišljanja je bil razvit DeepSeek-R1, ki vključuje večstopenjsko usposabljanje in podatke o hladnem zagonu pred RL. DeepSeek-R1 dosega zmogljivost, primerljivo z OpenAI-o1-1217 pri nalogah razmišljanja. Za podporo raziskavam DeepSeek ponuja odprtokodne modele in šest zgoščenih modelov (1,5B, 7B, 8B, 14B, 32B, 70B), pridobljenih iz DeepSeek-R1 na osnovi Qwen in Llama.

Ključni prispevki

Po usposabljanju: obsežno krepitveno učenje

  • RL je bil uspešno uporabljen neposredno na osnovni model brez SFT
  • Razvit DeepSeek-R1-Zero, ki prikazuje zmogljivosti, kot sta samopreverjanje in refleksija
  • Prva odprta raziskava, ki potrjuje, da je zmožnosti razmišljanja mogoče spodbuditi zgolj z RL
  • Predstavljen cevovod za DeepSeek-R1 z dvema stopnjama RL in dvema stopnjama SFT

Destilacija: krepitev manjših modelov

  • Dokazal, da je mogoče vzorce sklepanja iz večjih modelov učinkovito razdeliti na manjše
  • Odprtokodni DeepSeek-R1 in njegov API v korist raziskovalne skupnosti
  • Natančno nastavljenih več gostih modelov, ki prikazujejo izjemno uspešnost primerjalne uspešnosti
  • Destilirani modeli znatno prekašajo prejšnje odprtokodne modele

Rezultati ocenjevanja

Naloge sklepanja

  • DeepSeek-R1 dosega 79,8% Pass@1 na AIME 2024 in preseže OpenAI-o1-1217
  • 97,3% rezultat na MATH-500, enakovreden OpenAI-o1-1217
  • Zmogljivost na strokovni ravni pri tekmovalnih nalogah s kodo z oceno 2029 Elo na Codeforces

Naloge znanja

  • Izjemni rezultati na MMLU (90.8%), MMLU-Pro (84.0%) in GPQA Diamond (71.5%)
  • Prekaša druge zaprtokodne modele pri izobraževalnih nalogah
  • Močna uspešnost na dejanskih merilih, kot je SimpleQA

Splošne zmogljivosti

  • Odlični so v kreativnem pisanju, odgovarjanju na vprašanja, urejanju in povzemanju
  • 87,6% dobitek na AlpacaEval 2.0 in 92,3% na ArenaHard
  • Močna zmogljivost pri nalogah razumevanja dolgega konteksta

Prihodnje delo

Ekipa se namerava osredotočiti na:

  1. Izboljšanje splošnih zmogljivosti na področjih, kot sta klicanje funkcij in kompleksno igranje vlog
  2. Reševanje težav z mešanjem jezikov
  3. Izboljšanje hitrega inženiringa
  4. Izboljšanje zmogljivosti pri nalogah programskega inženiringa

Zaključek

DeepSeek-R1 predstavlja pomemben napredek v zmožnostih sklepanja z umetno inteligenco s pomočjo učenja z okrepitvijo. Uspeh tako glavnega modela kot njegovih destiliranih različic dokazuje potencial tega pristopa za razvoj zmogljivejših sistemov AI. Odprtokodna izdaja teh modelov bo prispevala k nadaljnjim raziskavam in razvoju na tem področju.

Podobne objave

Dodaj odgovor

Vaš e-naslov ne bo objavljen. * označuje zahtevana polja