Povzetek
Ta članek predstavlja modele razmišljanja prve generacije DeepSeek: DeepSeek-R1-Zero in DeepSeek-R1. DeepSeek-R1-Zero, usposobljen z obsežnim okrepitvenim učenjem (RL) brez nadzorovane natančne nastavitve (SFT), dokazuje izjemne zmožnosti sklepanja. Skozi RL naravno razvija močna razmišljanja. Vendar se sooča z izzivi, kot sta slaba berljivost in mešanje jezikov. Za reševanje teh težav in izboljšanje zmogljivosti razmišljanja je bil razvit DeepSeek-R1, ki vključuje večstopenjsko usposabljanje in podatke o hladnem zagonu pred RL. DeepSeek-R1 dosega zmogljivost, primerljivo z OpenAI-o1-1217 pri nalogah razmišljanja. Za podporo raziskavam DeepSeek ponuja odprtokodne modele in šest zgoščenih modelov (1,5B, 7B, 8B, 14B, 32B, 70B), pridobljenih iz DeepSeek-R1 na osnovi Qwen in Llama.
Ključni prispevki
Po usposabljanju: obsežno krepitveno učenje
- RL je bil uspešno uporabljen neposredno na osnovni model brez SFT
- Razvit DeepSeek-R1-Zero, ki prikazuje zmogljivosti, kot sta samopreverjanje in refleksija
- Prva odprta raziskava, ki potrjuje, da je zmožnosti razmišljanja mogoče spodbuditi zgolj z RL
- Predstavljen cevovod za DeepSeek-R1 z dvema stopnjama RL in dvema stopnjama SFT
Destilacija: krepitev manjših modelov
- Dokazal, da je mogoče vzorce sklepanja iz večjih modelov učinkovito razdeliti na manjše
- Odprtokodni DeepSeek-R1 in njegov API v korist raziskovalne skupnosti
- Natančno nastavljenih več gostih modelov, ki prikazujejo izjemno uspešnost primerjalne uspešnosti
- Destilirani modeli znatno prekašajo prejšnje odprtokodne modele
Rezultati ocenjevanja
Naloge sklepanja
- DeepSeek-R1 dosega 79,8% Pass@1 na AIME 2024 in preseže OpenAI-o1-1217
- 97,3% rezultat na MATH-500, enakovreden OpenAI-o1-1217
- Zmogljivost na strokovni ravni pri tekmovalnih nalogah s kodo z oceno 2029 Elo na Codeforces
Naloge znanja
- Izjemni rezultati na MMLU (90.8%), MMLU-Pro (84.0%) in GPQA Diamond (71.5%)
- Prekaša druge zaprtokodne modele pri izobraževalnih nalogah
- Močna uspešnost na dejanskih merilih, kot je SimpleQA
Splošne zmogljivosti
- Odlični so v kreativnem pisanju, odgovarjanju na vprašanja, urejanju in povzemanju
- 87,6% dobitek na AlpacaEval 2.0 in 92,3% na ArenaHard
- Močna zmogljivost pri nalogah razumevanja dolgega konteksta
Prihodnje delo
Ekipa se namerava osredotočiti na:
- Izboljšanje splošnih zmogljivosti na področjih, kot sta klicanje funkcij in kompleksno igranje vlog
- Reševanje težav z mešanjem jezikov
- Izboljšanje hitrega inženiringa
- Izboljšanje zmogljivosti pri nalogah programskega inženiringa
Zaključek
DeepSeek-R1 predstavlja pomemben napredek v zmožnostih sklepanja z umetno inteligenco s pomočjo učenja z okrepitvijo. Uspeh tako glavnega modela kot njegovih destiliranih različic dokazuje potencial tega pristopa za razvoj zmogljivejših sistemov AI. Odprtokodna izdaja teh modelov bo prispevala k nadaljnjim raziskavam in razvoju na tem področju.