Sažetak
Ovaj rad predstavlja modele rezoniranja prve generacije DeepSeek: DeepSeek-R1-Zero i DeepSeek-R1. DeepSeek-R1-Zero, obučen kroz učenje s pojačanjem (RL) bez nadziranog finog podešavanja (SFT), pokazuje izvanredne sposobnosti zaključivanja. Kroz RL, ono prirodno razvija snažna ponašanja rasuđivanja. Međutim, suočava se s izazovima poput loše čitljivosti i miješanja jezika. Kako bi se riješili ti problemi i poboljšala izvedba razmišljanja, razvijen je DeepSeek-R1, koji uključuje višestupanjsko učenje i podatke o hladnom startu prije RL-a. DeepSeek-R1 postiže performanse usporedive s OpenAI-o1-1217 na zadacima zaključivanja. Kako bi podržao istraživanje, DeepSeek otvara oba modela i šest gustih modela (1.5B, 7B, 8B, 14B, 32B, 70B) destiliranih iz DeepSeek-R1 na temelju Qwen i Llama.
Ključni doprinosi
Post-trening: Učenje za potkrepljivanje velikih razmjera
- Uspješno primijenjen RL izravno na osnovni model bez SFT-a
- Razvijen DeepSeek-R1-Zero, demonstrirajući mogućnosti poput samoprovjere i refleksije
- Prvo otvoreno istraživanje koje potvrđuje da se sposobnosti rasuđivanja mogu potaknuti isključivo kroz RL
- Predstavljen cjevovod za DeepSeek-R1 s dva RL stupnja i dva SFT stupnja
Destilacija: Osnaživanje manjih modela
- Pokazao da se obrasci razmišljanja iz većih modela mogu učinkovito destilirati u manje
- DeepSeek-R1 otvorenog izvora i njegov API za dobrobit istraživačke zajednice
- Fino podešeno nekoliko gustih modela koji pokazuju iznimne referentne performanse
- Destilirani modeli značajno nadmašuju prethodne modele otvorenog koda
Rezultati evaluacije
Zadaci zaključivanja
- DeepSeek-R1 postiže 79.8% Pass@1 na AIME 2024, nadmašujući OpenAI-o1-1217
- 97.3% rezultat na MATH-500, izjednačen s OpenAI-o1-1217
- Performanse na stručnoj razini u zadacima natjecanja u kodiranju s 2029 Elo ocjene na Codeforcesu
Zadaci znanja
- Izvanredni rezultati na MMLU (90.8%), MMLU-Pro (84.0%) i GPQA Diamond (71.5%)
- Nadmašuje druge zatvorene modele u obrazovnim zadacima
- Snažna izvedba na činjeničnim mjerilima poput SimpleQA
Opće mogućnosti
- Izvanredan je u kreativnom pisanju, odgovaranju na pitanja, uređivanju i sažimanju
- 87,6% dobitak na AlpacaEval 2.0 i 92,3% na ArenaHardu
- Snažna izvedba u zadacima razumijevanja dugog konteksta
Budući rad
Tim se planira usredotočiti na:
- Poboljšanje općih sposobnosti u područjima kao što su pozivanje funkcija i složeno igranje uloga
- Rješavanje problema miješanja jezika
- Poboljšanje inženjeringa sumptinga
- Poboljšanje performansi na zadacima softverskog inženjeringa
Zaključak
DeepSeek-R1 predstavlja značajan napredak u sposobnostima AI zaključivanja putem učenja s potkrepljenjem. Uspjeh i glavnog modela i njegovih destiliranih verzija pokazuje potencijal ovog pristupa za razvoj sposobnijih AI sustava. Izdanje ovih modela s otvorenim kodom pridonijet će daljnjem istraživanju i razvoju na tom području.