Sažetak

Ovaj rad predstavlja modele rezoniranja prve generacije DeepSeek: DeepSeek-R1-Zero i DeepSeek-R1. DeepSeek-R1-Zero, obučen kroz učenje s pojačanjem (RL) bez nadziranog finog podešavanja (SFT), pokazuje izvanredne sposobnosti zaključivanja. Kroz RL, ono prirodno razvija snažna ponašanja rasuđivanja. Međutim, suočava se s izazovima poput loše čitljivosti i miješanja jezika. Kako bi se riješili ti problemi i poboljšala izvedba razmišljanja, razvijen je DeepSeek-R1, koji uključuje višestupanjsko učenje i podatke o hladnom startu prije RL-a. DeepSeek-R1 postiže performanse usporedive s OpenAI-o1-1217 na zadacima zaključivanja. Kako bi podržao istraživanje, DeepSeek otvara oba modela i šest gustih modela (1.5B, 7B, 8B, 14B, 32B, 70B) destiliranih iz DeepSeek-R1 na temelju Qwen i Llama.

Ključni doprinosi

Post-trening: Učenje za potkrepljivanje velikih razmjera

  • Uspješno primijenjen RL izravno na osnovni model bez SFT-a
  • Razvijen DeepSeek-R1-Zero, demonstrirajući mogućnosti poput samoprovjere i refleksije
  • Prvo otvoreno istraživanje koje potvrđuje da se sposobnosti rasuđivanja mogu potaknuti isključivo kroz RL
  • Predstavljen cjevovod za DeepSeek-R1 s dva RL stupnja i dva SFT stupnja

Destilacija: Osnaživanje manjih modela

  • Pokazao da se obrasci razmišljanja iz većih modela mogu učinkovito destilirati u manje
  • DeepSeek-R1 otvorenog izvora i njegov API za dobrobit istraživačke zajednice
  • Fino podešeno nekoliko gustih modela koji pokazuju iznimne referentne performanse
  • Destilirani modeli značajno nadmašuju prethodne modele otvorenog koda

Rezultati evaluacije

Zadaci zaključivanja

  • DeepSeek-R1 postiže 79.8% Pass@1 na AIME 2024, nadmašujući OpenAI-o1-1217
  • 97.3% rezultat na MATH-500, izjednačen s OpenAI-o1-1217
  • Performanse na stručnoj razini u zadacima natjecanja u kodiranju s 2029 Elo ocjene na Codeforcesu

Zadaci znanja

  • Izvanredni rezultati na MMLU (90.8%), MMLU-Pro (84.0%) i GPQA Diamond (71.5%)
  • Nadmašuje druge zatvorene modele u obrazovnim zadacima
  • Snažna izvedba na činjeničnim mjerilima poput SimpleQA

Opće mogućnosti

  • Izvanredan je u kreativnom pisanju, odgovaranju na pitanja, uređivanju i sažimanju
  • 87,6% dobitak na AlpacaEval 2.0 i 92,3% na ArenaHardu
  • Snažna izvedba u zadacima razumijevanja dugog konteksta

Budući rad

Tim se planira usredotočiti na:

  1. Poboljšanje općih sposobnosti u područjima kao što su pozivanje funkcija i složeno igranje uloga
  2. Rješavanje problema miješanja jezika
  3. Poboljšanje inženjeringa sumptinga
  4. Poboljšanje performansi na zadacima softverskog inženjeringa

Zaključak

DeepSeek-R1 predstavlja značajan napredak u sposobnostima AI zaključivanja putem učenja s potkrepljenjem. Uspjeh i glavnog modela i njegovih destiliranih verzija pokazuje potencijal ovog pristupa za razvoj sposobnijih AI sustava. Izdanje ovih modela s otvorenim kodom pridonijet će daljnjem istraživanju i razvoju na tom području.

Slični postovi

Odgovori

Vaša adresa e-pošte neće biti objavljena. Obavezna polja su označena sa * (obavezno)