Paper-DeepSeek-R1: Poticanje sposobnosti rasuđivanja na LLM-u putem učenja s pojačanjem

Sadržaj

Sažetak

Ovaj rad predstavlja modele rezoniranja prve generacije DeepSeek: DeepSeek-R1-Zero i DeepSeek-R1. DeepSeek-R1-Zero, obučen kroz učenje s pojačanjem (RL) bez nadziranog finog podešavanja (SFT), pokazuje izvanredne sposobnosti zaključivanja. Kroz RL, ono prirodno razvija snažna ponašanja rasuđivanja. Međutim, suočava se s izazovima poput loše čitljivosti i miješanja jezika. Kako bi se riješili ti problemi i poboljšala izvedba razmišljanja, razvijen je DeepSeek-R1, koji uključuje višestupanjsko učenje i podatke o hladnom startu prije RL-a. DeepSeek-R1 postiže performanse usporedive s OpenAI-o1-1217 na zadacima zaključivanja. Kako bi podržao istraživanje, DeepSeek otvara oba modela i šest gustih modela (1.5B, 7B, 8B, 14B, 32B, 70B) destiliranih iz DeepSeek-R1 na temelju Qwen i Llama.

Ključni doprinosi

Post-trening: Učenje za potkrepljivanje velikih razmjera

Uspješno primijenjen RL izravno na osnovni model bez SFT-a
Razvijen DeepSeek-R1-Zero, demonstrirajući mogućnosti poput samoprovjere i refleksije
Prvo otvoreno istraživanje koje potvrđuje da se sposobnosti rasuđivanja mogu potaknuti isključivo kroz RL
Predstavljen cjevovod za DeepSeek-R1 s dva RL stupnja i dva SFT stupnja

Destilacija: Osnaživanje manjih modela

Pokazao da se obrasci razmišljanja iz većih modela mogu učinkovito destilirati u manje
DeepSeek-R1 otvorenog izvora i njegov API za dobrobit istraživačke zajednice
Fino podešeno nekoliko gustih modela koji pokazuju iznimne referentne performanse
Destilirani modeli značajno nadmašuju prethodne modele otvorenog koda

Rezultati evaluacije

Zadaci zaključivanja

DeepSeek-R1 postiže 79.8% Pass@1 na AIME 2024, nadmašujući OpenAI-o1-1217
97.3% rezultat na MATH-500, izjednačen s OpenAI-o1-1217
Performanse na stručnoj razini u zadacima natjecanja u kodiranju s 2029 Elo ocjene na Codeforcesu

Zadaci znanja

Izvanredni rezultati na MMLU (90.8%), MMLU-Pro (84.0%) i GPQA Diamond (71.5%)
Nadmašuje druge zatvorene modele u obrazovnim zadacima
Snažna izvedba na činjeničnim mjerilima poput SimpleQA

Opće mogućnosti

Izvanredan je u kreativnom pisanju, odgovaranju na pitanja, uređivanju i sažimanju
87,6% dobitak na AlpacaEval 2.0 i 92,3% na ArenaHardu
Snažna izvedba u zadacima razumijevanja dugog konteksta

Budući rad

Tim se planira usredotočiti na:

Poboljšanje općih sposobnosti u područjima kao što su pozivanje funkcija i složeno igranje uloga
Rješavanje problema miješanja jezika
Poboljšanje inženjeringa sumptinga
Poboljšanje performansi na zadacima softverskog inženjeringa

Zaključak

DeepSeek-R1 predstavlja značajan napredak u sposobnostima AI zaključivanja putem učenja s potkrepljenjem. Uspjeh i glavnog modela i njegovih destiliranih verzija pokazuje potencijal ovog pristupa za razvoj sposobnijih AI sustava. Izdanje ovih modela s otvorenim kodom pridonijet će daljnjem istraživanju i razvoju na tom području.

DeepSeek_R1 preuzimanje

Nekategorizirano

Googleov jeftini model, serija Gemini 2.0, napada: borba za isplativost kod velikih modela se zaoštrava

Pozddeepseeker 8. veljače 20258. veljače 2025

Visoka cijena korištenja velikih AI modela glavni je razlog zašto mnoge AI aplikacije još nisu implementirane i promovirane. Odabir ekstremnih performansi znači velike troškove računalne snage, što dovodi do visokih troškova korištenja koje obični korisnici ne mogu prihvatiti. Natjecanje za velike AI modele je poput rata bez dima. Nakon…

Nekategorizirano

Što Deepseek može postići? Čak ni OpenAI to ne može?

Pozddeepseeker 10. veljače 202510. veljače 2025

Prava vrijednost DeepSeek je podcijenjena! DeepSeek-R1 je bez sumnje donio novi val entuzijazma na tržište. Ne samo da relevantni takozvani ciljevi korisnika naglo rastu, već su neki ljudi čak razvili tečajeve i softver povezane s DeepSeek u pokušaju da od toga zarade. Vjerujemo da iako ovi fenomeni imaju...

Nekategorizirano

Artefakti upravljanja velikim jezičnim modelom kao što su DeepSeek: Cherry Studio, Chatbox, AnythingLLM, tko je vaš akcelerator učinkovitosti?

Pozddeepseeker 11. veljače 202511. veljače 2025

Mnogi su ljudi već počeli implementirati i koristiti Deepseek Large Language Models lokalno, koristeći Chatbox kao alat za vizualizaciju. Ovaj će članak nastaviti predstavljati dva druga artefakta za upravljanje i vizualizaciju AI Large Language Modela i detaljno će ih usporediti kako bi vam pomogao da učinkovitije koristite AI Large Language Models. Godine 2025.…

Nekategorizirano

DeepSeek-R1-0528 Ažuriranje: Dublje razmišljanje, jače rasuđivanje

Pozddeepseeker 29. svibnja 2025.29. svibnja 2025.

Model DeepSeek R1 je prošao kroz manju nadogradnju verzije, a trenutna verzija je DeepSeek-R1-0528. Kada uđete na web stranicu ili aplikaciju DeepSeek, omogućite značajku "Duboko razmišljanje" u dijaloškom sučelju kako biste iskusili najnoviju verziju. Težine modela DeepSeek-R1-0528 prenesene su na HuggingFace. Tijekom protekla četiri mjeseca, DeepSeek-R1 je prošao kroz…

Nekategorizirano

Udarne vijesti! Istraživač DeepSeek otkriva na mreži: R1 obuka trajala je samo dva do tri tjedna, a snažna evolucija R1 zero primijećena je tijekom kineskih novogodišnjih praznika

Pozddeepseeker 4. veljače 20254. veljače 2025

Udarne vijesti! DeepSeek istraživač otkriva na mreži: R1 obuka trajala je samo dva do tri tjedna, a snažna evolucija R1 zero primijećena je tijekom kineskih novogodišnjih praznika Upravo smo primijetili da je DeepSeek istraživač Daya Guo odgovorio na pitanja korisnika interneta o DeepSeek R1 i planovima tvrtke ide naprijed. Možemo samo reći…

Nekategorizirano

Gemini 2.0 dominira ljestvicama, dok DeepSeek V3 plače zbog svoje cijene, a novi isplativi prvak je rođen!

Pozddeepseeker 8. veljače 20258. veljače 2025

Obitelj Google Gemini 2.0 konačno je kompletirana! Dominira top listama čim se objavi. Usred potjere i blokada Deepseeka, Qwena i o3, Google je rano jutros u jednom potezu objavio tri modela: Gemini 2.0 Pro, Gemini 2.0 Flash i Gemini 2.0 Flash-Lite. Na ljestvici velikog modela LMSYS, Gemini…

Sažetak

Ključni doprinosi

Post-trening: Učenje za potkrepljivanje velikih razmjera

Destilacija: Osnaživanje manjih modela

Rezultati evaluacije

Zadaci zaključivanja

Zadaci znanja

Opće mogućnosti

Budući rad

Zaključak

Slični postovi

Odgovori Otkaži odgovor