Danas ćemo podijeliti DeepSeek R1, Naslov: DeepSeek-R1: Poticanje sposobnosti rasuđivanja u LLM-u putem dodatnog učenja: Poticanje sposobnosti rasuđivanja LLM-a putem dodatnog učenja.
Ovaj rad predstavlja prvu generaciju modela rezoniranja DeepSeek, DeepSeek-R1-Nula i DeepSeek-R1. Model DeepSeek-R1-Zero prošao je obuku veliko učenje s pojačanjem (RL) bez nadziranog finog podešavanja (SFT) kao početni korak, demonstrirajući potencijal RL-a i superiorne sposobnosti zaključivanja donosi. Kroz učenje s pojačanjem, DeepSeek-R1-Zero prirodno se pojavio s mnogo snažnih i zanimljivih načina razmišljanja. Kako bi dodatno optimizirali neke od problema s R1-Zero (jezične zabune, poboljšana sposobnost generalizacije), objavili su DeepSeek-R1, koji kombinira višestupanjsko uvježbavanje i fino ugađanje podataka hladnog pokretanja prije učenja s pojačanjem. DeepSeek-R1 postigao je usporedive performanse na zadatku zaključivanja s OpenAI-01-1217. Kako bi podržali istraživačku zajednicu, jesu otvorenog izvora DeepSeek-R1-Zero, DeepSeek-R1 i šest gustih modela (1.5B, 7B, 8B, 14B, 32B, 70B) destiliranih iz DeepSeek-R1, koji se temelje na Qwenu i Llami.
Karakteristike metode su sažete kako slijedi:
- Učenje s pojačanjem primjenjuje se izravno na osnovni model, bez oslanjanja na nadzirano fino podešavanje (SFT) kao početni korak.
- Predstavljen je razvojni proces DeepSeek-R1, koji kombinira dvije faze učenja s pojačanjem i dvije nadzirane faze finog podešavanja kako bi se postavili temelji za sposobnosti rezoniranja i nerezoniranja modela.
- Izvedba malih modela na zadacima rasuđivanja poboljšana je prijenosom obrazaca rasuđivanja velikih modela na male modele kroz tehnike destilacije.
Pregled
- Titula: DeepSeek-R1: Poticanje sposobnosti rasuđivanja na LLM-u putem učenja s pojačanjem
- Autori: DeepSeek-AI
- Github: deepseek R1
Motivacija
- Trenutačni veliki jezični modeli (LLM) značajno su napredovali u zadacima zaključivanja, ali se i dalje suočavaju s izazovima.
- Potencijal čistog učenje s potkrepljenjem (RL) u poboljšanju sposobnosti zaključivanja LLM-a nije u potpunosti istraženo, posebno bez oslanjanja na nadzirane podatke.
- Modeli obučeni kroz RL, kao što su DeepSeek-R1-Zero, imaju problema s čitljivošću i miješanjem jezika (npr. govorenje kineskog i engleskog pomiješano) i potrebno im je daljnje poboljšanje kako bi se poboljšala jednostavnost korištenja.
Metode

DeepSeek-R1-nula: Koristi DeepSeek-V3-Base kao osnovni model i GRPO (Group Relative Policy Optimization) kao potkrepljujuće učenje okvir, bez nadziranih podataka za poboljšanje izvedbe modela u zaključivanju.
DeepSeek-R1:
- Hladni start: Prikuplja malu količinu visokokvalitetnih dugih CoT (Chain-of-Thought) podataka i fino podešava DeepSeek-V3-Osnovni model kao početni akter za potkrepljujuće učenje.
- Učenje s potkrepljenjem usmjereno na rasuđivanje: Isti primijenjen je proces obuke učenja za pojačanje kao DeepSeek-R1-Zero, ali s fokusom na poboljšanje sposobnosti razmišljanja modela u područjima kao što su kodiranje, matematika, znanost i logičko zaključivanje. Nagrade za jezičnu dosljednost uvode se kako bi se ublažio problem jezičnog miješanja do kojeg dolazi u CoT.
- Uzorkovanje odbijanja i nadzirano fino podešavanje: Koristi konvergiranu kontrolnu točku učenja s pojačanjem za prikupljati podatke o nadziranom finom podešavanju (SFT). za naknadnu obuku.
- Učenje s potkrepljenjem za sve scenarije: Implementira fazu potkrepljenog učenja druge razine, koja ima za cilj poboljšati korisnost i bezopasnost modela uz optimizaciju njegove sposobnosti rasuđivanja.
- Destilacija znanja: Fino podešava modele otvorenog koda Qwen i Llama izravno koristeći 800k uzoraka koje je kurirao DeepSeek-R1.
Detaljne metode i postupci:

DeepSeek-R1-Zero: Učenje pojačanja za osnovne modele
- Algoritam učenja pojačanja: Koristi algoritam grupne relativne optimizacije pravila (GRPO), koji ne zahtijeva a kritičar model, procjenjuje osnovnu vrijednost prema grupnim rezultatima i smanjuje troškove obuke.
- Modeliranje nagrada: Koristi a sustav nagrađivanja temeljen na pravilima, uključujući

- nagrada za točnost: Ocjenjuje je li odgovor točan, kao što je točnost konačnog rezultata odgovor na matematički problem, povratna informacija prevoditelja za probleme koda.
- Format nagrade: Potiče model da smjestiti proces razmišljanja između
i
oznake.
Predložak za obuku: Predložak koji sadrži i
oznake je dizajniran za voditi model da prvo ispiše proces razmišljanja, a zatim konačni odgovor.

- Samoevolucijski proces: DeepSeek-R1-Zero prikazan samoevolucijskim karakteristikama tijekom obuke i bio je u mogućnosti samostalno naučiti složenije strategije zaključivanja, kao što su refleksija i istraživanje višestrukih putova rješavanja problema.

DeepSeek-R1: Učenje s pojačanjem u kombinaciji s hladnim startom

- Hladni start: Za rješavanje DeepSeek-R1-Zero's problem čitljivosti, DeepSeek-R1 prvo prikuplja malu količinu visokokvalitetni CoT podaci i fino podešava model DeepSeek-V3-Base na služe kao početni akter za učenje s potkrepljenjem. Podaci o hladnom startu sadrži oznake sažetka i neprijateljske odgovore se filtriraju.
- Metoda: 1) Odaberite visokokvalitetne Long COT podatke. 2) Dodajte i oznake.
- Prednosti: 1) Optimizirana čitljivost (riješi višejezični problem R1-Zero ili problem formata oznake). 2) Pažljivo odabrani podaci koje preferiraju ljudi mogu nastaviti poboljšavati performanse na R1-Zero.
- Pitanje: Zašto rješavati problem čitljivosti? Nije li moguće učiniti bolje bez rješavanja (npr. smanjenje duljine izlaza i učinkovitije zaključivanje)?
- RL usmjeren na rasuđivanje: Na temelju modela hladnog pokretanja, proces učenja s potkrepljenjem sličan Primjenjuje se DeepSeek-R1-Zero, fokusirajući se na poboljšanje sposobnosti modela u zadacima kao što su kodiranje, matematika, znanstveno i logičko razmišljanje. Za rješavanje problema miješanih jezika (višejezično zaključivanje), nagrade za dosljednost jezika su uvedeni.
- Pitanje: Kako se obučavaju zadaci znanstvenog i logičkog zaključivanja i skupovi podataka?
- Uzorkovanje odbijanja i SFT: Nakon što se učenje potkrepljenja vođeno zaključivanjem konvergira, dobivena kontrolna točka koristi se za odbijajuće uzorkovanje za generiranje novih SFT podataka, koji se kombiniraju s podacima iz DeepSeek-V3 kako bi se poboljšale mogućnosti modela u pisanju, igranju uloga i općim zadacima.
- Svrha:
- Ova faza započinje nakon proces učenja potkrepljenja (RL) usmjeren na zaključivanje konvergira.
- Glavni cilj je da se prikupljati podatke o nadziranom finom podešavanju (SFT). za korištenje u sljedećim krugovima obuke.
- Za razliku od početnih podataka o hladnom pokretanju, koji se fokusiraju samo na zaključivanje, ova faza ima za cilj proširiti mogućnosti modela za pokrivanje pisanja, igranja uloga i drugih zadataka opće namjene, a ne samo zaključivanja.
- Prikupljanje podataka – podaci o zaključivanju:
- metoda: Upotrijebite kontrolne točke dobivene iz RL faze usmjerene na zaključivanje za generiranje trajektorija zaključivanja odbijajućim uzorkovanjem.
- Proširenje skupa podataka: Za razliku od prethodne RL faze, koja je koristila samo podatke o nagradama temeljene na pravilima, ovdje se uvode podaci o nagradama koji se ne temelje na pravilima. U nekim se slučajevima za određivanje odgovora koristi generativni model nagrađivanja (DeepSeek-V3).
- Filtriranje podataka: Kako bi se osigurala kvaliteta i čitljivost, izlaz se filtrira kako bi se uklonilo:
- misaone lance koji sadrže miješane jezike
- dugi paragrafi
- kodni blokovi
- Uzorkovanje i odabir: Za svaki upit generirano je više odgovora. Za skup podataka zadržan je samo "točan" odgovor.
- Veličina skupa podataka: Približno 600.000 uzoraka obuke povezanih s zaključivanjem prikupljeni su na ovaj način.
- Prikupljanje podataka – podaci bez zaključivanja:
- Pokrivenost: Pisanje, odgovaranje na činjenična pitanja (QA), samosvijest i prijevod.
- U radu se spominje uporaba DeepSeek-V3 proces i ponovno koristi dio DeepSeek-V3 SFT skupa podataka za rješavanje ovih zadataka bez zaključivanja. Oko 200 000 uzoraka neovisnih o zaključivanju bili prikupljeni. (Napomena: pojedinosti o prikupljanju podataka koji ne uključuju zaključivanje dodatno su opisani u odjeljku 2.3.4.)
- Korištenje prikupljenih podataka:
- Prikupljeni podaci o obrazloženju i neobrazloženju (ukupno oko 800.000 uzoraka – 600.000 uzoraka obrazloženja + 200.000 uzoraka bez obrazloženja) korišteni su za fino podesite model DeepSeek-V3-Base za dvije epohe. Ovaj fino podešeni model je zatim korišten u završnoj RL fazi opisanoj u odjeljku 2.3.4.
- Sažetak Ovaj korak koristi mogućnosti zaključivanja naučio putem RL-a generirati raznolik i visokokvalitetan SFT skup podataka. Ovaj skup podataka jača mogućnosti zaključivanja i također proširuje opće mogućnosti model za obuku u fazi konačnog usklađivanja i poboljšanja.
- Svrha:
- Učenje s potkrepljenjem za sve scenarije: Za daljnje usklađivanje ljudskih preferencija implementirana je druga faza učenja s potkrepljenjem kako bi se poboljšala korisnost i bezopasnost modela.
- Podaci o zaključivanju: npr. matematika, kod, logički zaključak ili nadzirani metodama baze pravila.
- Opći podaci: modeli nagrađivanja i dalje se koriste za pružanje informacija o preferencijama za složene i suptilne scenarije. Također se procjenjuju modeli obučeni s podacima u paru.
- Korisnost: usredotočite se samo na konačne rezultate sažetka, smanjujući smetnje u procesu zaključivanja.
- Bezopasnost: nadgledajte cijeli odgovor kako biste smanjili sve rizike.
Model destilacije (Destilacija):
- Kako bi se dobio učinkovitiji model malog zaključivanja, rad destilira sposobnost zaključivanja DeepSeek-R1 u modele otvorenog koda serije Qwen i Llama. Proces destilacije koristi samo nadzirano fino podešavanje (SFT) a ne koristi fazu učenja s potkrepljenjem.
Zaključak
DeepSeek-R1-Nula: Pokazuje potencijal čisto učenje s pojačanjem u motiviranju LLM sposobnosti zaključivanja i može postići snažnu izvedbu bez oslanjanja na nadzirane podatke.


- Aha-trenutak: Ljepota učenja s potkrepljenjem (modelov trenutak prosvjetljenja, gdje je izdvaja više vremena za razmišljanje o problemu učeći ponovno procijeniti početni pristup)
- Duljina izlaza se nastavlja povećavati (vrijeme razmišljanja se nastavlja povećavati)
- Točnost se nastavlja poboljšavati (uzorkovanje 16 odgovora za izračunavanje točnosti)

- DeepSeek-R1: Dodatno poboljšava performanse modela kombiniranjem podataka o hladnom pokretanju i iterativnog finog podešavanja učenja pojačanja, postizanje razine usporedive s OpenAI-01-1217 na raznim zadacima.

- Destilacija znanja: Korištenjem DeepSeek-R1 kao modela nastavnika, generirano je 800K uzoraka obuke i nekoliko malih, gustih modela je fino podešeno. Rezultati pokazuju da ovo metoda destilacije može značajno poboljšati sposobnost zaključivanja mali modeli.
Ograničenje
- Ograničenje 1: Opću sposobnost DeepSeek-R1 treba poboljšati. DeepSeek-R1 je još uvijek inferioran u odnosu na DeepSeek-V3 u zadacima kao što su pozivi funkcija, višestruki dijalog, složeno igranje uloga i JSON izlaz.
- Ograničenje 2: Problem miješanja jezika. DeepSeek-R1 može naići na problem miješanja jezika prilikom obrade upita koji nisu kineski i koji nisu engleski, na primjer, razmišljanja i odgovaranja na engleskom.
- Ograničenje 3: brza osjetljivost. DeepSeek-R1 je osjetljiv na brze riječi, a nekoliko hitova će smanjiti njegovu izvedbu.
- Ograničenje 4: Ograničena primjena na zadatke softverskog inženjeringa. Zbog dugog vremena evaluacije, učenje pojačanja velikih razmjera nije u potpunosti primijenjeno na zadatke softverskog inženjerstva, a DeepSeek-R1 ima ograničeno poboljšanje u odnosu na DeepSeek-V3 u referentnim vrijednostima softverskog inženjerstva.