Danes bomo delili DeepSeek R1, Naslov: DeepSeek-R1: Spodbujanje zmožnosti sklepanja pri LLM prek učenja s podkrepitvijo: Spodbujanje zmožnosti sklepanja pri LLM prek učenja z okrepitvijo.
Ta članek predstavlja prvo generacijo modelov razmišljanja DeepSeek, DeepSeek-R1-Nič in DeepSeek-R1. Model DeepSeek-R1-Zero je bil usposobljen obsežno krepitveno učenje (RL) brez nadzorovanega natančnega prilagajanja (SFT) kot začetni korak, ki prikazuje potencial RL in vrhunske zmožnosti sklepanja prinaša. Z učenjem s krepitvijo, DeepSeek-R1-Zero se je naravno pojavil s številnimi zmogljivimi in zanimivimi načini sklepanja. Za dodatno optimizacijo nekaterih težav z R1-Zero (jezikovne zmede, izboljšana sposobnost posploševanja) so izdali DeepSeek-R1, ki združuje večstopenjsko usposabljanje in fino nastavitev podatkov hladnega zagona pred učenjem okrepitve. DeepSeek-R1 je dosegel primerljivo zmogljivost na nalogo sklepanja z OpenAI-01-1217. Da bi podprli raziskovalno skupnost, so odprtokodni DeepSeek-R1-Zero, DeepSeek-R1 in šest gostih modelov (1,5B, 7B, 8B, 14B, 32B, 70B), pridobljenih iz DeepSeek-R1, ki temeljijo na Qwen in Llama.
Značilnosti metode so povzete, kot sledi:
- Okrepljeno učenje se uporabi neposredno na osnovnem modelu, brez zanašanja na nadzorovano fino uravnavanje (SFT) kot začetni korak.
- Predstavljen je razvojni proces DeepSeek-R1, ki združuje dve fazi učenja krepitve in dve nadzorovani fazi natančnega uravnavanja, da postavi temelje za zmožnosti sklepanja in nesklepanja modela.
- Učinkovitost majhnih modelov pri nalogah sklepanja je izboljšana s prenosom vzorcev sklepanja velikih modelov v majhne modele prek tehnike destilacije.
Pregled
- Naslov: DeepSeek-R1: Spodbujanje zmožnosti sklepanja v študijih LLM s pomočjo učenja za okrepitev
- Avtorji: DeepSeek-AI
- Github: deepseek R1
Motivacija
- Trenutni veliki jezikovni modeli (LLM) so znatno napredovali pri nalogah sklepanja, vendar se še vedno soočajo z izzivi.
- Potencial čistega okrepitveno učenje (RL) pri izboljšanju sposobnosti sklepanja magistrov študija znanja ni bilo v celoti raziskano, zlasti brez zanašanja na nadzorovane podatke.
- Preko RL šolani modeli, kot npr DeepSeek-R1-Zero, imajo težave z berljivostjo in mešanjem jezikov (npr. mešano govorjenje kitajščine in angleščine) in potrebujejo nadaljnje izboljšave za izboljšanje prijaznosti do uporabnika.
Metode

DeepSeek-R1-Nič: Uporablja DeepSeek-V3-Base kot osnovni model in GRPO (Group Relative Policy Optimization) kot okrepitveno učenje okvir, brez nadzorovanih podatkov za izboljšanje zmogljivosti modela pri sklepanju.
DeepSeek-R1:
- Hladni zagon: Zbere majhno količino visokokakovostnih dolgih podatkov CoT (Chain-of-Thought) in natančno prilagodi DeepSeek-V3-Osnovni model kot začetni akter za krepitveno učenje.
- Okrepljeno učenje, usmerjeno v sklepanje: enako proces usposabljanja za krepitev učenja, kot je uporabljen DeepSeek-R1-Zero, vendar s poudarkom na izboljšanju sposobnosti sklepanja modela na področjih, kot so kodiranje, matematika, znanost in logično sklepanje. Nagrade za jezikovno doslednost so uvedene, da ublažijo problem jezikovnega mešanja, do katerega pride v CoT.
- Vzorčenje zavrnitve in nadzorovano fino uravnavanje: Uporablja konvergenčno kontrolno točko okrepitvenega učenja za zbiranje podatkov nadzorovanega natančnega uravnavanja (SFT). za nadaljnje usposabljanje.
- Učenje s krepitvijo za vse scenarije: Izvaja drugostopenjsko fazo učenja s krepitvijo, katere namen je izboljšati uporabnost in neškodljivost modela ob optimizaciji njegove sposobnosti sklepanja.
- Destilacija znanja: Natančno prilagodi odprtokodna modela Qwen in Llama neposredno z uporabo 800.000 vzorcev, ki jih kurira DeepSeek-R1.
Podrobne metode in postopki:

DeepSeek-R1-Zero: Okrepitveno učenje za osnovne modele
- Algoritem učenja okrepitve: Uporablja algoritem Group Relative Policy Optimization (GRPO), ki ne zahteva a kritik model, oceni izhodišče glede na rezultate skupine in zmanjša stroške usposabljanja.
- Modeliranje nagrajevanja: Uporablja a sistem nagrajevanja, ki temelji na pravilih, vključno z

- nagrada za natančnost: Oceni, ali je odgovor pravilen, na primer pravilnost končnega rezultata odgovor na matematično nalogo, povratne informacije prevajalnika za težave s kodo.
- Oblika nagrade: Spodbuja model k umestiti miselni proces med
in
oznake.
Predloga za usposabljanje: Predloga, ki vsebuje in
Tags je zasnovan tako, da vodi model, da najprej izpiše proces razmišljanja in nato končni odgovor.

- Samoevolucijski proces: Predstavljen DeepSeek-R1-Zero samoevolucijskih značilnosti med usposabljanjem in se je lahko samostojno naučil kompleksnejših strategij sklepanja, kot sta refleksija in raziskovanje več poti reševanja problemov.

DeepSeek-R1: Okrepljeno učenje v kombinaciji s hladnim zagonom

- Hladni zagon: Za reševanje DeepSeek-R1-Zero's problem berljivosti, DeepSeek-R1 najprej zbere majhno količino visokokakovostni podatki CoT in natančno prilagodi model DeepSeek-V3-Base služi kot začetni akter za krepitveno učenje. Podatki o hladnem zagonu vsebuje oznake povzetka in neprijazne odgovore se filtrirajo.
- Metoda: 1) Izberite visokokakovostne podatke Long COT. 2) Dodaj in oznake.
- Prednosti: 1) Optimizirana berljivost (reši večjezični problem R1-Zero ali problem formata markdown). 2) Skrbno izbrani podatki za ljudi lahko še naprej izboljšujejo zmogljivost na R1-Zero.
- Vprašanje: Zakaj rešiti problem berljivosti? Ali ni mogoče delati bolje, ne da bi ga rešili (npr. zmanjšanje dolžine izhoda in učinkovitejše sklepanje)?
- RL, usmerjen v sklepanje: Temelji na modelu hladnega zagona, učni proces krepitve, podoben Uporabljen je DeepSeek-R1-Zero, ki se osredotoča na izboljšanje sposobnosti modela pri nalogah, kot so kodiranje, matematika, znanstveno in logično razmišljanje.. Za rešitev problema mešanih jezikov (večjezično sklepanje), nagrade za jezikovno doslednost so uvedeni.
- Vprašanje: Kako se urijo naloge znanstvenega in logičnega sklepanja ter nabori podatkov?
- Vzorčenje zavrnitev in SFT: Ko se s sklepanjem vodeno ojačitveno učenje konvergira, se pridobljena kontrolna točka uporabi za vzorčenje zavrnitve za ustvarjanje novih podatkov SFT, ki so združeni s podatki iz DeepSeek-V3 za izboljšanje zmogljivosti modela pri pisanju, igranju vlog in splošnih opravilih.
- Namen:
- Ta faza se začne po na sklepanje usmerjen proces učenja s krepitvijo (RL) konvergira.
- Glavni cilj je, da zbiranje podatkov o nadzorovani fini nastavitvi (SFT). za uporabo v naslednjih krogih usposabljanja.
- Za razliko od začetnih podatkov o hladnem zagonu, ki se osredotočajo le na sklepanje, je cilj te faze razširite zmogljivosti modela za pokrivanje pisanja, igranja vlog in drugih splošnih nalog, ne le sklepanja.
- Zbiranje podatkov – sklepni podatki:
- metoda: Uporabite kontrolne točke, pridobljene iz na sklepanje usmerjene faze RL, da ustvarite trajektorije sklepanja z vzorčenjem zavrnitve.
- Razširitev nabora podatkov: Za razliko od prejšnje faze RL, ki je uporabljala samo podatke o nagradah, ki temeljijo na pravilih, so tu predstavljeni podatki o nagradah, ki ne temeljijo na pravilih. V nekaterih primerih se za določitev odziva uporablja generativni model nagrajevanja (DeepSeek-V3).
- Filtriranje podatkov: Za zagotovitev kakovosti in berljivosti je izpis filtriran, da se odstrani:
- miselne verige, ki vsebujejo mešane jezike
- dolgi odstavki
- kodni bloki
- Vzorčenje in izbor: Za vsak poziv je bilo ustvarjenih več odgovorov. Za nabor podatkov je bil ohranjen samo "pravilen" odgovor.
- Velikost nabora podatkov: Približno 600.000 vzorcev usposabljanja, povezanih s sklepanjem so bili zbrani na ta način.
- Zbiranje podatkov – podatki brez sklepanja:
- Pokritost: Pisanje, odgovarjanje na dejanska vprašanja (QA), samozavedanje in prevajanje.
- Prispevek omenja uporabo Postopek DeepSeek-V3 in ponovno uporabi del nabora podatkov SFT DeepSeek-V3 za reševanje teh nalog brez sklepanja. O tem 200.000 od sklepanja neodvisnih vzorcev so bili zbrani. (Opomba: podrobnosti o zbiranju podatkov, ki niso sklepanje, so nadalje opisane v razdelku 2.3.4.)
- Uporaba zbranih podatkov:
- Zbrane podatke o sklepanju in nesklepanju (skupaj približno 800.000 vzorcev – 600.000 vzorcev sklepanja + 200.000 vzorcev nesklepanja) smo nato uporabili za natančno prilagodite model DeepSeek-V3-Base za dve obdobji. Ta natančno nastavljeni model je bil nato uporabljen v končni fazi RL, opisani v razdelku 2.3.4.
- Povzetek Ta korak uporablja zmožnosti sklepanja prek RL naučil ustvarjati raznolik in visokokakovosten nabor podatkov SFT. Ta niz podatkov krepi zmožnosti sklepanja in tudi širi splošne zmožnosti model za usposabljanje v fazi končne uskladitve in izboljšave.
- Namen:
- Učenje s krepitvijo za vse scenarije: Za nadaljnjo uskladitev človeških preferenc se izvaja druga faza učenja s krepitvijo, da se izboljša uporabnost in neškodljivost modela.
- Podatki o sklepanju: npr. matematika, koda, logično sklepanje ali nadzorovani z metodami baze pravil.
- Splošni podatki: modeli nagrajevanja se še vedno uporabljajo za zagotavljanje informacij o preferencah za zapletene in subtilne scenarije. Ocenjeni so tudi modeli, usposobljeni s podatki po parih.
- Uporabnost: osredotočite se le na končne rezultate povzetka, kar zmanjša motnje v postopku sklepanja.
- Neškodljivost: nadzirajte celoten odziv, da zmanjšate morebitna tveganja.
Modelna destilacija (destilacija):
- Da bi pridobili učinkovitejši model majhnega sklepanja, članek destilira sposobnost sklepanja DeepSeek-R1 v odprtokodne modele serije Qwen in Llama. Postopek destilacije uporablja samo nadzorovano fino uravnavanje (SFT) in ne uporablja stopnje učenja s krepitvijo.
Zaključek
DeepSeek-R1-Nič: Prikazuje potencial čisto okrepljeno učenje pri motiviranju zmožnosti sklepanja LLM in lahko doseže visoko učinkovitost brez zanašanja na nadzorovane podatke.


- Aha-trenutek: Lepota učenja s krepitvijo (trenutek razsvetljenja modela, kjer je dodeli več časa za razmišljanje problemu tako, da se nauči ponovnega ocenjevanja začetni pristop)
- Izhodna dolžina se še naprej povečuje (čas za razmišljanje se še naprej povečuje)
- Natančnost se še naprej izboljšuje (vzorčenje 16 odgovorov za izračun natančnosti)

- DeepSeek-R1: Nadalje izboljšuje zmogljivost modela s kombiniranjem podatkov o hladnem zagonu in natančnega prilagajanja iterativnega učenja krepitve, doseganje ravni, primerljive z OpenAI-01-1217 pri različnih nalogah.

- Destilacija znanja: Z uporabo DeepSeek-R1 kot modela učiteljev je bilo ustvarjenih 800K vzorcev usposabljanja in več majhnih, gostih modelov je bilo natančno nastavljenih. Rezultati kažejo, da to metoda destilacije lahko znatno izboljša sposobnost sklepanja majhni modeli.
Omejitev
- Omejitev 1: splošno sposobnost DeepSeek-R1 je treba izboljšati. DeepSeek-R1 je še vedno slabši od DeepSeek-V3 pri nalogah, kot so funkcijski klici, večobratni dialog, zapleteno igranje vlog in izhod JSON.
- Omejitev 2: Težava z mešanjem jezikov. DeepSeek-R1 lahko naleti na težavo z mešanjem jezikov pri obdelavi nekitajskih in neangleških poizvedb, na primer razmišljanja in odgovarjanja v angleščini.
- Omejitev 3: Hitra občutljivost. DeepSeek-R1 je občutljiv na pozivne besede in nekajkratni pozivi bodo zmanjšali njegovo delovanje.
- Omejitev 4: omejena uporaba na naloge programskega inženiringa. Zaradi dolgega ocenjevalnega časa obsežno okrepljeno učenje ni bilo v celoti uporabljeno pri nalogah programskega inženiringa in DeepSeek-R1 ima omejeno izboljšavo v primerjavi z DeepSeek-V3 pri merilih uspešnosti programskega inženiringa.