Šiandien pasidalinsime "DeepSeek R1, Pavadinimas: DeepSeek-R1: Mąstymo gebėjimų skatinimas LLM per stiprinimo mokymąsi: LLM samprotavimo gebėjimų skatinimas per stiprinimo mokymąsi.
Šiame dokumente pristatomi pirmosios kartos DeepSeek samprotavimo modeliai, "DeepSeek-R1-Zero ir DeepSeek-R1. DeepSeek-R1-Zero modelis buvo apmokytas didelio masto sustiprinimo mokymasis (RL) be prižiūrimo koregavimo (SFT) kaip pradinis žingsnis, parodantis RL potencialą ir puikias argumentavimo galimybes tai atneša. Per sustiprintą mokymąsi, DeepSeek-R1-Zero natūraliai atsirado su daug galingų ir įdomių samprotavimų. Siekdami dar labiau optimizuoti kai kurias problemas su R1-Zero (kalbinė painiava, patobulintas apibendrinimo gebėjimas), jie išleido DeepSeek-R1, kuris sujungia kelių pakopų mokymą ir šalto paleidimo duomenų koregavimą prieš sustiprinant mokymąsi. DeepSeek-R1 pasiekė panašų našumą dėl samprotavimo užduoties su OpenAI-01-1217. Norėdami paremti mokslinių tyrimų bendruomenę, jie turi atvirojo kodo DeepSeek-R1-Zero, DeepSeek-R1 ir šeši tankūs modeliai (1.5B, 7B, 8B, 14B, 32B, 70B), distiliuoti iš DeepSeek-R1, kurie yra pagrįsti Qwen ir Llama.
Metodo ypatybės apibendrintos taip:
- Sustiprinimo mokymasis taikomas tiesiogiai baziniam modeliui, nepasitikėdami prižiūrimu koregavimu (SFT) kaip pradiniu žingsniu.
- Pristatomas DeepSeek-R1 kūrimo procesas, kuris sujungia dvi sustiprinimo mokymosi fazes ir dvi prižiūrimas koregavimo fazes, kad būtų pagrindas modelio samprotavimo ir nemotyvavimo galimybėms.
- Mažų modelių našumas atliekant samprotavimo užduotis pagerinamas perkeliant didelių modelių samprotavimo modelius į mažus modelius distiliavimo būdai.
Apžvalga
- Pavadinimas: DeepSeek-R1: Mąstymo gebėjimų skatinimas LLM per sustiprintą mokymąsi
- Autoriai: DeepSeek-AI
- Github: deepseek R1
Motyvacija
- Dabartiniai didelių kalbų modeliai (LLM) padarė didelę pažangą atliekant išvadų užduotis, tačiau vis dar susiduria su iššūkiais.
- Gryno potencialas sustiprinimo mokymasis (RL) gerinant LLM mąstymo gebėjimus nebuvo iki galo ištirtas, ypač nepasikliaujant prižiūrimais duomenimis.
- Per RL apmokyti modeliai, pvz DeepSeek-R1-Zero, turi problemų dėl skaitomumo ir kalbų maišymo (pvz., kalbate mišriu kinų ir anglų kalbomis), todėl reikia toliau tobulinti, kad būtų patogu naudoti.
Metodai

DeepSeek-R1-Zero: Naudoja DeepSeek-V3-Base kaip bazinį modelį ir GRPO (Group Relative Policy Optimization) kaip mokymosi pastiprinimas karkasas, be prižiūrimų duomenų, kad pagerintų modelio našumą darant išvadas.
DeepSeek-R1:
- Šaltas paleidimas: Surenka nedidelį kiekį aukštos kokybės ilgų CoT (minčių grandinės) duomenų ir tiksliai suderina DeepSeek-V3-Pagrindinis modelis kaip pradinis sustiprinto mokymosi veikėjas.
- Į samprotavimus orientuotas stiprinimo mokymasis: Tas pats sustiprinimo mokymosi mokymo procesas, kaip taikomas DeepSeek-R1-Zero, tačiau pagrindinis dėmesys skiriamas modelio mąstymo gebėjimų tobulinimui. tokiose srityse kaip kodavimas, matematika, mokslas ir loginis samprotavimas. Kalbinio nuoseklumo atlygis įvedamas siekiant sušvelninti kalbinio maišymo problemą, kuri kyla CoT.
- Atmetimo atranka ir prižiūrimas tikslus derinimas: Naudoja sutvirtintą mokymosi kontrolės tašką rinkti prižiūrimo tikslaus derinimo (SFT) duomenis tolesniam mokymui.
- Sustiprinimo mokymasis visiems scenarijams: įgyvendina antrojo lygio sustiprinimo mokymosi etapą, kuriuo siekiama pagerinti modelio naudingumą ir nekenksmingumą optimizuojant jo samprotavimo galimybes.
- Žinių distiliavimas: Tiksliai suderinkite atvirojo kodo modelius Qwen ir Llama tiesiogiai naudodami 800 000 pavyzdžių, kuriuos kuruoja DeepSeek-R1.
Išsamūs metodai ir procedūros:

DeepSeek-R1-Zero: bazinių modelių sustiprinimo mokymasis
- Sustiprinimo mokymosi algoritmas: Naudoja grupės santykinės politikos optimizavimo (GRPO) algoritmą, kuris nereikalauja a kritikas modelį, įvertina pradinį lygį pagal grupės balus ir sumažina mokymo išlaidas.
- Atlygio modeliavimas: Naudoja a taisyklėmis pagrįsta atlygio sistema, įskaitant

- atlygis už tikslumą: Įvertina, ar atsakymas teisingas, pavyzdžiui, ar galutinis rezultatas yra teisingas matematikos uždavinio atsakymas, kodo problemų kompiliatoriaus atsiliepimai.
- Atlygio formatas: Skatina modelį padėkite mąstymo procesą tarp
ir
žymės.
Mokymų šablonas: Šablonas, kuriame yra ir
žymos yra skirtos vadovaukitės modeliu, kad iš pradžių būtų pateiktas mąstymo procesas, o tada – galutinis atsakymas.

- Savęs evoliucijos procesas: DeepSeek-R1-Zero parodytas savievoliucijos charakteristikos mokymosi metu ir galėjo savarankiškai išmokti sudėtingesnių samprotavimo strategijų, tokių kaip apmąstymas ir kelių problemų sprendimo būdų tyrinėjimas..

DeepSeek-R1: sustiprinimo mokymasis kartu su šaltu paleidimu

- Šaltas paleidimas: Norėdami išspręsti DeepSeek-R1-Zero's skaitomumo problema, DeepSeek-R1 pirmiausia surenka nedidelį kiekį aukštos kokybės CoT duomenys ir tiksliai suderina DeepSeek-V3-Base modelį tarnauja kaip pradinis sustiprinimo mokymosi dalyvis. Šalto paleidimo duomenys yra suvestinių žymų ir nedraugiškų atsakymų yra išfiltruojami.
- Metodas: 1) Pasirinkite aukštos kokybės Long COT duomenis. 2) Pridėti ir žymas.
- Privalumai: 1) Optimizuotas skaitomumas (išspręskite daugiakalbystės R1-Zero arba žymėjimo formato problemą). 2) Kruopščiai atrinkti žmogaus pageidaujami duomenys gali ir toliau gerinti R1-Zero našumą.
- Klausimas: Kodėl reikia išspręsti skaitymo problemą? Ar negalima to padaryti geriau jo neišsprendus (pvz., sumažinus išvesties ilgį ir darant išvadas efektyviau)?
- Į samprotavimą orientuota RL: Remiantis šalto paleidimo modeliu, sustiprinimo mokymosi procesas panašus į Taikomas DeepSeek-R1-Zero, daugiausia dėmesio skiriant modelio gebėjimų gerinimui atliekant tokias užduotis kaip kodavimas, matematika, moksliniai ir loginiai samprotavimai.. Norėdami išspręsti mišrių kalbų problemą (daugiakalbis samprotavimas), kalbos nuoseklumo apdovanojimai pristatomi.
- Klausimas: kaip mokomos mokslinio ir loginio samprotavimo užduotys ir duomenų rinkiniai?
- Atmetimo atranka ir SFT: Po to, kai išvadomis vadovaujamas sustiprinimo mokymasis suartėja, gautas kontrolinis taškas naudojamas atmetimo atranka, siekiant generuoti naujus SFT duomenis, kurie derinami su DeepSeek-V3 duomenimis, siekiant pagerinti modelio rašymo, vaidmenų žaidimo ir bendrųjų užduočių galimybes.
- Paskirtis:
- Šis etapas pradedamas po į išvadas orientuoto pastiprinimo mokymosi (RL) procesas suartėja.
- Pagrindinis tikslas yra rinkti prižiūrimo koregavimo (SFT) duomenis naudoti vėlesniuose treniruočių etapuose.
- Skirtingai nuo pradinių šalto paleidimo duomenų, kuriuose pagrindinis dėmesys skiriamas tik išvadoms, šiuo etapu siekiama išplėsti modelio galimybes aprėpti rašymą, vaidmenų žaidimus ir kitas bendros paskirties užduotis, o ne tik daryti išvadas.
- Duomenų rinkimas – išvadų duomenys:
- Metodas: Naudokite kontrolinius taškus, gautus iš į išvadas orientuotos RL fazės, kad sukurtumėte išvadų trajektorijas taikant atmetimo atranką.
- Duomenų rinkinio išplėtimas: Skirtingai nuo ankstesnio RL etapo, kuriame buvo naudojami tik taisyklėmis pagrįsti atlygio duomenys, čia pateikiami ne taisyklėmis pagrįsti atlygio duomenys. Kai kuriais atvejais atsakui nustatyti naudojamas generatyvinis atlygio modelis (DeepSeek-V3).
- Duomenų filtravimas: Siekiant užtikrinti kokybę ir skaitomumą, išvestis filtruojama, kad būtų pašalinta:
- minčių grandinės, kuriose yra mišrių kalbų
- ilgos pastraipos
- kodų blokai
- Mėginių ėmimas ir atranka: Kiekvienam raginimui buvo sugeneruoti keli atsakymai. Duomenų rinkiniui buvo išsaugotas tik „teisingas“ atsakymas.
- Duomenų rinkinio dydis: Maždaug 600 000 su išvadomis susijusių mokymo pavyzdžių buvo surinktos tokiu būdu.
- Duomenų rinkimas – duomenys be išvadų:
- Aprėptis: rašymas, atsakymas į klausimus (QA), savęs pažinimas ir vertimas.
- Straipsnyje minimas naudojimas DeepSeek-V3 apdoroja ir pakartotinai naudoja dalį DeepSeek-V3 SFT duomenų rinkinio atlikti šias neišvedžiojimo užduotis. Apie 200 000 nuo išvadų nepriklausomų pavyzdžių buvo surinkti. (Pastaba: Išsami informacija apie duomenų be išvadų rinkimą išsamiau aprašyta 2.3.4 skirsnyje)
- Surinktų duomenų naudojimas:
- Surinkti argumentavimo ir nemotyvavimo duomenys (iš viso apie 800 000 pavyzdžių – 600 000 samprotavimų pavyzdžių + 200 000 nemotyvavimo pavyzdžių) buvo panaudoti tiksliai suderinkite DeepSeek-V3-Base modelį dviem epochoms. Šis tiksliai sureguliuotas modelis buvo naudojamas paskutinėje RL fazėje, aprašytoje 2.3.4 skyriuje.
- Santrauka Šiame žingsnyje naudojamos išvados galimybės išmoko per RL generuoti įvairų ir aukštos kokybės SFT duomenų rinkinį. Šis duomenų rinkinys sustiprina išvadų galimybes ir išplečia bendrąsias galimybes mokymo modelis galutiniame derinimo ir tobulinimo etape.
- Paskirtis:
- Sustiprinimo mokymasis visiems scenarijams: siekiant dar labiau suderinti žmonių pageidavimus, įgyvendinamas antrasis sustiprinimo mokymosi etapas, siekiant pagerinti modelio naudingumą ir nekenksmingumą.
- Išvadų duomenys: pvz., matematika, kodas, loginės išvados arba prižiūrimi taisyklių bazės metodais.
- Bendrieji duomenys: atlygio modeliai vis dar naudojami teikiant pirmenybės informaciją sudėtingiems ir subtiliems scenarijams. Taip pat įvertinami modeliai, parengti naudojant porinius duomenis.
- Naudingumas: sutelkite dėmesį tik į galutinius apibendrintus rezultatus, sumažindami trukdžius išvados procesui.
- Nekenksmingumas: prižiūrėkite visą atsaką, kad sumažintumėte riziką.
Distiliavimo modelis (distiliavimas):
- Siekiant gauti efektyvesnį mažų išvadų modelį, DeepSeek-R1 išvadų gebėjimas distiliuojamas į Qwen ir Llama serijų atvirojo kodo modelius. Distiliavimo procesas naudoja tik prižiūrimą koregavimą (SFT) ir nenaudoja pastiprinimo mokymosi etapo.
Išvada
"DeepSeek-R1-Zero: parodo potencialą grynas sustiprinimo mokymasis motyvuojant LLM išvadas ir gali pasiekti gerų rezultatų nesiremiant prižiūrimais duomenimis.


- Aha akimirka: Mokymosi sustiprinimo grožis (modelio nušvitimo momentas, kur jis skiria daugiau mąstymo laiko problemai, mokydamasis iš naujo įvertinti pradinis požiūris)
- Išvesties ilgis toliau didėja (mąstymo laikas toliau didėja)
- Tikslumas ir toliau gerėja (atimama 16 atsakymų, kad būtų galima apskaičiuoti tikslumą)

- DeepSeek-R1: dar labiau pagerina modelio veikimą, derinant šalto paleidimo duomenis ir kartotinį mokymosi tobulinimą, pasiekti lygį, panašų į OpenAI-01-1217 atliekant įvairias užduotis.

- Žinių distiliavimas: Naudojant DeepSeek-R1 kaip mokytojo modelį, buvo sugeneruoti 800 000 mokymo pavyzdžių ir keli maži, tankūs modeliai buvo tiksliai suderinti. Rezultatai rodo, kad tai distiliavimo metodas gali žymiai pagerinti išvedžiojimo galimybes maži modeliai.
Apribojimas
- 1 apribojimas: reikia patobulinti bendrą DeepSeek-R1 gebėjimą. DeepSeek-R1 vis dar yra prastesnis už DeepSeek-V3 atliekant tokias užduotis kaip funkcijų iškvietimai, kelių posūkių dialogas, sudėtingas vaidmenų žaidimas ir JSON išvestis.
- 2 apribojimas: kalbų maišymo problema. DeepSeek-R1 gali susidurti su kalbų maišymo problema apdorojant užklausas ne kinų ir ne anglų kalbomis, pvz., samprotaujant ir atsakant anglų kalba.
- 3 apribojimas: greitas jautrumas. DeepSeek-R1 jautriai reaguoja į raginamus žodžius, o kelių kadrų raginimas sumažins jo veikimą.
- 4 apribojimas: taikoma tik programinės įrangos inžinerijos užduotims. Dėl ilgo vertinimo laiko didelio masto sustiprinimo mokymasis nebuvo visiškai pritaikytas programinės įrangos inžinerijos užduotims, o DeepSeek-R1 programinės įrangos inžinerijos etalonuose, palyginti su DeepSeek-V3, pagerėjo nedaug.