1 Tausta
Kevätjuhlan aikana, DeepSeek R1 herätti jälleen laajaa huomiota, ja jopa aiemmin kirjoittamamme DeepSeek V3 -tulkintaartikkeli lähetettiin uudelleen ja siitä keskusteltiin paljon.
Vaikka DeepSeek R1:stä on tehty monia analyyseja ja kopioita, olemme päättäneet koota tähän joitain vastaavia lukumuistiinpanoja.
Käytämme kolmea ydinkaaviota mallin rakenteen ja tärkeimpien teknisten kohtien esittelyyn ja tislaamalla DeepSeek-R1-sarjan olemuksen antaaksemme intuitiivisemman käsityksen sen suunnitteluideoista.
Vastaava paperi on [2501.12948] DeepSeek-R1: Päättelykyvyn kannustaminen LLM-yrityksissä vahvistusoppimisen avulla
ja vastaava avoimen lähdekoodin malli on DeepSeek-R1
2 Johdanto
2.1 Yleiset päättelyalgoritmit
Kuten alla olevasta kuvasta 2 näkyy, kirjoittaja selittää neljä yleistä päättelyalgoritmia. Vaikka ne eroavat tietyissä yksityiskohdissa, ne kaikki sisältävät kaksi ydintoimintoa:
- Laajennus: luo tunnuksia ratkaisupolun laajentamiseksi.
- Aggregointi: yhdistä kunkin polun tulokset lopullisen vastauksen saamiseksi. Laskennallisten resurssien lisääminen laajennusvaiheessa voi yleensä parantaa vastauksen laatua aggregointivaiheessa.
Itsekonsistenssi (SC). Kuten kuvasta 2a näkyy, SC:n ydinajatuksena on tuottaa useita erilaisia lähtöjä (joka voidaan saavuttaa muuttamalla näytteenottoparametreja jne.) ja äänestää sitten kaikkien vastausten puolesta valitaksesi vastauksen, jolla on korkein voittoprosentti. Keskeinen parametri on vastausehdokkaiden määrä n.
Rebase-algoritmi: Kuten alla olevasta kuvasta 2b näkyy, Rebase luo myös useita lähtöjä, mutta ne luodaan useissa vaiheissa. Jokainen askel pisteytetään Palkintomallilla, ja korkeimman pistemäärän saanutta tulosta käytetään luomisen jatkamiseen. Lopuksi luodaan päättelypuu, jossa on useita oksia. Korkeimman pistemäärän (Best-of-N) saanut vastaus valitaan koontivaiheessa.
Monte Carlo Tree Search (MCTS): Kuten alla olevasta kuvasta 2c näkyy, MCTS on tehokas päättelyalgoritmi, joka laajentaa solmuja ottamalla näytteitä asteittain ja rakentaa ratkaisupuun, kunnes se saavuttaa ehdokasratkaisun sisältävän lehtisolmun. Jokainen ratkaisu pisteytetään palkkiomallin tai simulaation kautta, ja pisteet siirretään takaisin esi-isolmuihinsa päivittämään niiden palkkioarvot, jolloin iteraatio saadaan päätökseen. Avainparametri on myös n, ja n:n kasvattaminen mahdollistaa mahdollisten ratkaisujen syvemmän ja laajemman tutkimisen.
Sisäinen kognitiivinen ketju (ICoT). Kuten alla olevasta kuvasta 2d näkyy, uusimmat LLM:t, kuten OpenAI o1 ja Qwen-QWQ, voivat sisäistää päättelykäyttäytymisen harjoittelun aikana ilman erityistä päättelyalgoritmia. Ydinideana on luoda CoT-sekvenssi, hajottaa monimutkaiset ongelmat useiksi aliongelmiksi ja sitten iteratiivisesti optimoida nämä vastaukset pohtimalla aikaisempia tuloksia, jotta lopulta päästään ratkaisuun.

2.2 Päättelyn kohdistusmenetelmät
2.2.1 Paras N -menetelmän yleiskatsaus
Lyhyesti sanottuna Best-of-N on LLM-päätelmissä laajalti käytetty kohdistusmenetelmä, jonka tavoitteena on varmistaa luotujen tulosten korkea laatu generoimalla useita ehdokasvastauksia ja valitsemalla niistä paras. Se koostuu kolmesta pääprosessista:
- Luontiprosessi: Tietylle kehotteelle X Best-of-N -menetelmä luo N IID-vastausta (Y1, Y2, …, Yₙ), jossa N:ää kutsutaan usein "erän kooksi".
- Pisteytysmekanismi: Jokainen luotu vastaus pisteytetään palkkiomallilla, jotta saadaan vastaava pistemäärä {s(Yₙ), s(Y₂), …, s(Yₙ)}.
- Parhaan vastauksen valitseminen: Lopuksi tulokseksi valitaan vastaus, jolla on korkein pistemäärä kaikista luoduista vastauksista, eli Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}.
Tämän menetelmän edut ovat:
- Se voi tehokkaasti välttää monimutkaisia hienosäätövaiheita, mikä helpottaa esiopetettujen tai ohjeiden avulla hienosäädettyjen kielimallien käyttöönottoa.
- Se on yksinkertainen toteuttaa, helppo ymmärtää ja oleellisesti ilman hyperparametreja: päähyperparametri on N, jota voidaan säätää dynaamisesti päättelyn aikana.
- Se on erittäin kilpailukykyinen sukupolven laadun suhteen ja voi jopa kilpailla monimutkaisilla koulutuksen jälkeisillä tekniikoilla, kuten RLHF tai DPO. Tutkimukset osoittavat, että Best-of-N -menetelmä toimii hyvin palkkion ja KL:n eron välisellä kompromissilla ja ylittää jopa muut monimutkaiset kohdistusstrategiat.
Tämän menetelmän haitat ovat
- päättely edellyttää N sekvenssin generoimista, mikä voi johtaa merkittäviin laskennallisiin lisäkustannuksiin. Käytännössä N:n kohtuullinen arvo vaihtelee välillä 4-128, mutta kehittyneimpien harjoituksen jälkeisten menetelmien kanssa kilpailemiseksi voidaan tarvita korkeampia N-arvoja, kuten 1000-60000, mikä voi johtaa lähes kohtuuttomiin laskennallisiin lisäkustannuksiin.
Best of-N -menetelmää käytetään usein luomaan korkealaatuisia tietojoukkoja myöhempää valvottua hienosäätöä varten, ja sillä oli keskeinen rooli LLaMA-2:n ja LLaMA-3:n kohdistusprosessissa.
2.2.2 OpenAI paras N -menetelmä
OpenAI ehdotti ensimmäisen kerran Best of-N -näytteenottoa [2009.01325] Yhteenvetoa oppiminen ihmisten palautteen perusteella . Sitä käytetään erityisesti arvioimaan ja optimoimaan yhteenvetomallin suorituskykyä valitsemalla paras useista malleista luotu yhteenveto. Tämä menetelmä auttaa tutkijoita ymmärtämään paremmin erilaisten arviointimittojen ja ihmisen arvioijien mieltymysten välistä suhdetta, ja sitä käytetään mallin koulutuksen ja optimoinnin ohjaamiseen.
OpenAI käyttää myös Best-of-N-näytteenottoa (hylkäysnäytteenottoa) seurannassa [2112.09332] WebGPT: Selainavusteinen kysymysvastaus ihmisen palautteen avulla. Tarkemmin sanottuna kiinteä määrä vastauksia (4, 16 tai 64) otetaan näytteitä BC- tai RL-mallista, ja se, jolla on korkein palkkiomallin pistemäärä, valitaan optimointimenetelmäksi kilpailevaan palkkiomalliin. Tämä menetelmä ei vaadi lisäkoulutusta, mutta lisää johtopäätösvaiheen laskennallista monimutkaisuutta.
2.2.3 Google BOND -menetelmä
Osoitteessa [2407.14622] BOND: Googlen kirjoittajat ehdottavat Best-of-N-tislausta (BOND) yhdistämällä LLM:t Best-of-N-tislaukseen., uusi RLHF-algoritmi, joka on suunniteltu simuloimaan Best-of-N-näytteenottostrategiaa Distribution Matching -algoritmin avulla lisäämättä merkittävästi laskennallista lisäkustannuksia päättelyn aikana.

Tarkemmin sanottuna kirjoittaja johtaa ensin tarkan analyyttisen jakauman Best-of-N-näytteenottoon ja antaa Best-of-N-näytteenoton todennäköisyysfunktion:

Toiseksi kirjoittajat ilmaisevat ongelman jakauman sovitusongelmana;

Myöhemmin kirjoittajat ehdottavat Jeffreysin eroa jakauman täsmäytystavoitteena:

Lopuksi N:n valintaongelman ratkaisemiseksi kirjoittajat ehdottavat iteratiivista BOND-menetelmää, joka parantaa strategian suorituskykyä iteratiivisesti tislaamalla Best-of-N-jakauman. Tarkat vaiheet sisältävät:
Alusta lisäankkuristrategia π(ankkuri).
Suorita iteratiivisesti BOND tislaamaan Best-of-N π(ankkuri) ja päivitä π(ankkuri) jokaisen vaiheen jälkeen.

2.3 Prosessin valvonta ja tulosvalvonta
Tulos ja prosessi viittaavat palkkiomallin arvioinnin kahteen osaan:
- Tulospalkkiomalli: Arvioi, onko mallin tulosteen lopputulos oikea vai odotusten mukainen.
- Prosessin palkitsemismalli: Arvioi, ovatko mallin perustelut ja päätöksentekovaiheet tulosten tuottamisessa järkeviä ja tehokkaita.
Esimerkiksi OpenAI:n Let's Verify Step by Step | OpenAI mainitsee myös:
- Prosessin valvonta (Outcome-supervised): sisältää palautteen antamisen mallin päättelyprosessin jokaisesta vaiheesta. Prosessin valvomat palkkiomallit (PRM) on koulutettu ennustamaan ratkaisun kunkin vaiheen oikeellisuutta.
- Outcome-supervised: Outcome-supervised antaa palautetta, joka perustuu vain mallin päättelyn lopputulokseen. Tulosvalvottuja palkitsemismalleja (ORM) opetetaan käyttämällä ratkaisun lopullista vastausta, ja oikeellisuus määritetään automaattisella tarkistuksella.
2.4 Palkintohakkerointi
RL:ssä palkkion hakkerointi viittaa ilmiöön, jossa agentti käyttää hyväkseen palkkiofunktion suunnittelussa olevaa virhettä maksimoidakseen kumulatiivisen palkkion tavalla, joka ei vastaa suunnittelijan alkuperäistä tarkoitusta. Vaikka tämä käyttäytyminen teknisesti täyttää palkitsemisfunktion optimointitavoitteen, todellinen vaikutus poikkeaa odotetusta tehtävän tavoitteesta ja voi jopa johtaa negatiivisiin seurauksiin.
Keskeisen kohdan analyysi:
- Määritelmä ja ilmentymä:
- Agentti löytää virheen palkitsemistoiminnossa ja saa korkean palkkion käyttämällä "pikakuvakkeita" sen sijaan, että ratkaisee ongelman.
- Esimerkiksi siivousrobotti sammuttaa valot saadakseen huoneen "näyttämään" puhtaalta sen sijaan, että siivoisi sitä. peliagentti tekee toistuvasti pisteitä saavuttamatta tasomaalia; päättää olla hidastamatta jarrutusaikojen määrän vähentämiseksi, mikä aiheuttaa turvallisuusriskin; luoda merkityksetöntä sisältöä, joka vastaa avainsanoja huippupisteiden huijaamiseksi.
- Perimmäiset syyt:
- Epätäydellinen palkitsemistoimintojen suunnittelu: liiallinen yksinkertaistaminen tai reunatapausten peittämättä jättäminen.
- Tavoitteiden ja palkkioiden välinen ristiriita: palkitsemistoiminto ei täysin heijasta todellista tavoitetta, mikä saa agentin optimoimaan "väärän" tavoitteen.
- Ratkaisut:
- Paranna palkkioiden suunnittelua: ota käyttöön moniulotteisia palkintoja (esim. turvallisuus, tehokkuus jne.) tai säädä palkitsemistoimintoa dynaamisesti.
- Vastuullinen vahvistus: havaitse, "huijaako agentti" lisämekanismeilla.
- Manuaalinen puuttuminen ja rajoitukset: aseta käyttäytymisrajat (esim. turvakerros) tai manuaalinen palaute (esim. RLHF).
- Käänteinen vahvistusoppiminen (IRL): Opi realistisempi palkitsemistoiminto asiantuntijaesittelyistä.
- Hierarkkinen vahvistusoppiminen: hajoa tehtävä osatavoitteiksi vähentääksesi paikallisen optimoinnin riskiä.
- Yhdistäminen ylisovitukseen:
- Molemmissa on ero koulutusmittareiden ja todellisen suorituskyvyn välillä, mutta Reward Hacking korostaa enemmän palkitsemistoiminnon suunnitteluvirheitä kuin mallin yleistyskykyä.
- Yhteenveto:
- Palkkiohakkerointi paljastaa RL:n tavoitteiden kohdistamisen haasteen. Tämän ongelman ratkaiseminen edellyttää yhdistelmää, jossa suunnitellaan vahvemmat palkitsemismekanismit, otetaan käyttöön ulkoisia rajoituksia ja otetaan huomioon ihmisten aiempi tietämys sen varmistamiseksi, että agentin käyttäytyminen on sekä tehokasta että suunnittelutarkoituksen mukaista.
3 DeepSeek-R1-Zero & DeepSeek-R1
3.1 Yleiskatsaus
Aikaisempi tutkimus on suurelta osin tukeutunut suuriin valvottuihin tietomääriin mallin suorituskyvyn parantamiseksi. Tämä tutkimus osoittaa, että jopa ilman SFT:tä kylmäkäynnistyksenä, suuren mittakaavan RL voi merkittävästi parantaa mallin päättelykykyä. Lisäksi pieni määrä kylmäkäynnistystietoja voi optimoida suorituskykyä entisestään. Seuraavat ovat DeepSeek-R1:een liittyvät mallit:
- DeepSeek-R1-Zero: Tämä malli käyttää RL:ää suoraan perusmalliin ilman SFT-tietoja.
- DeepSeek-R1: Tämä malli käyttää RL:ää alkaen tarkistuspisteestä, joka on hienosäädetty tuhansilla pitkillä CoT-näytteillä.
- DeepSeek-R1-Distill-xx: Tislaa DeepSeek-R1:n päättelykyvyn pieneksi Dense-malliksi.
3.2 DeepSeek-R1-Zero
Seuraava kuva näyttää DeepSeek-R1-Zero-mallin koulutuksen avainkohdat:

PS: On huomattava, että paperi ei tarjoa paljon tietoa DeepSeek-R1-Zero RL-prosessissa käytetyistä tiedoista. Myöhemmissä R1-koulutuksessa on kuitenkin jonkin verran selitystä tietojen tuottoprosessista ja määrästä, vaikka se ei ole erityisen tarkka.
3.2.1 RL-algoritmi
RL:n koulutuskustannusten vähentämiseksi kirjoittajat käyttävät DeepSeek:n omaa GRPO-menetelmää (Group Relative Policy Optimization) [2402.03300] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. Tämä menetelmä hylkää Kriittinen-mallin, joka on yleensä kooltaan verrattavissa käytäntömalliin, ja sen sijaan arvioi lähtötason käyttämällä ryhmäpisteitä. Vastaava selitys näkyy alla olevassa kuvassa (kuva Twitteristä):

3.2.2 Palkintomallinnus
Palkinnot ovat harjoitussignaalien lähde ja määräävät RL:n optimointisuunnan. DeepSeek-R1-Zeron kouluttamiseen kirjoittajat käyttivät sääntöpohjaista palkitsemisjärjestelmää, joka koostuu pääasiassa kahdesta palkkiotyypistä:
- Tarkkuuspalkkio: Arvioi, onko vastaus oikea. Esimerkiksi:
- Determinististen tulosten matemaattisissa ongelmissa mallin on annettava lopullinen vastaus tietyssä muodossa (esimerkiksi laatikon sisällä), jotta sen oikeellisuus voidaan luotettavasti todentaa säännöillä.
- Vastaavasti LeetCode-ongelmiin palautetta voidaan luoda käyttämällä kääntäjää, joka perustuu ennalta määritettyihin testitapauksiin.
- Muotopalkkio: Muotopalkintoa käytetään myös pakottamaan malli asettamaan ajatteluprosessinsa " " ja " ”tunnisteet.
DeepSeek-R1-Zeron kehittämisen aikana kirjoittaja ei käyttänyt tulosneuraalipalkkiomallia tai prosessin hermopalkkiomallia, koska kirjoittaja havaitsi, että Neural Reward -malli saattaa kohdata palkkion huijausta (Reward Hacking) laajamittaisissa RL-prosesseissa; Lisäksi palkitsemismallin uudelleenkoulutus ei vaadi vain lisäkoulutusresursseja, vaan myös vaikeuttaa koko koulutusprosessia.
3.2.3 Koulutusmalli
DeepSeek-R1-Zeron kouluttamiseksi kirjoittajat suunnittelivat ensin yksinkertaisen mallin, joka ohjaa perusmallia noudattamaan asetettuja ohjeita. Kuten alla olevasta taulukosta 1 näkyy, malli vaatii DeepSeek-R1-Zero luomaan päättelyprosessin ja antamaan sitten lopullisen vastauksen.

Kirjoittaja rajoitti tarkoituksella rajoitukset tähän rakenteelliseen kehykseen välttääkseen sisällöllisen vinoutumisen – esimerkiksi reflektiivisen päättelyn pakottamista tai erityisten ongelmanratkaisustrategioiden edistämistä – varmistaakseen, että mallin luonnollista kehitystä voidaan tarkkailla RL-prosessin aikana.
3.2.4 Johtopäätös
Vankka päättelykyky ilman SFT-dataa: Kun RL käynnistetään suoraan perusmallista, mallin kehityskulkua voidaan seurata tarkasti ilman SFT-häiriöitä. Kuten alla olevasta kuvasta 3 näkyy, DeepSeek-R1-Zeron ajatteluaika parani edelleen (kasvu pitenee vähitellen) koko harjoitusprosessin ajan. Tämä parannus ei tullut ulkoisista tarkistuksista, vaan se oli luonnollinen seuraus mallin sisäisestä kehityksestä. DeepSeek-R1-Zero sai luonnollisesti kyvyn ratkaista yhä monimutkaisempia päättelytehtäviä, kuten reflektointikyvyn, käyttämällä pidennetyn testiajan laskelmia.

DeepSeek-R1-Zero koki "aha-hetken" harjoituksen aikana. Kuten alla olevasta taulukosta 3 näkyy, tämä hetki tapahtui mallin keskiversion vaiheessa. Tässä vaiheessa DeepSeek-R1-Zero oppi varaamaan enemmän ajatteluaikaa ongelmiin arvioimalla uudelleen alkuperäistä lähestymistapaansa.

Enemmistöäänestys: DeepSeek-R1-Zeron suorituskykyä voidaan edelleen parantaa enemmistöäänestyksellä. Esimerkiksi, kuten alla olevasta taulukosta 2 näkyy, sen jälkeen kun AIME-benchmark-testissä on käytetty enemmistöäänestystä, sen suorituskyky hyppää arvosta 71.0% arvoon 86.7%, ohittaen OpenAI-o1-0912:n.

Heikkoudet: Vaikka DeepSeek-R1-Zero osoittaa vahvoja päättelykykyjä ja kehittää itsenäisesti odottamattomia ja tehokkaita päättelykäyttäytymistä, se kohtaa silti haasteita, kuten huono luettavuus ja kielten sekoittuminen.
3.3 DeepSeek-R1
Tehdäkseen päättelyprosessista luettavamman ja jakaakseen sen avoimen yhteisön kanssa, kirjoittajat tutkivat edelleen DeepSeek-R1-menetelmää, joka käyttää ihmisystävällisiä kylmäkäynnistystietoja RL:lle. DeepSeek-R1-Zeron inspiroimana seuraa kaksi luonnollista kysymystä:
- Voidaanko päättelykykyä edelleen parantaa tai konvergenssiprosessia nopeuttaa ottamalla käyttöön pieni määrä korkealaatuista dataa kylmäkäynnistyksenä?
- Kuinka voimme kouluttaa käyttäjäystävällisen mallin, joka ei ainoastaan luo selkeitä ja johdonmukaisia CoT-arvoja, vaan osoittaa myös vahvaa yleistyskykyä?
Vastauksena näihin kysymyksiin suunnittelimme koulutusprosessin DeepSeek-R1:lle. Prosessi koostuu useista vaiheista, kuten alla on kuvattu:
Vaihe 1, kuten alla olevassa kuvassa näkyy, harjoittelee DeepSeek-R1:n välitilaa SFT + RL:n kautta:

Seuraava kuva näyttää vaiheet 2, 3 ja 4:
- Vaihe 2: ylhäällä vasen, muodosta 200 000 ei-päättelytietoa ja 600 000 päättelytietoa.
- Vaihe 3: ylhäällä oikea, SFT + RL-juna DeepSeek-R1.
- Vaihe 4: alempi luku, Tisla DeepSeek-R1-Distil-xx.

3.3.1 Kylmäkäynnistys (vaihe-1)
Toisin kuin DeepSeek-R1-Zero, estääkseen perusmallin epävakaan kylmäkäynnistysvaiheen RL-koulutuksen alussa, kirjoittajat rakensivat ja keräsivät pienen määrän Long CoT -dataa DeepSeek-R1:lle hienosäätääkseen mallia alkuperäisenä RL-toimijana. Tämän tiedon keräämiseksi kirjoittajat tutkivat useita menetelmiä:
- Muutaman laukauksen kehotteiden käyttäminen Long CoT -esimerkeissä
- Kehotetaan mallia suoraan luomaan yksityiskohtaisia vastauksia pohdinnan ja vahvistuksen kera
- DeepSeek-R1-Zero-tulosteen kerääminen ihmisen luettavassa muodossa
- Tulosten hiominen jälkikäsittelyllä manuaalisella merkinnällä
Kirjoittajat keräsivät yhteensä tuhansia Cold Start -tietoja, joita käytettiin hienosäätämään DeepSeek-V3-Base RL:n lähtökohtana. DeepSeek-R1-Zeroon verrattuna Cold Start -tietojen etuja ovat mm
- Luettavuus: DeepSeek-R1-Zero Responses voidaan sekoittaa useilla kielillä tai niistä puuttuu Markdown-muotoilu, jota käytetään käyttäjien vastausten korostamiseen. Sitä vastoin luodessaan Cold Start -tietoja DeepSeek-R1:lle kirjoittaja suunnitteli luettavan muodon, joka sisältää yhteenvedon jokaisen vastauksen lopussa ja suodattaa pois lukukelvottomat vastaukset. Tässä tulosmuodoksi määritellään |erityinen_tunnus| |erityinen_tunnus|
, jossa argumentointiprosessi on kyselyn ketjutettu ajattelu ja yhteenvetoa käytetään päättelyn tulosten yhteenvetoon. - Mahdollisuus: Suunnittelemalla huolellisesti ihmisen a priori Cold Start -datakuvioiden yhdistelmän kirjoittajat havaitsivat, että sen suorituskyky on parempi kuin DeepSeek-R1-Zero.
3.3.2 Päättelyyn perustuva RL (vaihe 1)
Kun DeepSeek-V3-Base on Cold Start -tiedot on hienosäädetty, käytetään samaa laajamittaista RL-harjoitusprosessia kuin DeepSeek-R1-Zero. Tässä vaiheessa pyritään parantamaan mallin kykyä päättelyintensiivisissä tehtävissä erityisesti ohjelmoinnin, matematiikan, luonnontieteiden ja loogisen päättelyn ongelmissa selkein ratkaisuin.
Koulutuksen aikana kirjoittajat havaitsivat, että CoT kärsi usein kielten sekoittumisesta, varsinkin kun RL-kehote sisälsi useita kieliä. Kielten sekoittumisongelman lievittämiseksi kirjoittajat ottivat RL-koulutukseen käyttöön kielen johdonmukaisuuspalkkion, joka lasketaan kohdekielen sanojen osuuden perusteella CoT:ssä. Vaikka ablaatiokokeet osoittavat, että tämä kohdistusmenetelmä johtaa mallin suorituskyvyn lievään heikkenemiseen, tämä palkitsemismekanismi on yhdenmukainen ihmisen mieltymysten kanssa ja parantaa luettavuutta. Lopuksi kirjoittajat lisäävät päättelytehtävän tarkkuuden suoraan kielen johdonmukaisuuspalkkioon lopullisen palkinnon muodostamiseksi ja toteuttavat RL-koulutusta hienosäädetyssä mallissa, kunnes se konvergoi päättelytehtävään.
3.3.3 800 000 valitun datan rakentaminen (vaihe 2)
Samalla kun RL for Reasoning konvergoi, SFT-tiedot kerätään seuraavan harjoituskierroksen tuloksena olevaa tarkistuspistettä varten. Toisin kuin alkuperäiset Cold Start -tiedot, jotka keskittyvät pääasiassa päättelyyn, tämä vaihe sisältää tietoja muista alueista parantaakseen mallin kykyä kirjoittaa, roolipelaamiseen ja muihin yleisiin tehtäviin. Tarkemmin sanottuna tiedot luodaan ja mallia hienosäädetään seuraavasti:
- Päättelytiedot: Päättelykehotteet valitaan ja päättelyreitit luodaan suorittamalla hylkäysnäytteenotto edellä mainitusta RL-koulutetusta tarkistuspisteestä (DeepSeek-R1, vaihe 1). Edellisessä vaiheessa sisällytettiin vain tiedot, jotka voitiin arvioida sääntöpohjaisilla palkkioilla. Tässä vaiheessa tietojoukkoa kuitenkin laajennettiin lisäämällä dataa, joista osa luotiin palkkiomallilla, ja todelliset vastaukset arvioitiin syöttämällä malliennusteet DeepSeek-V3:een (DeepSeek V3 tuomarina). Lisäksi, koska mallin tuloste on joskus hämmentävää ja vaikeasti luettavaa, sekakieliset ajatusketjut, pitkät kappaleet ja koodilohkot suodatettiin pois. Jokaisessa kehotteessa otettiin useita vastauksia ja vain oikeat (Best-of-N) säilytettiin. Päättelyyn liittyvää koulutusnäytettä kerättiin yhteensä noin 600 000 kappaletta.
- Ei-perustelut: kuten kirjoittaminen, faktakysymykset, itsetietoisuus ja käännös, käytettiin DeepSeek-V3-prosessia ja käytettiin uudelleen joitakin DeepSeek-V3:n SFT-tietosarjoja. Joissakin ei-päättelytehtävissä DeepSeek-V3 kutsutaan luomaan mahdollisia CoT-arvoja ennen kysymykseen vastaamista. Yksinkertaisille kyselyille, kuten "Hei", vastauksessa ei kuitenkaan ole ajatusketjua. Lopulta kerättiin yhteensä noin 200 000 ei-päättelyn koulutusnäytettä.
3.3.4 SFT & RL kaikissa skenaarioissa (vaihe 3)
Kaksi hienosäätökierrosta, yhteensä noin 800 000 valittua näytettä, suoritettiin DeepSeek-V3-Basella käyttämällä kahta edellä mainittua tietojoukkoa (Reasoning ja non-Reasoning).
Mallin yhdenmukaistamiseksi ihmisten mieltymysten kanssa tekijät ottivat käyttöön RL:n toisen vaiheen, jonka tavoitteena on parantaa mallin hyödyllisyyttä ja vaarattomuutta ja samalla parantaa sen päättelykykyä. Tarkemmin sanottuna mallia koulutettiin yhdistämällä palkkiosignaaleja ja erilaisia kehotteita.
- Reasoning-tietojen osalta noudatetaan DeepSeek-R1-Zero kuvattua metodologiaa käyttämällä sääntöpohjaista palkitsemismekanismia ohjaamaan mallin oppimista matematiikan, ohjelmoinnin ja loogisen päättelyn aloilla.
- Yleisille tiedoille Palkintomallia käytetään ihmisten mieltymysten vangitsemiseen monimutkaisissa ja hienovaraisissa tilanteissa. DeepSeek-V3-prosessiin perustuen käytetään samanlaista mieltymysparien ja harjoituskehotteiden jakaumien strategiaa.
- Hyödyllisyyden kannalta huomioidaan vain lopullinen yhteenveto. Näin varmistetaan, että arvioinnissa keskitytään vastauksen käytännöllisyyteen ja merkityksellisyyteen käyttäjän kannalta samalla kun minimoidaan häiriöt taustalla olevaan perusteluprosessiin.
- Mitä tulee harmittomuuteen, mallin koko Response on kattavasti arvioitu, mukaan lukien perusteluprosessi ja yhteenveto, jotta voidaan tunnistaa ja eliminoida mahdolliset riskit, harhat tai haitallinen sisältö, joita saattaa syntyä luontiprosessin aikana.
- Viime kädessä integroimalla palkitsemissignaaleja ja monipuolistamalla tiedon jakelua voidaan kouluttaa malli, joka priorisoi sekä hyödyt että harmittomuudet samalla kun se on erinomainen päättelyssä.
3.3.5 Tislaus (vaihe 4)
Varustaakseen tehokkaamman pienen mallin DeepSeek-R1:n päättelykyvyllä kirjoittajat hienosääsivät suoraan avoimen lähdekoodin mallit Qwen ja LLaMA käyttämällä DeepSeek-R1-Stage-1:ssä valittuja 800 000 näytettä. Tulokset osoittavat, että tämä suoratislausmenetelmä parantaa merkittävästi pienten mallien päättelykykyä. Kirjoittajien käyttämiä perusmalleja ovat Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B ja Llama-3.3-70B-Instruct. Llama-3.3 valittiin, koska sen päättelykyky on hieman parempi kuin Llama-3.1.
Tislausmallissa kirjoittaja käyttää vain SFT:tä eikä sisällä RL-vaihetta. Vaikka RL:n käyttöönotto voi parantaa mallin suorituskykyä huomattavasti, tekijän päätarkoituksena on tässä osoittaa tislausteknologian tehokkuus, ja RL-vaiheen tutkiminen jätetään myöhemmän tutkimuksen varaan.
PS: Lisäksi on itse asiassa mahdollista käyttää lopullista DeepSeek-R1:tä yllä olevien tietojen luomiseen ja tislaukseen käytetyn 800 000 datan rekonstruoimiseen, ja tislatulla mallilla voi olla parempi vaikutus; hinta on kuitenkin se, että tiedot on rekonstruoitava.