1 Háttér

A Tavaszi Fesztivál idején, DeepSeek R1 ismét széles körben felkeltette a figyelmet, sőt az általunk korábban írt DeepSeek V3 interpretációs cikket is újra közvetítették és sokat vitatták.

Bár az DeepSeek R1-ről számos elemzés és reprodukálás született, úgy döntöttünk, hogy összeállítunk néhány megfelelő olvasmányt.

Három alapvető sematikus diagramot fogunk használni a modell felépítésének és a legfontosabb műszaki pontoknak a bemutatására, desztillálva az DeepSeek-R1 sorozat lényegét, hogy intuitívabban megértsük a tervezési ötleteket.

A megfelelő papír az [2501.12948] DeepSeek-R1: Az érvelési képesség ösztönzése az LLM-ekben a tanulás megerősítésén keresztül

és a megfelelő nyílt forráskódú modell az DeepSeek-R1

2 Bevezetés

2.1 Közös érvelési algoritmusok

Amint az alábbi 2. ábrán látható, a szerző elmagyarázza a négy gyakori érvelési algoritmust. Bár bizonyos részletekben különböznek egymástól, mindegyik két alapvető műveletet tartalmaz:

  • Bővítés: generáljon tokeneket a megoldási útvonal bővítéséhez.
  • Összesítés: integrálja az egyes útvonalak eredményeit a végső válasz megszerzéséhez. A bővítési fázisban a számítási erőforrások növelése általában javíthatja a válasz minőségét az összesítési fázisban.

Önkonzisztencia (SC). Ahogy a 2a. ábra mutatja, az SC alapötlete több különböző kimenet létrehozása (ami a mintavételi paraméterek megváltoztatásával stb. érhető el), majd az összes válaszra szavazva kiválasztja a legmagasabb nyerési arányú választ. A kulcsparaméter a jelölt válaszok száma n.

Rebase algoritmus: Amint az alábbi 2b ábrán látható, a Rebase több kimenetet is generál, de ezek több lépésben jönnek létre. Minden lépést a Jutalom modell segítségével pontoznak, és a legmagasabb pontszámot elért eredményt használják fel a generálás folytatásához. Végül egy több ágú érvelési fa jön létre. A legmagasabb pontszámot elért (Best-of-N) válasz kerül kiválasztásra az összesítési szakaszban.

Monte Carlo Tree Search (MCTS): Amint az alábbi 2c ábrán látható, az MCTS egy hatékony okfejtési algoritmus, amely fokozatosan mintavétellel bővíti a csomópontokat, és egy megoldásfát hoz létre, amíg el nem éri a megoldásjelölt csomópontot. Minden megoldást egy jutalommodell vagy szimuláció pontoznak, és a pontszám visszakerül az őscsomópontokhoz, hogy frissítsék a jutalomértékeiket, így befejezve az iterációt. A kulcsparaméter szintén n, és az n növelése lehetővé teszi a lehetséges megoldások mélyebb és szélesebb körű feltárását.

Internalizált kognitív lánc (ICoT). Amint az alábbi 2d. ábrán látható, a legújabb LLM-ek, mint például az OpenAI o1 és a Qwen-QWQ, képesek az érvelési viselkedés internalizálására a képzés során anélkül, hogy explicit gondolkodási algoritmusra lenne szükség. Az alapötlet egy CoT sorozat létrehozása, az összetett problémák több részproblémára bontása, majd a válaszok iteratív optimalizálása a korábbi kimenetekre reflektálva, hogy végül megoldáshoz jusson.

2.2 Indoklási igazítási módszerek

2.2.1 Az N legjobb módszer áttekintése

Röviden, a Best-of-N egy olyan igazítási módszer, amelyet széles körben használnak az LLM-következtetésben, amelynek célja a generált eredmények magas minőségének biztosítása több jelölt válasz generálásával és a legjobb kiválasztásával. Három fő folyamatból áll:

  1. Létrehozási folyamat: Egy adott X prompt esetén a Best-of-N módszer N IID választ generál (Y1, Y2, …, Yₙ), ahol N-t gyakran „kötegméretnek” nevezik.
  2. Pontozási mechanizmus: Minden generált választ egy jutalommodell pontoz, hogy megkapjuk a megfelelő pontszámot {s(Y₁), s(Y₂), …, s(Yₙ)}.
  3. A legjobb válasz kiválasztása: Végül az összes generált válasz közül a legmagasabb pontszámot elért válasz kerül kiválasztásra kimenetként, azaz Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}.

Ennek a módszernek az előnyei a következők:

  1. Hatékonyan elkerülheti a bonyolult finomhangolási lépéseket, megkönnyítve az előre betanított vagy utasításokkal finomhangolt nyelvi modellek telepítését.
  2. Egyszerűen megvalósítható, könnyen érthető, és lényegében hiperparaméterektől mentes: a fő hiperparaméter az N, amely a következtetés során dinamikusan módosítható.
  3. A generációs minőség tekintetében rendkívül versenyképes, és akár néhány összetett edzés utáni technikával is vetekszik, mint például az RLHF vagy a DPO. A kutatások azt mutatják, hogy a Best-of-N módszer jól teljesít a jutalom és a KL divergencia közötti kompromisszumgörbén, még más összetett összehangolási stratégiákat is felülmúl.

Ennek a módszernek a hátrányai

  1. a következtetéshez N szekvencia generálása szükséges, ami jelentős számítási többlethez vezethet. A gyakorlatban az N ésszerű értéke 4 és 128 között mozog, de a legfejlettebb edzés utáni módszerekkel való versenyhez magasabb N értékekre lehet szükség, például 1000 és 60 000 között, ami szinte elfogadhatatlan számítási többlethez vezethet.

A best-of-N módszert gyakran használják kiváló minőségű adatkészletek létrehozására a későbbi felügyelt finomhangoláshoz, és kulcsszerepet játszott az LLaMA-2 és LLaMA-3 összehangolási folyamatában.

2.2.2 OpenAI best-of-N módszer

Az OpenAI először javasolta a Best of-N mintavételezést [2009.01325] Összegzés megtanulása emberi visszajelzésekből . Konkrétan az összefoglaló modell teljesítményének értékelésére és optimalizálására szolgál a több modellből generált legjobb összefoglaló kiválasztásával. Ez a módszer segít a kutatóknak jobban megérteni a különböző értékelési mérőszámok és az emberi értékelő preferenciái közötti kapcsolatot, és a modellképzés és -optimalizálás irányítására szolgál.

Az OpenAI a Best-of-N mintavételt (elutasítási mintavételt) is használja a nyomon követés során [2112.09332] WebGPT: Böngésző által segített kérdésmegválaszolás emberi visszajelzéssel. Pontosabban, meghatározott számú válasz (4, 16 vagy 64) mintavételezésre kerül a BC-modellből vagy az RL-modellből, és a legmagasabb jutalommodell-pontszámmal rendelkezőt választják ki az ellenséges jutalommodell optimalizálási módszereként. Ez a módszer nem igényel további képzést, de növeli az elérendő következtetési szakasz számítási bonyolultságát.

2.2.3 Google BOND módszer

A oldalon. [2407.14622] BOND: Az LLM-eket a Best-of-N desztillációhoz igazítva a Google szerzői a Best-of-N lepárlást (BOND) javasolják., egy új RLHF-algoritmus, amely a Best-of-N mintavételi stratégiát szimulálja egy Distribution Matching algoritmuson keresztül anélkül, hogy jelentősen megnövelné a számítási többletet a következtetés során.

Pontosabban, a szerző először levezeti az N legjobb mintavétel pontos analitikai eloszlását, és megadja az N legjobb mintavétel valószínűségi függvényét:

Másodszor, a szerzők a problémát eloszlás-illesztési problémaként fejezik ki;

ezt követően a szerzők a Jeffreys-divergencia használatát javasolják az eloszlás illesztési céljának:

Végül az N kiválasztásának problémájának megoldására a szerzők az iteratív BOND módszert javasolják, amely a Best-of-N eloszlás iteratív desztillálásával javítja a stratégia teljesítményét. A konkrét lépések a következők:

Inicializálja a π(horgony) kiegészítő horgonystratégiát.

Iteratív módon hajtsa végre a BOND parancsot a Best-of-N π(horgony) desztillálásához, és minden lépés után frissítse a π(horgony) értéket.

2.3 Folyamatfelügyelet és eredményfelügyelet

Az Eredmény és a Folyamat a Jutalommodell értékelésének két aspektusára vonatkozik:

  • Eredmény-jutalommodell: Értékelje, hogy a modell kimenetének végeredménye helyes-e vagy a vártnak megfelelő.
  • Folyamat-jutalmazási modell: Értékeli, hogy a modell érvelési és döntéshozatali lépései az eredmények generálásának folyamatában ésszerűek és hatékonyak-e.

Például az OpenAI Let's Verify Step by Step | Az OpenAI megemlíti még:

  • Folyamatfelügyelet (Outcome-supervised): magában foglalja a visszajelzést a modell okfejtési folyamatának minden lépéséről. A folyamat által felügyelt jutalommodelleket (PRM) arra képezték ki, hogy előre jelezzék a megoldás egyes lépéseinek helyességét.
  • Outcome-supervised: Az Outcome-supervised csak a modell érvelésének végeredménye alapján ad visszajelzést. Az eredmény-felügyelt jutalommodellek (ORM) képzése a megoldás végső válaszának felhasználásával történik, a helyességet pedig automatikus ellenőrzés határozza meg.

2.4 Jutalom Hackelés

Az RL-ben a jutalomhackelés arra a jelenségre utal, amikor egy ügynök kihasználja a jutalmazási függvény tervezésének hibáját, hogy maximalizálja a halmozott jutalmat oly módon, hogy az nem felel meg a tervező eredeti szándékának. Bár ez a viselkedés technikailag megfelel a jutalmazási függvény optimalizálási céljának, a tényleges hatás eltér az elvárt feladatcéltól, és akár negatív következményekkel is járhat.

Kulcspont elemzés:

  1. Definíció és megnyilvánulás:
    1. Az ügynök hibát talál a jutalmazási funkcióban, és magas jutalmat kap, ha „parancsikonokat” választ ahelyett, hogy ténylegesen megoldaná a problémát.
    2. Például egy takarítórobot lekapcsolja a villanyt, hogy a szoba tisztának „nézzen”, ahelyett, hogy ténylegesen takarítaná; egy játékügynök többször is szerez pontokat anélkül, hogy teljesítené a szint célját; úgy dönt, hogy nem lassít a fékezési idők számának csökkentése érdekében, ami biztonsági kockázatot jelent; értelmetlen, kulcsszavaknak megfelelő tartalom létrehozása a magas pontszámok kijátszása érdekében.
  2. Kiváltó okok:
    1. Hiányos jutalmazási funkció kialakítása: túlzott leegyszerűsítés vagy az éles esetek lefedésének elmulasztása.
    2. A célok és a jutalmak közötti eltérés: a jutalmazási funkció nem tükrözi teljes mértékben a valódi célt, ezért az ügynök a „rossz” cél érdekében optimalizál.
  3. Megoldások:
    1. A jutalom tervezésének javítása: többdimenziós jutalmak bevezetése (pl. biztonság, hatékonyság stb.), vagy dinamikusan állítsa be a jutalmazási funkciót.
    2. Ellenőrzés: további mechanizmusokon keresztül észleli, hogy az ügynök „csal-e”.
    3. Kézi beavatkozás és megszorítások: viselkedési határok (pl. biztonsági réteg) vagy kézi visszacsatolás (pl. RLHF) beállítása.
    4. Inverz megerősítő tanulás (IRL): tanuljon meg egy valósághűbb jutalmazási funkciót a szakértői bemutatókból.
    5. Hierarchikus megerősítés tanulás: bontsa fel a feladatot részcélokra a helyi optimalizálás kockázatának csökkentése érdekében.
  4. Társulás a túlszereléssel:
    1. Mindkettő eltérést mutat a képzési mutatók és a valós teljesítmény között, de a Reward Hacking nagyobb hangsúlyt fektet a jutalmazási funkció tervezési hibáira, mint a modell általánosító képességére.
  5. Összegzés:
    1. A Reward Hacking felfedi a gólok összehangolásának kihívását RL-ben. A probléma megoldásához erőteljesebb jutalmazási mechanizmusok tervezése, külső korlátok bevezetése és az emberi előzetes tudás beépítése szükséges, hogy az ügynök viselkedése hatékony és összhangban legyen a tervezési szándékkal.

3 DeepSeek-R1-Zero és DeepSeek-R1

3.1 Áttekintés

A korábbi kutatások nagyrészt nagy mennyiségű felügyelt adatra támaszkodtak a modell teljesítményének javítása érdekében. Ez a tanulmány azt mutatja, hogy az SFT hidegindítás nélkül is, a nagyméretű RL jelentősen javíthatja a modell érvelési képességét. Emellett kis mennyiségű hidegindítási adat bevezetése tovább optimalizálhatja a teljesítményt. A következők az DeepSeek-R1-hez kapcsolódó modellek:

  1. DeepSeek-R1-Zero: Ez a modell közvetlenül alkalmazza az RL-t az alapmodellre SFT-adatok nélkül.
  2. DeepSeek-R1: Ez a modell az RL-t alkalmazza egy ellenőrzőponttól kezdve, amelyet több ezer hosszú CoT mintával finomítottak.
  3. DeepSeek-R1-Distill-xx: Az DeepSeek-R1 érvelési képességét egy kis Dense modellben desztillálja.

3.2 DeepSeek-R1-Zero

Az alábbi ábra az DeepSeek-R1-Zero modell képzésének legfontosabb pontjait mutatja be:

PS: Meg kell jegyezni, hogy a papír nem ad sok információt az DeepSeek-R1-Zero RL folyamatában használt adatokról. Azonban van némi magyarázat az adatgenerálás folyamatára és mennyiségére a későbbi R1 képzésben, bár ez nem különösebben specifikus.

3.2.1 RL algoritmus

Az RL képzési költségeinek csökkentése érdekében a szerzők az DeepSeek saját GRPO (Group Relative Policy Optimization) módszerét használják, [2402.03300] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. Ez a módszer elhagyja a kritikus modellt, amelynek mérete általában összehasonlítható a házirend-modellel, és ehelyett az alapvonalat csoportpontszámmal becsüli meg. A megfelelő magyarázat az alábbi ábrán látható (kép a Twitterről):

3.2.2 Jutalommodellezés

A jutalom a képzési jelek forrása, és meghatározza az RL optimalizálási irányát. Az DeepSeek-R1-Zero képzéséhez a szerzők egy szabályalapú jutalmazási rendszert alkalmaztak, amely főleg kétféle jutalomból áll:

  • Pontossági jutalom: Értékelje, hogy a válasz helyes-e. Például:
    • A determinisztikus eredményeket mutató matematikai feladatoknál a modellnek meghatározott formátumban (például egy dobozon belül) kell megadnia a végső választ, hogy annak helyessége szabályokkal megbízhatóan ellenőrizhető legyen.
    • Hasonlóképpen, a LeetCode-problémák esetében a visszacsatolás generálható egy fordító segítségével, előre meghatározott tesztesetek alapján.
  • Formátum jutalom: A formátum jutalma arra is szolgál, hogy a modellt arra kényszerítse, hogy gondolkodási folyamatát a „ ” és „ ” címkéket.

Az DeepSeek-R1-Zero fejlesztése során a szerző nem használta az Outcome Neural Reward Model vagy a Process Neural Reward Model modellt, mert a szerző megállapította, hogy a Neurális Jutalom Modell jutalomhamisítással (Reward Hacking) találkozhat nagy léptékű RL folyamatokban; ráadásul a Jutalommodell átképzése nem csak további képzési erőforrásokat igényel, hanem az egész képzési folyamatot is bonyolítja.

3.2.3 Képzési sablon

Az DeepSeek-R1-Zero betanításához a szerzők először egy egyszerű sablont készítettek, amely az alapmodellt a beállított utasítások követésére irányítja. Amint az alábbi 1. táblázatban látható, a sablonhoz DeepSeek-R1-Zero szükséges a következtetési folyamat létrehozásához, majd a végső válasz megadásához.

A szerző szándékosan korlátozta a korlátokat erre a strukturális keretre, hogy elkerülje a tartalmi torzítás bevezetését – például a reflektív érvelés kikényszerítését vagy konkrét problémamegoldó stratégiák népszerűsítését –, hogy a modell természetes fejlődése pontosan megfigyelhető legyen az RL folyamat során.

3.2.4 Következtetés

Robusztus gondolkodási képességek SFT adatok nélkül: Ha az RL-t közvetlenül az alapmodellből indítjuk, a modell evolúciós pályája szorosan nyomon követhető SFT interferencia nélkül. Ahogy az alábbi 3. ábra mutatja, az DeepSeek-R1-Zero gondolkodási ideje tovább javult (a növekedési idő fokozatosan hosszabb lett) a képzési folyamat során. Ez a javulás nem külső kiigazítások eredménye, hanem a modell belső fejlődésének természetes eredménye. Az DeepSeek-R1-Zero természetesen megnövelt tesztidő-számítások segítségével képessé vált az egyre bonyolultabb következtetési feladatok megoldására, például a reflektálásra.

Az DeepSeek-R1-Zero „aha pillanatot” élt át az edzés során. Amint az alábbi 3. táblázatban látható, ez a pillanat a modell középső verziójának szakaszában következett be. Ebben a szakaszban az DeepSeek-R1-Zero megtanult több gondolkodási időt fordítani a problémákra azáltal, hogy újraértékelte kezdeti megközelítését.

Többségi szavazás: Az DeepSeek-R1-Zero teljesítménye tovább javítható többségi szavazással. Például, ahogy az alábbi 2. táblázatban látható, miután az AIME benchmark tesztben többségi szavazást alkalmaztak, teljesítménye 71.0%-ről 86.7%-re ugrik, megelőzve az OpenAI-o1-0912-t.

Gyengeségek: Míg az DeepSeek-R1-Zero erős érvelési képességekkel rendelkezik, és autonóm módon fejleszt váratlan és erőteljes érvelési viselkedést, továbbra is olyan kihívásokkal kell szembenéznie, mint például a gyenge olvashatóság és a nyelvkeverés.

3.3 DeepSeek-R1

Az érvelési folyamat olvashatóbbá tétele és a nyílt közösséggel való megosztása érdekében a szerzők tovább vizsgálják az DeepSeek-R1 módszert, amely emberbarát hidegindítási adatokat használ az RL-hez. Az DeepSeek-R1-Zero által ihletett két természetes kérdés következik:

  1. Tovább javítható-e az érvelési teljesítmény, vagy felgyorsítható-e a konvergencia folyamat kis mennyiségű, jó minőségű adat hidegindításként történő bevezetésével?
  2. Hogyan képezhetünk ki egy felhasználóbarát modellt, amely nemcsak világos és koherens CoT-ket generál, hanem erős általánosítási képességeket is mutat?

Ezekre a kérdésekre válaszolva megterveztük az DeepSeek-R1 képzési folyamatát. A folyamat több szakaszból áll, az alábbiak szerint:

Az 1. szakasz az alábbi ábrán látható módon az DeepSeek-R1 közbenső állapotát az SFT + RL segítségével tanítja:

Az alábbi ábra a 2., 3. és 4. szakaszt mutatja:

  • 2. szakasz: bal felső sarokban, 200 000 nem okoskodó adatot és 600 000 érvelési adatot állítson össze.
  • 3. szakasz: jobb felső, SFT + RL vonat DeepSeek-R1.
  • 4. szakasz: alsó ábra, Desztill DeepSeek-R1-Distill-xx.

3.3.1 Hidegindítás (1. szakasz)

Az DeepSeek-R1-Zero-val ellentétben az alapmodell instabil hidegindítási fázisának megelőzése érdekében az RL-képzés elején a szerzők összeállítottak és összegyűjtöttek egy kis mennyiségű Long CoT adatot az DeepSeek-R1-hez, hogy finomhangolják a modellt, mint a kezdeti RL-aktort. Ezen adatok összegyűjtésére a szerzők különböző módszereket vizsgáltak:

  • Néhány felvételes promptok használata Long CoT példákkal
  • Közvetlenül felszólítja a modellt, hogy részletes válaszokat generáljon átgondolással és ellenőrzéssel
  • DeepSeek-R1-Zero kimenet összegyűjtése ember által olvasható formátumban
  • Az eredmények finomítása utófeldolgozással kézi címkézéssel

A szerzők összesen több ezer Cold Start adatot gyűjtöttek össze, amelyeket az DeepSeek-V3-Base finomhangolására használtak az RL kiindulópontjaként. Az DeepSeek-R1-Zerohoz képest a Cold Start adatok előnyei közé tartozik

  • Olvashatóság: Az DeepSeek-R1-Zero válaszok több nyelven is keverhetők, vagy hiányzik belőlük a felhasználói válaszok kiemelésére használt Markdown formázás. Ezzel szemben az DeepSeek-R1 Cold Start adatainak létrehozásakor a szerző olyan olvasható formátumot tervezett, amely minden egyes válasz végén összefoglalót tartalmaz, és kiszűri az olvashatatlan válaszokat. Itt a kimeneti formátum: |speciális_token| |speciális_token| , ahol az érvelési_folyamat a lekérdezés láncolt gondolkodása, és az összegzés az érvelési eredmények összegzésére szolgál.
  • Lehetőség: Az emberi eleve Cold Start adatminták kombinációjának gondos megtervezésével a szerzők megfigyelték, hogy teljesítménye jobb, mint az DeepSeek-R1-Zero.

3.3.2 Indoklás-vezérelt RL (1. szakasz)

Az DeepSeek-V3-Base on Cold Start adatok finomhangolása után ugyanazt a nagyszabású RL edzési folyamatot alkalmazzuk, mint az DeepSeek-R1-Zero esetében. Ennek a szakasznak a célja, hogy javítsa a modell képességét az érvelést igénylő feladatokban, különösen a programozási, matematikai, természettudományos és logikai érvelési problémáknál, világos megoldásokkal.

A képzés során a szerzők megfigyelték, hogy a CoT gyakran szenvedett a nyelvkeveredéstől, különösen akkor, ha az RL prompt több nyelvet is érintett. A nyelvkeveredési probléma enyhítésére a szerzők bevezették az RL képzésbe a nyelvi konzisztencia jutalmát, amelyet a célnyelvi szavak aránya alapján számítanak ki a CoT-ban. Bár az ablációs kísérletek azt mutatják, hogy ez az igazítási módszer a modell teljesítményének enyhe csökkenéséhez vezet, ez a jutalmazási mechanizmus összhangban van az emberi preferenciákkal és javítja az olvashatóságot. Végül a szerzők közvetlenül hozzáadják az okfejtés feladat pontosságát a nyelvi konzisztencia jutalmához, hogy kialakítsák a végső jutalmat, és végrehajtsák az RL képzést a finomhangolt modellen, amíg az nem konvergál az érvelési feladathoz.

3.3.3 800 000 kiválasztott adat összeállítása (2. szakasz)

Míg az RL for Reasoning konvergál, az SFT-adatokat a rendszer az eredményül kapott ellenőrzőpont segítségével gyűjti össze a következő edzési körhöz. A kezdeti Cold Start adatoktól eltérően, amelyek főként az érvelésre összpontosítanak, ez a szakasz más területekről származó adatokat is tartalmaz, hogy javítsa a modell képességét az írásban, a szerepjátékban és más általános célú feladatokban. Pontosabban, az adatok generálása és a modell finomhangolása a következőképpen történik:

  • Érvelési adatok: Az érvelési promptok kiválasztása és az érvelési pályák generálása a fent említett RL betanított ellenőrzőpontból (DeepSeek-R1 1. szakasz) végzett elutasítási mintavételezéssel történik. Az előző szakaszban csak olyan adatok szerepeltek, amelyeket szabályalapú jutalmakkal lehetett értékelni. Ebben a szakaszban azonban az adatkészletet több adattal bővítették, amelyek egy részét jutalommodell segítségével állítottuk elő, és a valódi válaszokat úgy ítélték meg, hogy a modell előrejelzéseit betáplálták az DeepSeek-V3-ba (DeepSeek V3 mint bíró). Ezenkívül, mivel a modell kimenete néha zavaros és nehezen olvasható, a vegyes nyelvű gondolatláncokat, hosszú bekezdéseket és kódblokkokat kiszűrtük. Minden egyes felszólításnál több válaszból mintát vettek, és csak a helyeseket (Best-of-N) tartottuk meg. Összesen mintegy 600 000 érveléssel kapcsolatos képzési mintát gyűjtöttek össze.
  • Nem érvelő adatok: például az írás, a tényszerű kérdések, az önismeret és a fordítás, az DeepSeek-V3 folyamatot használták, és újra felhasználták az DeepSeek-V3 SFT adatkészleteit. Egyes nem érvelési feladatokhoz az DeepSeek-V3 meghívásra kerül, hogy potenciális CoT-ket generáljon a kérdés megválaszolása előtt. Az olyan egyszerű lekérdezéseknél azonban, mint a „Hello”, a válasz nem tartalmaz gondolatláncot. Végül összesen mintegy 200 000 nem érvelő képzési mintát gyűjtöttek össze.

3.3.4 SFT és RL minden forgatókönyvhöz (3. szakasz)

Két finomhangolási kör, összesen körülbelül 800 000 kiválasztott minta került végrehajtásra az DeepSeek-V3-Base-en a két fent említett adatkészlet (Érvelés és nem érvelés) felhasználásával.

A modellnek az emberi preferenciákhoz való további igazítása érdekében a szerzők megvalósították az RL második fázisát, amelynek célja a modell hasznosságának és ártalmatlanságának javítása, ugyanakkor az érvelési képességek finomítása. Pontosabban, a modellt a jutalomjelek és a különféle prompt elosztások kombinációjával képezték ki.

  • Az okfejtési adatok esetében az DeepSeek-R1-Zero-ban leírt módszertant követik, szabályalapú jutalmazási mechanizmust használva, amely irányítja a modell tanulását a matematika, a programozás és a logikai gondolkodás területén.
  • Az általános adatokhoz a Jutalom modellt használják az emberi preferenciák megragadására összetett és finom helyzetekben. A preferenciapárok és a képzési prompt eloszlások hasonló stratégiáját alkalmazzák az DeepSeek-V3 folyamat alapján.
  • A hasznosság szempontjából csak a végső összefoglalót veszik figyelembe, biztosítva, hogy az értékelés a Válasz gyakorlatiasságára és a felhasználó szempontjából való relevanciájára összpontosítson, miközben minimálisra csökkenti a mögöttes érvelési folyamatba való beavatkozást.
  • Ami az ártalmatlanságot illeti, a modell teljes Válaszát átfogóan értékeljük, beleértve az Indoklási folyamatot és az összefoglalót is, hogy azonosítsuk és kiküszöböljük a generálási folyamat során esetlegesen felmerülő kockázatokat, torzításokat vagy káros tartalmakat.
  • Végső soron a jutalomjelek integrálásával és az adatelosztás diverzifikálásával olyan modellt lehet kialakítani, amely előnyben részesíti az előnyöket és az ártalmatlanságot, miközben az érvelés terén is kiváló.

3.3.5. Lepárlás (4. szakasz)

Annak érdekében, hogy egy hatékonyabb kis modellt lássanak el az DeepSeek-R1 érvelési képességével, a szerzők közvetlenül finomhangolták a nyílt forráskódú Qwen és LLaMA modelleket az DeepSeek-R1-Stage-1-ben kiválasztott 800 000 minta felhasználásával. Az eredmények azt mutatják, hogy ez a közvetlen desztillációs módszer jelentősen javítja a kis modellek érvelési képességét. A szerzők által használt alapmodellek közé tartozik a Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B és Llama-3.3-70B-Instruct. A Llama-3.3-at azért választottuk, mert érvelési képessége valamivel jobb, mint a Llama-3.1.

A desztillációs modellhez a szerző csak SFT-t használ, és nem tartalmazza az RL szakaszt. Bár az RL bevezetése nagymértékben javíthatja a modell teljesítményét, a szerző fő célja itt a desztillációs technológia hatékonyságának bemutatása, az RL szakasz feltárása pedig a későbbi kutatásokra van bízva.

PS: Ezen túlmenően valóban lehetséges a végső DeepSeek-R1 felhasználása a fenti adatok előállítására és a desztillációhoz használt 800 000 adat rekonstrukciójára, és a desztillált modell jobb hatást fejthet ki; az ára azonban az, hogy az adatokat rekonstruálni kell.

Hasonló hozzászólások

Vélemény, hozzászólás?

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük