Ma megosztjuk DeepSeek R1, Title: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reforcement Learning: Az LLM érvelési képességének ösztönzése megerősítéses tanulás révén.

Ez a cikk bemutatja az DeepSeek gondolkodási modelljeinek első generációját, DeepSeek-R1-Zero és DeepSeek-R1. Az DeepSeek-R1-Zero modellt betanították nagy léptékű megerősítéses tanulás (RL) felügyelt finomhangolás (SFT) nélkül kezdeti lépésként, bemutatva az RL-ben rejlő lehetőségeket és a kiváló érvelési képességeket azt hozza. Megerősítő tanulás révén, Az DeepSeek-R1-Zero természetesen számos erőteljes és érdekes érvelési viselkedéssel jelent meg. Az R1-Zero egyes problémáinak (nyelvi zavarok, jobb általánosítási képesség) további optimalizálása érdekében kiadták DeepSeek-R1, amely egyesíti a többlépcsős képzést és a hidegindításos adatok finomhangolását a megerősítő tanulás előtt. Az DeepSeek-R1 hasonló teljesítményt ért el az érvelési feladatról OpenAI-01-1217-tel. A kutatói közösség támogatása érdekében megtették nyílt forráskódú DeepSeek-R1-Zero, DeepSeek-R1 és hat sűrű modell (1.5B, 7B, 8B, 14B, 32B, 70B) DeepSeek-R1-ből desztillálva, amelyek Qwen és Llamán alapulnak.

A módszer jellemzőit az alábbiakban foglaljuk össze:

  1. A megerősítő tanulás közvetlenül az alapmodellre vonatkozik, anélkül, hogy kezdeti lépésként a felügyelt finomhangolásra (SFT) támaszkodnánk.
  2. Bemutatjuk az DeepSeek-R1 fejlesztési folyamatot, amely két megerősítő tanulási fázist és két felügyelt finomhangolási fázist kombinál, hogy megalapozza a modell érvelési és nem érvelési képességeit.
  3. A kis modellek érvelési feladatokon való teljesítményét javítja a nagy modellek érvelési mintáinak átadása kis modellekre desztillációs technikák.

Áttekintés

Motiváció

  • A jelenlegi nagy nyelvi modellek (LLM-ek) jelentős előrehaladást értek el a következtetési feladatok terén, de még mindig kihívásokkal néznek szembe.
  • A tisztaság lehetősége Az LLM-ek érvelési képességének javítását szolgáló megerősítési tanulás (RL) nem került teljes körűen feltárásra, különösen a felügyelt adatokra való támaszkodás nélkül.
  • Az RL-n keresztül kiképzett modellek, mint pl DeepSeek-R1-Zero, problémái vannak az olvashatósággal és a nyelvkeveréssel (pl. vegyesen beszél kínaiul és angolul), és további fejlesztésre van szükség a felhasználóbarátság javítása érdekében.

Mód

DeepSeek-R1-Zero: Az DeepSeek-V3-Base-t használja alapmodellként, és A GRPO (Group Relative Policy Optimization) a tanulás megerősítése keret, felügyelt adatok nélkül a modell következtetési teljesítményének javítása érdekében.

DeepSeek-R1:

  • Hidegindítás: Gyűjt egy kis mennyiségű jó minőségű hosszú CoT (Chain-of-Thought) adatot, és finomhangolja a DeepSeek-V3-Alapmodell mint a megerősítő tanulás kezdeti szereplője.
  • Érvelés-orientált megerősítő tanulás: Ugyanaz az DeepSeek-R1-Zero megerősítő tanulási folyamatát alkalmazzák, de a modell érvelési képességeinek fejlesztésére összpontosítva olyan területeken, mint a kódolás, a matematika, a tudomány és a logikai érvelés. A nyelvi konzisztencia jutalmait a CoT-ban előforduló nyelvi keveredés problémájának enyhítésére vezették be.
  • Elutasítási mintavétel és felügyelt finomhangolás: A megerősítő tanulás összevont ellenőrzőpontját használja felügyelt finomhangolási (SFT) adatokat gyűjt a későbbi képzéshez.
  • Megerősítő tanulás minden forgatókönyvhöz: Második szintű megerősítő tanulási fázist valósít meg, amelynek célja a a modell segítőkészségét és ártalmatlanságát, miközben optimalizálja érvelési képességét.
  • A tudás lepárlása: Közvetlenül finomhangolja a nyílt forráskódú Qwen és Llama modelleket az DeepSeek-R1 által gyűjtött 800 000 minta segítségével.

Részletes módszerek és eljárások:

DeepSeek-R1-Zero: Megerősítő tanulás alapmodellekhez

  • Megerősítő tanulási algoritmus: A csoportos relatív házirend optimalizálási (GRPO) algoritmust használja, amely nem igényel a kritikus modell, csoportpontszámok alapján becsüli meg az alapértéket, és csökkenti a képzési költségeket.
  • Jutalommodellezés: Használ a szabály alapú jutalmazási rendszer, beleértve
  • pontossági jutalom: Kiértékeli, hogy a válasz helyes-e, például a végeredmény helyességét matematikai feladat válasz, a fordító visszajelzése a kódproblémákra.
  • Jutalom formátuma: Arra ösztönzi a modellt közé helyezzük a gondolkodási folyamatot és címkéket.

Képzési sablon: Egy sablon, amely tartalmazza és címkék célja irányítsa a modellt, hogy először a gondolkodási folyamatot adja ki, majd a végső választ.

  • Önfejlődési folyamat: DeepSeek-R1-Zero bizonyított önevolúciós jellemzőit a képzés során, és képes volt önállóan elsajátítani bonyolultabb érvelési stratégiákat, mint például a több problémamegoldó út reflexiója és feltárása.

DeepSeek-R1: Megerősítő tanulás hidegindítással kombinálva

  • Hidegindítás: Az DeepSeek-R1-Zero megoldására olvashatósági probléma, DeepSeek-R1 először összegyűjt egy kis mennyiségű kiváló minőségű CoT adatok és finomhangolja az DeepSeek-V3-Base modellt a megerősítő tanulás kezdeti szereplője. A hidegindítási adatok összefoglaló címkéket és barátságtalan válaszokat tartalmaz kiszűrik.
    • Módszer: 1) Válassza ki a jó minőségű Long COT adatokat. 2) Add és címkék.
    • Előnyök: 1) Optimalizált olvashatóság (megoldja az R1-Zero többnyelvű problémáját vagy a leértékelési formátum problémáját). 2) A gondosan kiválasztott, ember által preferált adatok tovább javíthatják az R1-Zero teljesítményét.
    • Kérdés: Miért kell megoldani az olvashatósági problémát? Megoldás nélkül nem lehet jobbat csinálni (pl. a kimenet hosszának csökkentése, hatékonyabb következtetés)?
  • Érvelés-orientált RL: A hidegindítási modell alapján egy megerősítő tanulási folyamat hasonló Az DeepSeek-R1-Zero alkalmazása a modell képességének javítására összpontosít olyan feladatokban, mint a kódolás, a matematika, a tudományos és logikai érvelés.. A kevert nyelvek problémájának megoldásához (többnyelvű érvelés), a nyelvi következetesség jutalma bemutatják.
    • Kérdés: Hogyan képezik a tudományos és logikai érvelési feladatokat és adatkészleteket?
  • Elutasítási mintavétel és SFT: Miután a következtetésvezérelt megerősítő tanulás konvergál, a kapott ellenőrzőpontot használják elutasítási mintavétel új SFT adatok generálásához, amelyeket az DeepSeek-V3 adataival kombinálunk, hogy javítsuk a modell képességeit írásban, szerepjátékban és általános feladatokban.
    • Cél:
      • Ez a fázis azután indul el következtetés-orientált megerősítési tanulási (RL) folyamat konvergál.
      • A fő cél az felügyelt finomhangolási (SFT) adatok gyűjtése a következő edzési körökben való használatra.
      • Ellentétben a kezdeti hidegindítási adatokkal, amelyek csak a következtetésre összpontosítanak, ez a fázis arra irányul bővíteni a modell képességeit az írásra, a szerepjátékokra és más általános célú feladatokra, nem csak a következtetésekre.
    • Adatgyűjtés – Következtetési adatok:
      • Módszer: Használja a következtetésorientált RL fázisból kapott ellenőrzőpontokat a következtetési pályák létrehozásához elutasító mintavétellel.
      • Adatkészlet bővítés: Az előző RL fázistól eltérően, amely csak szabályalapú jutalomadatokat használt, itt a nem szabályalapú jutalomadatok kerülnek bevezetésre. Egyes esetekben generatív jutalmazási modellt (DeepSeek-V3) használnak a válasz meghatározására.
      • Adatszűrés: A minőség és az olvashatóság biztosítása érdekében a kimenetet szűrjük, és eltávolítjuk:
        • kevert nyelveket tartalmazó gondolatláncok
        • hosszú bekezdések
        • kódblokkok
      • Mintavétel és kiválasztás: Minden prompthoz több válasz jött létre. Az adatkészlethez csak a „helyes” válasz maradt meg.
      • Adatkészlet mérete: Hozzávetőlegesen 600 000 következtetéshez kapcsolódó képzési minta ilyen módon gyűjtötték össze.
    • Adatgyűjtés – következtetés nélküli adatok:
      • Lefedettség: Írás, tényszerű kérdések megválaszolása (QA), önismeret és fordítás.
      • A lap megemlíti a használatát Az DeepSeek-V3 feldolgozza és újrafelhasználja az DeepSeek-V3 SFT adatkészlet egy részét hogy ezeket a következtetés nélküli feladatokat kezelje. Körülbelül 200 000 következtetéstől független minta összegyűjtötték. (Megjegyzés: A következtetés nélküli adatok gyűjtésének részleteit a 2.3.4. szakasz ismerteti részletesebben.)
    • Az összegyűjtött adatok felhasználása:
      • Az összegyűjtött érvelési és indoklás nélküli adatokat (összesen kb. 800 000 minta – 600 000 érvelési minta + 200 000 indokolás nélküli minta) használták fel finomhangolja az DeepSeek-V3-Base modellt két korszakra. Ezt a finomhangolt modellt használták a 2.3.4. szakaszban leírt végső RL fázisban.
    • Összefoglaló Ez a lépés a következtetési képességeket használja az RL-n keresztül tanult meg egy változatos és jó minőségű SFT adatkészlet létrehozását. Ez az adatkészlet megerősíti a következtetési képességeket, és kiterjeszti az általános képességeket is a képzési modell a végső összehangolási és fejlesztési szakaszban.
  • Megerősítő tanulás minden forgatókönyvhöz: Az emberi preferenciák további összehangolása érdekében a megerősítő tanulás második szakaszát hajtják végre, hogy javítsák a modell segítőkészségét és ártalmatlanságát.
    • Következtetési adatok: pl. matematikai, kód, logikai következtetés vagy szabálybázis módszerekkel felügyelt.
    • Általános adatok: a jutalmazási modelleket továbbra is használják az összetett és finom forgatókönyvek preferenciáinak biztosítására. A páronkénti adatokkal betanított modelleket is megbecsüljük.
    • Hasznosság: csak a végső összefoglaló eredményekre koncentráljon, csökkentve ezzel a következtetési folyamattal való interferenciát.
    • Ártalmatlanság: felügyelje a teljes választ a kockázatok csökkentése érdekében.

Modell desztilláció (Desztilláció):

  • Egy hatékonyabb kis következtetési modell elérése érdekében a cikk az DeepSeek-R1 következtetési képességét a Qwen és Llama sorozat nyílt forráskódú modelljeibe desztillálja. A desztillációs folyamat csak felügyelt finomhangolást (SFT) használ és nem használja a megerősítő tanulási szakaszt.

Következtetés

DeepSeek-R1-Zero: bemutatja a benne rejlő lehetőségeket tiszta megerősítés tanulás az LLM következtetési képesség motiválásában, és erős teljesítményt érhet el felügyelt adatokra való támaszkodás nélkül.

  • Aha-pillanat: A megerősítő tanulás szépsége (a modell megvilágosodásának pillanata, ahol az több gondolkodási időt szán egy problémára azáltal, hogy megtanul újraértékelni a kezdeti megközelítés)
  • A kimenet hossza tovább növekszik (a gondolkodási idő tovább növekszik)
  • A pontosság folyamatosan javul (16 válasz mintavétele a pontosság kiszámításához)
  • DeepSeek-R1: Tovább javítja a modell teljesítményét a hidegindítási adatok és az iteratív megerősítő tanulási finomhangolás kombinálásával, az OpenAI-01-1217-hez hasonló szint elérése különféle feladatokon.
  • Tudáslepárlás: Az DeepSeek-R1-et tanári modellként használva 800K képzési mintát generáltak, és több kicsi, sűrű modellt finomhangoltak. Az eredmények azt mutatják, hogy ez desztillációs módszerrel jelentősen javítható a következtetési képesség kis modellek.

Korlátozás

  • 1. korlátozás: Az DeepSeek-R1 általános képességét javítani kell. Az DeepSeek-R1 még mindig rosszabb, mint az DeepSeek-V3 olyan feladatokban, mint a függvényhívások, a többfordulós párbeszéd, az összetett szerepjáték és a JSON-kimenet.
  • 2. korlátozás: Nyelvkeverési probléma. Az DeepSeek-R1 nyelvkeverési problémába ütközhet a nem kínai és nem angol lekérdezések feldolgozása során, például angol nyelvű érvelés és válaszadás során.
  • 3. korlátozás: azonnali érzékenység. Az DeepSeek-R1 érzékeny a felszólító szavakra, és a néhány lépéses felszólítás csökkenti a teljesítményét.
  • 4. korlátozás: Korlátozottan alkalmazható szoftvermérnöki feladatokra. A hosszú értékelési idő miatt a nagyszabású megerősítő tanulást nem alkalmazták teljes mértékben a szoftverfejlesztési feladatokban, és az DeepSeek-R1 korlátozott fejlődést mutat az DeepSeek-V3-hoz képest a szoftverfejlesztési benchmarkokban.

Hasonló hozzászólások

Vélemény, hozzászólás?

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük