Ma megosztjuk DeepSeek R1, Title: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reforcement Learning: Az LLM érvelési képességének ösztönzése megerősítéses tanulás révén.
Ez a cikk bemutatja az DeepSeek gondolkodási modelljeinek első generációját, DeepSeek-R1-Zero és DeepSeek-R1. Az DeepSeek-R1-Zero modellt betanították nagy léptékű megerősítéses tanulás (RL) felügyelt finomhangolás (SFT) nélkül kezdeti lépésként, bemutatva az RL-ben rejlő lehetőségeket és a kiváló érvelési képességeket azt hozza. Megerősítő tanulás révén, Az DeepSeek-R1-Zero természetesen számos erőteljes és érdekes érvelési viselkedéssel jelent meg. Az R1-Zero egyes problémáinak (nyelvi zavarok, jobb általánosítási képesség) további optimalizálása érdekében kiadták DeepSeek-R1, amely egyesíti a többlépcsős képzést és a hidegindításos adatok finomhangolását a megerősítő tanulás előtt. Az DeepSeek-R1 hasonló teljesítményt ért el az érvelési feladatról OpenAI-01-1217-tel. A kutatói közösség támogatása érdekében megtették nyílt forráskódú DeepSeek-R1-Zero, DeepSeek-R1 és hat sűrű modell (1.5B, 7B, 8B, 14B, 32B, 70B) DeepSeek-R1-ből desztillálva, amelyek Qwen és Llamán alapulnak.
A módszer jellemzőit az alábbiakban foglaljuk össze:
- A megerősítő tanulás közvetlenül az alapmodellre vonatkozik, anélkül, hogy kezdeti lépésként a felügyelt finomhangolásra (SFT) támaszkodnánk.
- Bemutatjuk az DeepSeek-R1 fejlesztési folyamatot, amely két megerősítő tanulási fázist és két felügyelt finomhangolási fázist kombinál, hogy megalapozza a modell érvelési és nem érvelési képességeit.
- A kis modellek érvelési feladatokon való teljesítményét javítja a nagy modellek érvelési mintáinak átadása kis modellekre desztillációs technikák.
Áttekintés
- Cím: DeepSeek-R1: Az érvelési képesség ösztönzése az LLM-ekben a tanulás megerősítésén keresztül
- Szerzői: DeepSeek-AI
- Github: deepseek R1
Motiváció
- A jelenlegi nagy nyelvi modellek (LLM-ek) jelentős előrehaladást értek el a következtetési feladatok terén, de még mindig kihívásokkal néznek szembe.
- A tisztaság lehetősége Az LLM-ek érvelési képességének javítását szolgáló megerősítési tanulás (RL) nem került teljes körűen feltárásra, különösen a felügyelt adatokra való támaszkodás nélkül.
- Az RL-n keresztül kiképzett modellek, mint pl DeepSeek-R1-Zero, problémái vannak az olvashatósággal és a nyelvkeveréssel (pl. vegyesen beszél kínaiul és angolul), és további fejlesztésre van szükség a felhasználóbarátság javítása érdekében.
Mód

DeepSeek-R1-Zero: Az DeepSeek-V3-Base-t használja alapmodellként, és A GRPO (Group Relative Policy Optimization) a tanulás megerősítése keret, felügyelt adatok nélkül a modell következtetési teljesítményének javítása érdekében.
DeepSeek-R1:
- Hidegindítás: Gyűjt egy kis mennyiségű jó minőségű hosszú CoT (Chain-of-Thought) adatot, és finomhangolja a DeepSeek-V3-Alapmodell mint a megerősítő tanulás kezdeti szereplője.
- Érvelés-orientált megerősítő tanulás: Ugyanaz az DeepSeek-R1-Zero megerősítő tanulási folyamatát alkalmazzák, de a modell érvelési képességeinek fejlesztésére összpontosítva olyan területeken, mint a kódolás, a matematika, a tudomány és a logikai érvelés. A nyelvi konzisztencia jutalmait a CoT-ban előforduló nyelvi keveredés problémájának enyhítésére vezették be.
- Elutasítási mintavétel és felügyelt finomhangolás: A megerősítő tanulás összevont ellenőrzőpontját használja felügyelt finomhangolási (SFT) adatokat gyűjt a későbbi képzéshez.
- Megerősítő tanulás minden forgatókönyvhöz: Második szintű megerősítő tanulási fázist valósít meg, amelynek célja a a modell segítőkészségét és ártalmatlanságát, miközben optimalizálja érvelési képességét.
- A tudás lepárlása: Közvetlenül finomhangolja a nyílt forráskódú Qwen és Llama modelleket az DeepSeek-R1 által gyűjtött 800 000 minta segítségével.
Részletes módszerek és eljárások:

DeepSeek-R1-Zero: Megerősítő tanulás alapmodellekhez
- Megerősítő tanulási algoritmus: A csoportos relatív házirend optimalizálási (GRPO) algoritmust használja, amely nem igényel a kritikus modell, csoportpontszámok alapján becsüli meg az alapértéket, és csökkenti a képzési költségeket.
- Jutalommodellezés: Használ a szabály alapú jutalmazási rendszer, beleértve

- pontossági jutalom: Kiértékeli, hogy a válasz helyes-e, például a végeredmény helyességét matematikai feladat válasz, a fordító visszajelzése a kódproblémákra.
- Jutalom formátuma: Arra ösztönzi a modellt közé helyezzük a gondolkodási folyamatot
és
címkéket.
Képzési sablon: Egy sablon, amely tartalmazza és
címkék célja irányítsa a modellt, hogy először a gondolkodási folyamatot adja ki, majd a végső választ.

- Önfejlődési folyamat: DeepSeek-R1-Zero bizonyított önevolúciós jellemzőit a képzés során, és képes volt önállóan elsajátítani bonyolultabb érvelési stratégiákat, mint például a több problémamegoldó út reflexiója és feltárása.

DeepSeek-R1: Megerősítő tanulás hidegindítással kombinálva

- Hidegindítás: Az DeepSeek-R1-Zero megoldására olvashatósági probléma, DeepSeek-R1 először összegyűjt egy kis mennyiségű kiváló minőségű CoT adatok és finomhangolja az DeepSeek-V3-Base modellt a megerősítő tanulás kezdeti szereplője. A hidegindítási adatok összefoglaló címkéket és barátságtalan válaszokat tartalmaz kiszűrik.
- Módszer: 1) Válassza ki a jó minőségű Long COT adatokat. 2) Add és címkék.
- Előnyök: 1) Optimalizált olvashatóság (megoldja az R1-Zero többnyelvű problémáját vagy a leértékelési formátum problémáját). 2) A gondosan kiválasztott, ember által preferált adatok tovább javíthatják az R1-Zero teljesítményét.
- Kérdés: Miért kell megoldani az olvashatósági problémát? Megoldás nélkül nem lehet jobbat csinálni (pl. a kimenet hosszának csökkentése, hatékonyabb következtetés)?
- Érvelés-orientált RL: A hidegindítási modell alapján egy megerősítő tanulási folyamat hasonló Az DeepSeek-R1-Zero alkalmazása a modell képességének javítására összpontosít olyan feladatokban, mint a kódolás, a matematika, a tudományos és logikai érvelés.. A kevert nyelvek problémájának megoldásához (többnyelvű érvelés), a nyelvi következetesség jutalma bemutatják.
- Kérdés: Hogyan képezik a tudományos és logikai érvelési feladatokat és adatkészleteket?
- Elutasítási mintavétel és SFT: Miután a következtetésvezérelt megerősítő tanulás konvergál, a kapott ellenőrzőpontot használják elutasítási mintavétel új SFT adatok generálásához, amelyeket az DeepSeek-V3 adataival kombinálunk, hogy javítsuk a modell képességeit írásban, szerepjátékban és általános feladatokban.
- Cél:
- Ez a fázis azután indul el következtetés-orientált megerősítési tanulási (RL) folyamat konvergál.
- A fő cél az felügyelt finomhangolási (SFT) adatok gyűjtése a következő edzési körökben való használatra.
- Ellentétben a kezdeti hidegindítási adatokkal, amelyek csak a következtetésre összpontosítanak, ez a fázis arra irányul bővíteni a modell képességeit az írásra, a szerepjátékokra és más általános célú feladatokra, nem csak a következtetésekre.
- Adatgyűjtés – Következtetési adatok:
- Módszer: Használja a következtetésorientált RL fázisból kapott ellenőrzőpontokat a következtetési pályák létrehozásához elutasító mintavétellel.
- Adatkészlet bővítés: Az előző RL fázistól eltérően, amely csak szabályalapú jutalomadatokat használt, itt a nem szabályalapú jutalomadatok kerülnek bevezetésre. Egyes esetekben generatív jutalmazási modellt (DeepSeek-V3) használnak a válasz meghatározására.
- Adatszűrés: A minőség és az olvashatóság biztosítása érdekében a kimenetet szűrjük, és eltávolítjuk:
- kevert nyelveket tartalmazó gondolatláncok
- hosszú bekezdések
- kódblokkok
- Mintavétel és kiválasztás: Minden prompthoz több válasz jött létre. Az adatkészlethez csak a „helyes” válasz maradt meg.
- Adatkészlet mérete: Hozzávetőlegesen 600 000 következtetéshez kapcsolódó képzési minta ilyen módon gyűjtötték össze.
- Adatgyűjtés – következtetés nélküli adatok:
- Lefedettség: Írás, tényszerű kérdések megválaszolása (QA), önismeret és fordítás.
- A lap megemlíti a használatát Az DeepSeek-V3 feldolgozza és újrafelhasználja az DeepSeek-V3 SFT adatkészlet egy részét hogy ezeket a következtetés nélküli feladatokat kezelje. Körülbelül 200 000 következtetéstől független minta összegyűjtötték. (Megjegyzés: A következtetés nélküli adatok gyűjtésének részleteit a 2.3.4. szakasz ismerteti részletesebben.)
- Az összegyűjtött adatok felhasználása:
- Az összegyűjtött érvelési és indoklás nélküli adatokat (összesen kb. 800 000 minta – 600 000 érvelési minta + 200 000 indokolás nélküli minta) használták fel finomhangolja az DeepSeek-V3-Base modellt két korszakra. Ezt a finomhangolt modellt használták a 2.3.4. szakaszban leírt végső RL fázisban.
- Összefoglaló Ez a lépés a következtetési képességeket használja az RL-n keresztül tanult meg egy változatos és jó minőségű SFT adatkészlet létrehozását. Ez az adatkészlet megerősíti a következtetési képességeket, és kiterjeszti az általános képességeket is a képzési modell a végső összehangolási és fejlesztési szakaszban.
- Cél:
- Megerősítő tanulás minden forgatókönyvhöz: Az emberi preferenciák további összehangolása érdekében a megerősítő tanulás második szakaszát hajtják végre, hogy javítsák a modell segítőkészségét és ártalmatlanságát.
- Következtetési adatok: pl. matematikai, kód, logikai következtetés vagy szabálybázis módszerekkel felügyelt.
- Általános adatok: a jutalmazási modelleket továbbra is használják az összetett és finom forgatókönyvek preferenciáinak biztosítására. A páronkénti adatokkal betanított modelleket is megbecsüljük.
- Hasznosság: csak a végső összefoglaló eredményekre koncentráljon, csökkentve ezzel a következtetési folyamattal való interferenciát.
- Ártalmatlanság: felügyelje a teljes választ a kockázatok csökkentése érdekében.
Modell desztilláció (Desztilláció):
- Egy hatékonyabb kis következtetési modell elérése érdekében a cikk az DeepSeek-R1 következtetési képességét a Qwen és Llama sorozat nyílt forráskódú modelljeibe desztillálja. A desztillációs folyamat csak felügyelt finomhangolást (SFT) használ és nem használja a megerősítő tanulási szakaszt.
Következtetés
DeepSeek-R1-Zero: bemutatja a benne rejlő lehetőségeket tiszta megerősítés tanulás az LLM következtetési képesség motiválásában, és erős teljesítményt érhet el felügyelt adatokra való támaszkodás nélkül.


- Aha-pillanat: A megerősítő tanulás szépsége (a modell megvilágosodásának pillanata, ahol az több gondolkodási időt szán egy problémára azáltal, hogy megtanul újraértékelni a kezdeti megközelítés)
- A kimenet hossza tovább növekszik (a gondolkodási idő tovább növekszik)
- A pontosság folyamatosan javul (16 válasz mintavétele a pontosság kiszámításához)

- DeepSeek-R1: Tovább javítja a modell teljesítményét a hidegindítási adatok és az iteratív megerősítő tanulási finomhangolás kombinálásával, az OpenAI-01-1217-hez hasonló szint elérése különféle feladatokon.

- Tudáslepárlás: Az DeepSeek-R1-et tanári modellként használva 800K képzési mintát generáltak, és több kicsi, sűrű modellt finomhangoltak. Az eredmények azt mutatják, hogy ez desztillációs módszerrel jelentősen javítható a következtetési képesség kis modellek.
Korlátozás
- 1. korlátozás: Az DeepSeek-R1 általános képességét javítani kell. Az DeepSeek-R1 még mindig rosszabb, mint az DeepSeek-V3 olyan feladatokban, mint a függvényhívások, a többfordulós párbeszéd, az összetett szerepjáték és a JSON-kimenet.
- 2. korlátozás: Nyelvkeverési probléma. Az DeepSeek-R1 nyelvkeverési problémába ütközhet a nem kínai és nem angol lekérdezések feldolgozása során, például angol nyelvű érvelés és válaszadás során.
- 3. korlátozás: azonnali érzékenység. Az DeepSeek-R1 érzékeny a felszólító szavakra, és a néhány lépéses felszólítás csökkenti a teljesítményét.
- 4. korlátozás: Korlátozottan alkalmazható szoftvermérnöki feladatokra. A hosszú értékelési idő miatt a nagyszabású megerősítő tanulást nem alkalmazták teljes mértékben a szoftverfejlesztési feladatokban, és az DeepSeek-R1 korlátozott fejlődést mutat az DeepSeek-V3-hoz képest a szoftverfejlesztési benchmarkokban.