Ma szeretnék megosztani egy cikket az DeepSeek-től, melynek címe DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models.
Ez a cikk bemutatja az DeepSeekMath 7B-t, amely előre betanított DeepSeek-Coder-Base-v1.5 7B alapján 120 milliárdos matematikai tokenek, természetes nyelvi és kódadatok gyűjteménye.
A modell elképesztő, 51,7% pontszámot ért el versenyképes szintű MATH benchmarkokban anélkül, hogy külső eszközkészletekre és szavazási technikákra támaszkodna, és megközelítette a Gemini-Ultra és a GPT-4 teljesítményszintjét.
Az DeepSeekMath 7B matematikai érvelési képessége két kulcstényezőnek tulajdonítható: Először is egy gondosan megtervezett adatkiválasztó csővezeték, a kiváló minőségű matematikával kapcsolatos adatokat iteratív módon bányásznak nyilvánosan elérhető webes adatokból.
Másodszor, a csoportos relatív irányelv optimalizálás (GRPO). bevezetett, amely a proximális házirend-optimalizálás (PPO) egy változata, amely javíthatja a matematikai érvelési képességet, miközben optimalizálja a PPO memóriahasználatát.
- A módszer jellemzőit a következőkben foglaljuk össze:Kiváló minőségű matematikai előképzési korpusz megépült, és egy gondosan megtervezett csővezetéket használtak a Common Crawl kiváló minőségű matematikai adatainak bányászására.
- A GRPO algoritmus javasolták, ami csökkenti a képzéshez szükséges erőforrásokat és javítja a modell matematikai érvelési képességét. 3) A legmodernebb teljesítmény volt több matematikai érvelési benchmark tesztben is elért.
Áttekintés
Cím: DeepSeekMath: A matematikai érvelés határainak feszegetése nyílt nyelvi modellekben
URL: kattintson ide
Szerzői: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y. Wu, Daya Guo
Kód: kattintson ide
Motiváció
A matematikai érvelés jelentős kihívás elé állítja a nyelvi modelleket a matematika összetettsége és strukturált természete miatt. A legfejlettebb modellek, mint például a GPT-4 és a Gemini-Ultra, erősek, de nem érhetők el nyilvánosan. Ezért van még mit javítani a teljesítményen nyílt forráskódú modellek.
Összetettség és szerkezet: A matematikai érvelés jelentős kihívás elé állítja a nyelvi modelleket a matematika összetettsége és strukturált természete miatt.
Nyilvános adatok lehetősége: A nyilvánosan elérhető webes adatok gazdag matematikai információkat tartalmazhatnak, amelyeket még bányászni és felhasználni kell.
Mód
Adatgyűjtés: Egy 120B tokenből álló DeepSeekMath korpusz készült a Common Crawl szolgáltatásból egy iteratív folyamaton keresztül, kiváló minőségű matematikai webes adatok gyűjtésével.
Modellképzés: A korpuszt az DeepSeek-Coder-Base-v1.5 7B feletti előképzésre használták, és a matematikai utasítás finomhangoló és csoportos relatív irányelv-optimalizálási (GRPO) algoritmust alkalmaztuk.
GRPO algoritmus: A GRPO egy továbbfejlesztett megerősítő tanulási algoritmus, amely eltávolítja a kritikus modellt a PPO-ban, és megbecsüli az alapvonalat a csoportpontszámból, ezáltal jelentősen csökkentve a képzési erőforrásokat.
Részletes módszerek és eljárások:
Adatgyűjtés és feldolgozás:

Build DeepSeekMath Corpus: FastText alapú osztályozó használatával, kivonat 120B matematikai tokeneket a Common Crawlból egy nagyméretű, kiváló minőségű előre betanított korpusz, az DeepSeekMath Corpus felépítéséhez.
Iteratív adatszűrés: Iteratív stratégiát alkalmaznak, az OpenWebMath használata magadatként egy kezdeti osztályozó betanításához, majd ezzel az osztályozóval további pozitív példák bányászására a Common Crawlból, amelyek manuálisan vannak ellátva az osztályozó teljesítményének folyamatos optimalizálása érdekében.
Többnyelvű szolgáltatások: Az DeepSeekMath Corpus tartalmaz többnyelvű adatok, ami javítja a modell teljesítményét a kínai matematikai benchmarkokon.
Szennyezésmentesítési feldolgozás: De-szennyezés-feldolgozást végeznek a betanítási adatokon, hogy elkerüljék a vizsgálati referenciaértékkel való átfedést.
Előképzés:
Kód alapú modell inicializálás: Inicializálás a DeepSeek-Coder-Base-v1.5 7B modellt hatékonyabbnak találták, mint az általános LLM-ből történő inicializálást.
Előképzési adatok összetétele: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% Github kód, 10% Common Crawl természetes nyelvi adatok.
Előképzési paraméterek: AdamW optimalizálót használnak, 4,2e-4 tanulási sebességgel, 10 millió tokenek kötegméretével és 500 milliárd tokenek betanításával.
Utasítás finomhangolása:
Készítsen egy utasítás-finomhangoló adatkészletet: Készítsen egy matematikai utasítás-finomhangoló adatkészletet, amely tartalmazza 776 ezer minta, amely számos matematikai területet és nehézségi szintet lefed, beleértve a CoT, PoT és az eszközökbe integrált következtetési formátumokat a lépések megoldásához.
Edzés paraméterei: Tételméret 256, tanulási sebesség 5e-5, edzés 500 lépésre.
Megerősítő tanulás – Csoportos relatív irányelvek optimalizálása (GRPO):
Javaslat GRPO algoritmus: Javaslat a A GRPO PPO variáns algoritmus, amely elkerüli a kritikus modell szükségességét azáltal, hogy csoportonkénti pontszámokat használ az alapvonal becsléséhez, ezáltal csökkentve a képzési erőforrásokat.
Objektív funkció: A GRPO egy olyan célfüggvény maximalizálásával optimalizálja a házirend-modellt figyelembe veszi a csoporton belüli kimenetek relatív előnyét, és közvetlenül hozzáadja a KL divergenciát, mint szabályzó kifejezést.
Előny számítás: A GRPO ezen keresztül számítja ki az előnyt csoporton belüli relatív jutalmak, elkerülve a csoportok közötti összehasonlításokat, és jobban megfelelnek a jutalmazási modell összehasonlító jellegének.
Támogatja az eredmény- és a folyamatfigyelést: GRPO támogathatja mind az eredmények, mind a folyamatok nyomon követését, és hatékonyabban nyomon követheti a politikát jutalmakkal minden következtetési lépés végén.
Iteratív RL: Használ egy iteratív RL stratégia az irányelvmodell mintavételi eredményei alapján új képzési készletet generálni, a régi jutalmazási modellt folyamatosan betanítani, és az új jutalmazási modellt használni a szabályzatmodell frissítéséhez.
Képzési adatok: A GSM8K-hoz és a MATH-hoz kapcsolódó CoT formátum problémákat használja az SFT adatokban, körülbelül 144K probléma.
Edzés paraméterei: Az irányelvmodell tanulási sebessége 1e-6, a KL együttható 0,04, minden feladathoz 64 kimenet mintavételezése történik, a maximális hossza 1024, a betanítási köteg mérete 1024.
Következtetés

1. következtetés:Az DeepSeekMath 7B minden nyílt forráskódú modellt felülmúl matematikai érvelési képességében. A kompetitív MATH benchmark tesztben az DeepSeekMath 7B 51,7% pontosságot ért el, ami közel áll a Gemini-Ultra és a GPT-4 teljesítményszintjéhez.
2. következtetés:A jól megtervezett előképzési adatok és a GRPO algoritmusok kulcsfontosságúak a modell sikerében. A kiváló minőségű matematikai korpusz és a GRPO algoritmusok kombinációja lehetővé teszi a modell számára, hogy jelentős teljesítménynövekedést érjen el a matematikai érvelési feladatokban.
3. következtetés:A kódoktatás javítja a matematikai érvelési képességet. A kódadatok hozzáadása az előképzési szakaszhoz javíthatja a modell matematikai problémák megoldási képességét, mind eszközökkel, mind anélkül.
4. következtetés: Az arXiv adatok korlátozott használhatósága: A korábbi vélekedésekkel ellentétben az arXiv adatok korlátozott segítséget nyújtottak a matematikai érvelés javításában.
Korlátozás
A geometriai és bizonyítási képességek viszonylag gyengék: Bár az DeepSeekMath jeleskedik a kvantitatív érvelésben, geometriai és bizonyítási képességei még mindig gyengébbek a zárt forráskódú modelleknél. Ennek oka lehet a torzított adatkiválasztás az előképzési és finomhangolási szakaszban.
Gyengeség a kis mintakapacitásban: Az DeepSeekMath gyengébb a GPT-4-nél a kis minta tanulása szempontjából, ami a modell méretének korlátaiból adódhat.
Hatékonyabb megerősítő tanulási módszerekre van szükség: Bár a dolgozatban javasolt megerősítő tanulási módszerek hatékonyak, van még hova fejlődni, például a jutalmazási modellből származó visszajelzések hatékonyabb kihasználása és a zajos jutalmazási jelek kezelése.
Részletek
Megerősítő tanulás feltárása és elemzése
Áttekintés:
A Group Relative Policy Optimization (GRPO) bemutatása: A tanulmány egy új, megerősítő tanulási algoritmust, a GRPO-t javasolja a Proximal Policy Optimization (PPO) változataként. A GRPO fő jellemzője az, hogy elhagyja a PPO-ban általánosan használt Kritikus modellt, és az alapvonalat a csoportpontszámokon keresztül becsüli meg, ezáltal nagymértékben csökkenti a képzéshez szükséges számítási erőforrásokat.
GRPO hatékonysági bemutató: A cikk kísérletileg bemutatja, hogy a GRPO képes hatékonyan javítja a parancs-finomhangoló modellek teljesítményét, beleértve mind a tartományon belüli, mind a tartományon kívüli matematikai feladatokat.
Egységes keretrendszer a megerősített tanulási módszerekhez: A dolgozat egységes keretrendszert javasol a különböző megerősítéses tanulási módszerek megértéséhez, mint pl Elutasítási mintavételi finomhangolás (RFT), közvetlen preferenciaoptimalizálás (DPO), PPO és GRPO. A keretrendszer ezeket a módszereket közvetlen vagy egyszerűsített megerősítő tanulási technikákként kezeli.
A megerősítő tanulás elemeinek mélyreható feltárása: A dolgozat mélyrehatóan vizsgálja a megerősítő tanulás kulcselemei, mint például az online képzés és az offline képzés, az eredményfelügyelet és a folyamatfelügyelet, az egyfordulós megerősítéses tanulás és az iteratív megerősítéses tanulás, részletes kísérleteken keresztül, és összefoglalja a megerősítő tanulás hatékonyságának javításának lehetséges irányait.
GRPO (Group Relative Policy Optimization) algoritmus

Korlátai PPO: A PPO egy általánosan használt megerősítő tanulási algoritmus, de képzést igényel további Kritikus modell az értékfüggvény becslésére, amely előírja további számítási és memóriaterhelést jelent. Ezenkívül az LLM forgatókönyvében A kritikai modellképzés bonyolult lehet, mert értékelést igényel az egyes token kimenete.
A GRPO alapötlete: A GRPO alapötlete az, hogy hagyjuk fel a kritikus modellt, és ehelyett használjuk kiindulási értékként a kimenetek halmazának átlagos pontszámát ugyanarra a problémára. Ez az alapérték használható az előny függvény becslésére és a politika optimalizálására. Ez a megközelítés jelentősen csökkenti a képzés bonyolultságát.
Előnyfüggvény számítás: A GRPO úgy számítja ki az előnyfüggvényt az egyes kimenetek relatív rangsorának kiszámítása ugyanabban a kimenetcsoportban, ahelyett, hogy külön értékfüggvényre hagyatkozna mint a PPO-ban.
KL eltérés büntetés: GRPO nem ad hozzá KL eltérési büntetést a jutalomhoz, mint a PPO, hanem közvetlenül a veszteségfüggvényhez adja hozzá a politikai modell és a referenciamodell közötti KL eltérést. Ezzel elkerülhető az összetett előnyfüggvény számítás.
A GRPO alapötlete
nem igényel kritikát (értékfüggvény): A GRPO elkerüli az értékfüggvény szükségességét és a csoporton belüli pontszámot használja az alapvonal becsléséhez, ezáltal csökkentve a képzési forrásokat.
Csoporton belüli relatív előny: A GRPO minden q feladathoz mintát vesz a {o(1), o(2), …, o(G)} kimenetek halmazából a régi π(θold) irányelvből, majd optimalizálja a házirend-modellt úgy, hogy maximalizálja a következő egyenletet célfüggvényként.

Pontosabban:

A kulcs itt az Â(i,t), amely az előnyt jelenti, és a kiszámítása a a csoporton belüli teljesítmény relatív jutalma, ahelyett, hogy egy külön értékfüggvényre hagyatkozna, mint a PPO-ban.

A célfüggvény is közvetlenül hozzáad A KL divergencia, mint a nagyságának szabályozására szolgáló regularizációs tag irányelvek frissítései

és igazodjon a jutalommodell összehasonlító jellegéhez: A GRPO a relatív csoporton belüli jutalmat használja az előny kiszámításához, ami jobban megfelel a jutalmazási modell természetének, amelyet általában páronkénti összehasonlítás alapján képeznek ki.
Hogyan tervezhető meg a GRPO Jutalom modellje (lásd DeepSeek R1)?
Jellemzők:
formátumú jutalom: kényszeríti a generáció hosszú gyermekágy eredményeket, amelyek arra késztethetik a modellt, hogy következtetési folyamatokat generáljon, és javítsa a modell következtetési hatását.
pontossági jutalom: a matematika használhatja a végeredményt, a kód pedig fordítói visszacsatolást.
A GRPO előnyei
Kevesebb memóriaterület: nincs szükség kritikus modellre, csökkentve a memóriaigényt.
Hatékonyabb edzés: a csoporton belüli relatív előny felhasználásával történő számítás leegyszerűsíti a képzési folyamatot.
Jobban kompatibilis a jutalommodellek természetével: javítja az edzés stabilitását és hatékonyságát.
RL egységes paradigma összefoglaló
Egységes paradigma javasolt
A szerzők egy egységes paradigmát javasolnak a különböző képzési módszerek megértéséhez, mint például az SFT (felügyelt finomhangolás), az RFT (Rejection Sampling Fine-tuning), a DPO (Direct Preference Optimization), a PPO, a GRPO stb. RL kulcselemek: Az egységes keretrendszer kulcselemei: adatforrások, jutalmazási függvények és algoritmusok.
- Adatforrás: Ez a képzéshez használt adatokra vonatkozik, amelyek származhatnak kézi címkézésből, SFT-modellekből vagy valós idejű szabályzatmodellekből.
- Jutalom funkció: Ez a kimenet minőségének értékelésére használt függvényre vonatkozik, amely lehet szabály vagy modell.
- Algoritmus: Ez az adat- és jutalomjel feldolgozására, valamint a modell paramétereinek frissítésére használt módszerre vonatkozik.
Különböző módszerek elemzése egységes paradigma alapján
A 10. táblázat összefoglalja az SFT, RFT, DPO, Online RFT, PPO és GRPO hasonlóságait és különbségeit az adatforrások, a jutalmazási függvények és a gradiens együtthatók tekintetében.
Módszer | Képzési adatok | Jutalom funkció | Gradiens együttható | Képzési módszer | Előnyök/tulajdonságok | Alkalmazható forgatókönyvek |
SFT | Kézzel címkézett SFT adatok | Manuálisan kiválasztott (implicit jutalom) | 1-re rögzítve | Felügyelt tanulás | Egyszerű és stabil, a minőségi címkézett adatoktól függ | Modell alapképzés, kezdeti igazítási feladat |
RFT | SFT adatkészlet probléma + SFT modell minta kimenet | A válasz helyessége alapján (szabály ítélet) | 0 (rossz) vagy 1 (helyes) | Offline házirend-optimalizálás | Hatékony számítás, szabályvisszacsatolás közvetlen felhasználása | Matematikai/logikai feladatok világos szabályokkal |
DPO | SFT adatkészlet probléma + modell kimenete | Emberi preferenciák címkézése vagy szabályok összehasonlítása | A preferencia valószínűségszámítása alapján (pl. Bradley-Terry modell) | Összehasonlító tanulás | Kerüli az explicit jutalommodellezést, közvetlenül optimalizálja a preferenciákat | Emberi preferencia-illesztési feladatok (pl. párbeszéd generálása) |
Online RFT | Valós idejű irányelv-modell-mintavétel probléma-kimenet párok | A válasz helyessége alapján (szabály ítélet) | 0 (rossz) vagy 1 (helyes) | Online politika optimalizálás | Dinamikusan frissíti a házirendeket valós idejű visszajelzés-optimalizálással | Online interakciót igénylő forgatókönyvek (pl. játék AI) |
PPO | SFT adatkészlet probléma + politikai modell mintavételi kimenete | Jutalommodell (RM) képzett | Dominancia függvény (jutalombecslés alapján) | Politikai gradiens módszer | Hatékony és stabil, támogatja a többlépcsős optimalizálást | Összetett feladatok (pl. szöveggenerálás, robotvezérlés) |
GRPO | SFT adatkészlet probléma + házirend-modell mintavételi kimenet | Jutalommodell (RM) képzett | Csoporton belüli relatív jutalom (normalizált összehasonlítás) | Csoportházirend optimalizálás | Csökkentse a jutalom varianciáját és javítsa a csoporton belüli összehasonlítást | Nagy szórással járó feladatok (pl. hosszú szöveggenerálás) |
Megfigyelések az adatforrásokról

Online vs offline képzés: Az online képzés a valós idejű szabályzatmodell kimenetének betanítási adatként való felhasználását jelenti, míg az offline képzés egy rögzített modell (például az SFT-modell) kimenetének betanítási adatként történő felhasználását jelenti. A kísérleti eredmények azt mutatják Az online képzés általában jobb, mint az offline képzés.
Eredményfelügyelet kontra folyamatfelügyelet: Az eredményfelügyelet csak a kimenet utolsó lépésének jutalmazását jelenti, míg a folyamatfelügyelet az érvelési folyamat minden egyes lépésének jutalmazását jelenti. A kísérleti eredmények azt mutatják összetett feladatokban hatékonyabb a folyamatfelügyelet.
Egyepizódos vs iteratív megerősítő tanulás: Az egyepizódos megerősítéses tanulás egyetlen stratégia optimalizálására utal, míg az iteratív megerősítéses tanulás a jutalmazási modell folyamatos frissítésére utal többszöri stratégia optimalizálás után. A kísérleti eredmények azt mutatják az iteratív megerősítéses tanulás jelentősen javíthatja a teljesítményt, különösen az első iterációban.
Gradiens együtthatók megfigyelése
Szabályalapú vs. modellalapú: A szabály a jutalom meghatározására vonatkozik a válasz helyessége alapján, a modell pedig a jutalommodell pontozásra való betanítására vonatkozik.
A gradiens együtthatók különbsége: A legfontosabb különbség a GRPO és a Az online RFT azt jelenti, hogy a GRPO a jutalommodell által biztosított jutalomértékek alapján módosítja a gradiens együtthatóit, míg az Online RFT nem.
A GRPO előnyei: A kísérletek azt mutatják A GRPO felülmúlja az Online RFT-t, bizonyítva a gradiens együtthatók előjelének megváltoztatásának hatékonyságát. A GRPO+PS felülmúlja a GRPO+OS-t, bemutatva a finomszemcsés, lépéstudatos gradiens együtthatók előnyeit.
Az RL hatékonysága és a fejlesztési irányok
Miért hatékony az RL?

Kísérleti eredmények: Az RL javítja a Maj@K teljesítményt, de nem a Pass@K.
Magyarázat: Az RL javítja a modell általános teljesítményét azáltal, hogy robusztusabbá teszi a kimeneti eloszlást, azaz javítja a helyes válaszok valószínűségét a TopK-ban, nem pedig a modell mögöttes képességét.
Hogyan érhető el hatékonyabb RL?
Az egységes paradigma alapján a szerzők három szempontból javasolnak jövőbeli irányokat az RL fejlesztésére: adatforrások, algoritmusok és jutalmazási függvények.
- Adatforrások:
- Fedezze fel az SFT-n túli problémákat.
- Használjon fejlettebb mintavételi (dekódolási) stratégiákat, például fakeresésen alapuló módszereket.
- Használjon hatékony következtetési technikákat a politikai modell feltárási hatékonyságának javítására.
- Algoritmus:
- Fedezze fel a megerősítő tanulási algoritmusokat, amelyek robusztusabbak a zajos jutalomjelekkel szemben.
- Tanulmányozza a GYENGE-ERŐS típusú igazítási módszereket.
- Jutalom funkció:
- Növelje a jutalommodell általánosító képességét a kiosztáson kívüli problémák és a fejlett dekódolt kimenetek kezelésére.
- Tükrözi a jutalmazási modell bizonytalanságát, és használja hídként a gyenge jutalommodellek és a GYENGE-ERŐS tanulási algoritmusok összekapcsolásához.
- Hatékonyan készítsen kiváló minőségű folyamatjutalmazó modelleket, hogy finom szemcsés képzési jeleket biztosítson a következtetési folyamathoz.
Összefoglaló
Az DeepSeekMath jelentősen javította a nyílt forráskódú nyelvi modellek képességét a matematikai érvelésben egy nagyszabású matematikai korpusz felépítésével és egy új megerősítő tanulási algoritmus javaslatával. A dolgozat fénypontjai a következők
- az DeepSeekMath Corpus, egy nagyméretű, jó minőségű, többnyelvű matematikai korpusz felépítése és validálása.
- Egy hatékony megerősítő tanulási algoritmust, a GRPO-t javasolják a memóriahasználat csökkentésére, miközben javítja a modell matematikai érvelési képességét.
- A kódoktatásnak a matematikai gondolkodási képességre gyakorolt hatását részletesen tárgyaljuk, és kiderül, hogy az arXiv adatoknak korlátozott hatása van. DeepSeekMath értéke:
- Hatékony matematikai gondolkodási modellt biztosít a nyílt forráskódú közösség számára, és elősegíti a matematikai AI fejlesztését.
- Értékes tapasztalatokat és módszereket biztosít a matematikai korpuszok felépítéséhez és a matematikai érvelési modellek képzéséhez.
- A javasolt GRPO algoritmus új ötleteket ad a megerősítő tanulási képzéshez más területeken.