Ma szeretnék megosztani egy cikket az DeepSeek-től, melynek címe DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models.

Ez a cikk bemutatja az DeepSeekMath 7B-t, amely előre betanított DeepSeek-Coder-Base-v1.5 7B alapján 120 milliárdos matematikai tokenek, természetes nyelvi és kódadatok gyűjteménye.

A modell elképesztő, 51,7% pontszámot ért el versenyképes szintű MATH benchmarkokban anélkül, hogy külső eszközkészletekre és szavazási technikákra támaszkodna, és megközelítette a Gemini-Ultra és a GPT-4 teljesítményszintjét.

Az DeepSeekMath 7B matematikai érvelési képessége két kulcstényezőnek tulajdonítható: Először is egy gondosan megtervezett adatkiválasztó csővezeték, a kiváló minőségű matematikával kapcsolatos adatokat iteratív módon bányásznak nyilvánosan elérhető webes adatokból.

Másodszor, a csoportos relatív irányelv optimalizálás (GRPO). bevezetett, amely a proximális házirend-optimalizálás (PPO) egy változata, amely javíthatja a matematikai érvelési képességet, miközben optimalizálja a PPO memóriahasználatát.

  1. A módszer jellemzőit a következőkben foglaljuk össze:Kiváló minőségű matematikai előképzési korpusz megépült, és egy gondosan megtervezett csővezetéket használtak a Common Crawl kiváló minőségű matematikai adatainak bányászására.
  2. A GRPO algoritmus javasolták, ami csökkenti a képzéshez szükséges erőforrásokat és javítja a modell matematikai érvelési képességét. 3) A legmodernebb teljesítmény volt több matematikai érvelési benchmark tesztben is elért.

Áttekintés

Cím: DeepSeekMath: A matematikai érvelés határainak feszegetése nyílt nyelvi modellekben

URL: kattintson ide

Szerzői: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y. Wu, Daya Guo

Kód: kattintson ide

Motiváció

A matematikai érvelés jelentős kihívás elé állítja a nyelvi modelleket a matematika összetettsége és strukturált természete miatt. A legfejlettebb modellek, mint például a GPT-4 és a Gemini-Ultra, erősek, de nem érhetők el nyilvánosan. Ezért van még mit javítani a teljesítményen nyílt forráskódú modellek.

Összetettség és szerkezet: A matematikai érvelés jelentős kihívás elé állítja a nyelvi modelleket a matematika összetettsége és strukturált természete miatt.

Nyilvános adatok lehetősége: A nyilvánosan elérhető webes adatok gazdag matematikai információkat tartalmazhatnak, amelyeket még bányászni és felhasználni kell.

Mód

Adatgyűjtés: Egy 120B tokenből álló DeepSeekMath korpusz készült a Common Crawl szolgáltatásból egy iteratív folyamaton keresztül, kiváló minőségű matematikai webes adatok gyűjtésével.

Modellképzés: A korpuszt az DeepSeek-Coder-Base-v1.5 7B feletti előképzésre használták, és a matematikai utasítás finomhangoló és csoportos relatív irányelv-optimalizálási (GRPO) algoritmust alkalmaztuk.

GRPO algoritmus: A GRPO egy továbbfejlesztett megerősítő tanulási algoritmus, amely eltávolítja a kritikus modellt a PPO-ban, és megbecsüli az alapvonalat a csoportpontszámból, ezáltal jelentősen csökkentve a képzési erőforrásokat.

Részletes módszerek és eljárások:

Adatgyűjtés és feldolgozás:

Build DeepSeekMath Corpus: FastText alapú osztályozó használatával, kivonat 120B matematikai tokeneket a Common Crawlból egy nagyméretű, kiváló minőségű előre betanított korpusz, az DeepSeekMath Corpus felépítéséhez.

Iteratív adatszűrés: Iteratív stratégiát alkalmaznak, az OpenWebMath használata magadatként egy kezdeti osztályozó betanításához, majd ezzel az osztályozóval további pozitív példák bányászására a Common Crawlból, amelyek manuálisan vannak ellátva az osztályozó teljesítményének folyamatos optimalizálása érdekében.

Többnyelvű szolgáltatások: Az DeepSeekMath Corpus tartalmaz többnyelvű adatok, ami javítja a modell teljesítményét a kínai matematikai benchmarkokon.

Szennyezésmentesítési feldolgozás: De-szennyezés-feldolgozást végeznek a betanítási adatokon, hogy elkerüljék a vizsgálati referenciaértékkel való átfedést.

Előképzés:

Kód alapú modell inicializálás: Inicializálás a DeepSeek-Coder-Base-v1.5 7B modellt hatékonyabbnak találták, mint az általános LLM-ből történő inicializálást.

Előképzési adatok összetétele: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% Github kód, 10% Common Crawl természetes nyelvi adatok.

Előképzési paraméterek: AdamW optimalizálót használnak, 4,2e-4 tanulási sebességgel, 10 millió tokenek kötegméretével és 500 milliárd tokenek betanításával.

Utasítás finomhangolása:

Készítsen egy utasítás-finomhangoló adatkészletet: Készítsen egy matematikai utasítás-finomhangoló adatkészletet, amely tartalmazza 776 ezer minta, amely számos matematikai területet és nehézségi szintet lefed, beleértve a CoT, PoT és az eszközökbe integrált következtetési formátumokat a lépések megoldásához.

Edzés paraméterei: Tételméret 256, tanulási sebesség 5e-5, edzés 500 lépésre.

Megerősítő tanulás – Csoportos relatív irányelvek optimalizálása (GRPO):

Javaslat GRPO algoritmus: Javaslat a A GRPO PPO variáns algoritmus, amely elkerüli a kritikus modell szükségességét azáltal, hogy csoportonkénti pontszámokat használ az alapvonal becsléséhez, ezáltal csökkentve a képzési erőforrásokat.

Objektív funkció: A GRPO egy olyan célfüggvény maximalizálásával optimalizálja a házirend-modellt figyelembe veszi a csoporton belüli kimenetek relatív előnyét, és közvetlenül hozzáadja a KL divergenciát, mint szabályzó kifejezést.

Előny számítás: A GRPO ezen keresztül számítja ki az előnyt csoporton belüli relatív jutalmak, elkerülve a csoportok közötti összehasonlításokat, és jobban megfelelnek a jutalmazási modell összehasonlító jellegének.

Támogatja az eredmény- és a folyamatfigyelést: GRPO támogathatja mind az eredmények, mind a folyamatok nyomon követését, és hatékonyabban nyomon követheti a politikát jutalmakkal minden következtetési lépés végén.

Iteratív RL: Használ egy iteratív RL stratégia az irányelvmodell mintavételi eredményei alapján új képzési készletet generálni, a régi jutalmazási modellt folyamatosan betanítani, és az új jutalmazási modellt használni a szabályzatmodell frissítéséhez.

Képzési adatok: A GSM8K-hoz és a MATH-hoz kapcsolódó CoT formátum problémákat használja az SFT adatokban, körülbelül 144K probléma.

Edzés paraméterei: Az irányelvmodell tanulási sebessége 1e-6, a KL együttható 0,04, minden feladathoz 64 kimenet mintavételezése történik, a maximális hossza 1024, a betanítási köteg mérete 1024.

Következtetés

1. következtetés:Az DeepSeekMath 7B minden nyílt forráskódú modellt felülmúl matematikai érvelési képességében. A kompetitív MATH benchmark tesztben az DeepSeekMath 7B 51,7% pontosságot ért el, ami közel áll a Gemini-Ultra és a GPT-4 teljesítményszintjéhez.

2. következtetés:A jól megtervezett előképzési adatok és a GRPO algoritmusok kulcsfontosságúak a modell sikerében. A kiváló minőségű matematikai korpusz és a GRPO algoritmusok kombinációja lehetővé teszi a modell számára, hogy jelentős teljesítménynövekedést érjen el a matematikai érvelési feladatokban.

3. következtetés:A kódoktatás javítja a matematikai érvelési képességet. A kódadatok hozzáadása az előképzési szakaszhoz javíthatja a modell matematikai problémák megoldási képességét, mind eszközökkel, mind anélkül.

4. következtetés: Az arXiv adatok korlátozott használhatósága: A korábbi vélekedésekkel ellentétben az arXiv adatok korlátozott segítséget nyújtottak a matematikai érvelés javításában.

Korlátozás

A geometriai és bizonyítási képességek viszonylag gyengék: Bár az DeepSeekMath jeleskedik a kvantitatív érvelésben, geometriai és bizonyítási képességei még mindig gyengébbek a zárt forráskódú modelleknél. Ennek oka lehet a torzított adatkiválasztás az előképzési és finomhangolási szakaszban.

Gyengeség a kis mintakapacitásban: Az DeepSeekMath gyengébb a GPT-4-nél a kis minta tanulása szempontjából, ami a modell méretének korlátaiból adódhat.

Hatékonyabb megerősítő tanulási módszerekre van szükség: Bár a dolgozatban javasolt megerősítő tanulási módszerek hatékonyak, van még hova fejlődni, például a jutalmazási modellből származó visszajelzések hatékonyabb kihasználása és a zajos jutalmazási jelek kezelése.

Részletek

Megerősítő tanulás feltárása és elemzése

Áttekintés:

A Group Relative Policy Optimization (GRPO) bemutatása: A tanulmány egy új, megerősítő tanulási algoritmust, a GRPO-t javasolja a Proximal Policy Optimization (PPO) változataként. A GRPO fő jellemzője az, hogy elhagyja a PPO-ban általánosan használt Kritikus modellt, és az alapvonalat a csoportpontszámokon keresztül becsüli meg, ezáltal nagymértékben csökkenti a képzéshez szükséges számítási erőforrásokat.

GRPO hatékonysági bemutató: A cikk kísérletileg bemutatja, hogy a GRPO képes hatékonyan javítja a parancs-finomhangoló modellek teljesítményét, beleértve mind a tartományon belüli, mind a tartományon kívüli matematikai feladatokat.

Egységes keretrendszer a megerősített tanulási módszerekhez: A dolgozat egységes keretrendszert javasol a különböző megerősítéses tanulási módszerek megértéséhez, mint pl Elutasítási mintavételi finomhangolás (RFT), közvetlen preferenciaoptimalizálás (DPO), PPO és GRPO. A keretrendszer ezeket a módszereket közvetlen vagy egyszerűsített megerősítő tanulási technikákként kezeli.

A megerősítő tanulás elemeinek mélyreható feltárása: A dolgozat mélyrehatóan vizsgálja a megerősítő tanulás kulcselemei, mint például az online képzés és az offline képzés, az eredményfelügyelet és a folyamatfelügyelet, az egyfordulós megerősítéses tanulás és az iteratív megerősítéses tanulás, részletes kísérleteken keresztül, és összefoglalja a megerősítő tanulás hatékonyságának javításának lehetséges irányait.

GRPO (Group Relative Policy Optimization) algoritmus

Korlátai PPO: A PPO egy általánosan használt megerősítő tanulási algoritmus, de képzést igényel további Kritikus modell az értékfüggvény becslésére, amely előírja további számítási és memóriaterhelést jelent. Ezenkívül az LLM forgatókönyvében A kritikai modellképzés bonyolult lehet, mert értékelést igényel az egyes token kimenete.

A GRPO alapötlete: A GRPO alapötlete az, hogy hagyjuk fel a kritikus modellt, és ehelyett használjuk kiindulási értékként a kimenetek halmazának átlagos pontszámát ugyanarra a problémára. Ez az alapérték használható az előny függvény becslésére és a politika optimalizálására. Ez a megközelítés jelentősen csökkenti a képzés bonyolultságát.

Előnyfüggvény számítás: A GRPO úgy számítja ki az előnyfüggvényt az egyes kimenetek relatív rangsorának kiszámítása ugyanabban a kimenetcsoportban, ahelyett, hogy külön értékfüggvényre hagyatkozna mint a PPO-ban.

KL eltérés büntetés: GRPO nem ad hozzá KL eltérési büntetést a jutalomhoz, mint a PPO, hanem közvetlenül a veszteségfüggvényhez adja hozzá a politikai modell és a referenciamodell közötti KL eltérést. Ezzel elkerülhető az összetett előnyfüggvény számítás.

A GRPO alapötlete

nem igényel kritikát (értékfüggvény): A GRPO elkerüli az értékfüggvény szükségességét és a csoporton belüli pontszámot használja az alapvonal becsléséhez, ezáltal csökkentve a képzési forrásokat.

Csoporton belüli relatív előny: A GRPO minden q feladathoz mintát vesz a {o(1), o(2), …, o(G)} kimenetek halmazából a régi π(θold) irányelvből, majd optimalizálja a házirend-modellt úgy, hogy maximalizálja a következő egyenletet célfüggvényként.

Pontosabban:

A kulcs itt az Â(i,t), amely az előnyt jelenti, és a kiszámítása a a csoporton belüli teljesítmény relatív jutalma, ahelyett, hogy egy külön értékfüggvényre hagyatkozna, mint a PPO-ban.

A célfüggvény is közvetlenül hozzáad A KL divergencia, mint a nagyságának szabályozására szolgáló regularizációs tag irányelvek frissítései

és igazodjon a jutalommodell összehasonlító jellegéhez: A GRPO a relatív csoporton belüli jutalmat használja az előny kiszámításához, ami jobban megfelel a jutalmazási modell természetének, amelyet általában páronkénti összehasonlítás alapján képeznek ki.

Hogyan tervezhető meg a GRPO Jutalom modellje (lásd DeepSeek R1)?

Jellemzők:

formátumú jutalom: kényszeríti a generáció hosszú gyermekágy eredményeket, amelyek arra késztethetik a modellt, hogy következtetési folyamatokat generáljon, és javítsa a modell következtetési hatását.

pontossági jutalom: a matematika használhatja a végeredményt, a kód pedig fordítói visszacsatolást.

A GRPO előnyei

Kevesebb memóriaterület: nincs szükség kritikus modellre, csökkentve a memóriaigényt.

Hatékonyabb edzés: a csoporton belüli relatív előny felhasználásával történő számítás leegyszerűsíti a képzési folyamatot.

Jobban kompatibilis a jutalommodellek természetével: javítja az edzés stabilitását és hatékonyságát.

RL egységes paradigma összefoglaló

Egységes paradigma javasolt

A szerzők egy egységes paradigmát javasolnak a különböző képzési módszerek megértéséhez, mint például az SFT (felügyelt finomhangolás), az RFT (Rejection Sampling Fine-tuning), a DPO (Direct Preference Optimization), a PPO, a GRPO stb. RL kulcselemek: Az egységes keretrendszer kulcselemei: adatforrások, jutalmazási függvények és algoritmusok.

  • Adatforrás: Ez a képzéshez használt adatokra vonatkozik, amelyek származhatnak kézi címkézésből, SFT-modellekből vagy valós idejű szabályzatmodellekből.
  • Jutalom funkció: Ez a kimenet minőségének értékelésére használt függvényre vonatkozik, amely lehet szabály vagy modell.
  • Algoritmus: Ez az adat- és jutalomjel feldolgozására, valamint a modell paramétereinek frissítésére használt módszerre vonatkozik.

Különböző módszerek elemzése egységes paradigma alapján

A 10. táblázat összefoglalja az SFT, RFT, DPO, Online RFT, PPO és GRPO hasonlóságait és különbségeit az adatforrások, a jutalmazási függvények és a gradiens együtthatók tekintetében.

MódszerKépzési adatokJutalom funkcióGradiens együtthatóKépzési módszerElőnyök/tulajdonságokAlkalmazható forgatókönyvek
SFTKézzel címkézett SFT adatokManuálisan kiválasztott (implicit jutalom)1-re rögzítveFelügyelt tanulásEgyszerű és stabil, a minőségi címkézett adatoktól függModell alapképzés, kezdeti igazítási feladat
RFTSFT adatkészlet probléma + SFT modell minta kimenetA válasz helyessége alapján (szabály ítélet)0 (rossz) vagy 1 (helyes)Offline házirend-optimalizálásHatékony számítás, szabályvisszacsatolás közvetlen felhasználásaMatematikai/logikai feladatok világos szabályokkal
DPOSFT adatkészlet probléma + modell kimeneteEmberi preferenciák címkézése vagy szabályok összehasonlításaA preferencia valószínűségszámítása alapján (pl. Bradley-Terry modell)Összehasonlító tanulásKerüli az explicit jutalommodellezést, közvetlenül optimalizálja a preferenciákatEmberi preferencia-illesztési feladatok (pl. párbeszéd generálása)
Online RFTValós idejű irányelv-modell-mintavétel probléma-kimenet párokA válasz helyessége alapján (szabály ítélet)0 (rossz) vagy 1 (helyes)Online politika optimalizálásDinamikusan frissíti a házirendeket valós idejű visszajelzés-optimalizálássalOnline interakciót igénylő forgatókönyvek (pl. játék AI)
PPOSFT adatkészlet probléma + politikai modell mintavételi kimeneteJutalommodell (RM) képzettDominancia függvény (jutalombecslés alapján)Politikai gradiens módszerHatékony és stabil, támogatja a többlépcsős optimalizálástÖsszetett feladatok (pl. szöveggenerálás, robotvezérlés)
GRPOSFT adatkészlet probléma + házirend-modell mintavételi kimenetJutalommodell (RM) képzettCsoporton belüli relatív jutalom (normalizált összehasonlítás)Csoportházirend optimalizálásCsökkentse a jutalom varianciáját és javítsa a csoporton belüli összehasonlítástNagy szórással járó feladatok (pl. hosszú szöveggenerálás)

Megfigyelések az adatforrásokról

Online vs offline képzés: Az online képzés a valós idejű szabályzatmodell kimenetének betanítási adatként való felhasználását jelenti, míg az offline képzés egy rögzített modell (például az SFT-modell) kimenetének betanítási adatként történő felhasználását jelenti. A kísérleti eredmények azt mutatják Az online képzés általában jobb, mint az offline képzés.

Eredményfelügyelet kontra folyamatfelügyelet: Az eredményfelügyelet csak a kimenet utolsó lépésének jutalmazását jelenti, míg a folyamatfelügyelet az érvelési folyamat minden egyes lépésének jutalmazását jelenti. A kísérleti eredmények azt mutatják összetett feladatokban hatékonyabb a folyamatfelügyelet.

Egyepizódos vs iteratív megerősítő tanulás: Az egyepizódos megerősítéses tanulás egyetlen stratégia optimalizálására utal, míg az iteratív megerősítéses tanulás a jutalmazási modell folyamatos frissítésére utal többszöri stratégia optimalizálás után. A kísérleti eredmények azt mutatják az iteratív megerősítéses tanulás jelentősen javíthatja a teljesítményt, különösen az első iterációban.

Gradiens együtthatók megfigyelése

Szabályalapú vs. modellalapú: A szabály a jutalom meghatározására vonatkozik a válasz helyessége alapján, a modell pedig a jutalommodell pontozásra való betanítására vonatkozik.

A gradiens együtthatók különbsége: A legfontosabb különbség a GRPO és a Az online RFT azt jelenti, hogy a GRPO a jutalommodell által biztosított jutalomértékek alapján módosítja a gradiens együtthatóit, míg az Online RFT nem.

A GRPO előnyei: A kísérletek azt mutatják A GRPO felülmúlja az Online RFT-t, bizonyítva a gradiens együtthatók előjelének megváltoztatásának hatékonyságát. A GRPO+PS felülmúlja a GRPO+OS-t, bemutatva a finomszemcsés, lépéstudatos gradiens együtthatók előnyeit.

Az RL hatékonysága és a fejlesztési irányok

Miért hatékony az RL?

Kísérleti eredmények: Az RL javítja a Maj@K teljesítményt, de nem a Pass@K.

Magyarázat: Az RL javítja a modell általános teljesítményét azáltal, hogy robusztusabbá teszi a kimeneti eloszlást, azaz javítja a helyes válaszok valószínűségét a TopK-ban, nem pedig a modell mögöttes képességét.

Hogyan érhető el hatékonyabb RL?

Az egységes paradigma alapján a szerzők három szempontból javasolnak jövőbeli irányokat az RL fejlesztésére: adatforrások, algoritmusok és jutalmazási függvények.

  • Adatforrások:
    • Fedezze fel az SFT-n túli problémákat.
    • Használjon fejlettebb mintavételi (dekódolási) stratégiákat, például fakeresésen alapuló módszereket.
    • Használjon hatékony következtetési technikákat a politikai modell feltárási hatékonyságának javítására.
  • Algoritmus:
    • Fedezze fel a megerősítő tanulási algoritmusokat, amelyek robusztusabbak a zajos jutalomjelekkel szemben.
    • Tanulmányozza a GYENGE-ERŐS típusú igazítási módszereket.
  • Jutalom funkció:
    • Növelje a jutalommodell általánosító képességét a kiosztáson kívüli problémák és a fejlett dekódolt kimenetek kezelésére.
    • Tükrözi a jutalmazási modell bizonytalanságát, és használja hídként a gyenge jutalommodellek és a GYENGE-ERŐS tanulási algoritmusok összekapcsolásához.
    • Hatékonyan készítsen kiváló minőségű folyamatjutalmazó modelleket, hogy finom szemcsés képzési jeleket biztosítson a következtetési folyamathoz.

Összefoglaló

Az DeepSeekMath jelentősen javította a nyílt forráskódú nyelvi modellek képességét a matematikai érvelésben egy nagyszabású matematikai korpusz felépítésével és egy új megerősítő tanulási algoritmus javaslatával. A dolgozat fénypontjai a következők

  • az DeepSeekMath Corpus, egy nagyméretű, jó minőségű, többnyelvű matematikai korpusz felépítése és validálása.
  • Egy hatékony megerősítő tanulási algoritmust, a GRPO-t javasolják a memóriahasználat csökkentésére, miközben javítja a modell matematikai érvelési képességét.
  • A kódoktatásnak a matematikai gondolkodási képességre gyakorolt hatását részletesen tárgyaljuk, és kiderül, hogy az arXiv adatoknak korlátozott hatása van. DeepSeekMath értéke:
  • Hatékony matematikai gondolkodási modellt biztosít a nyílt forráskódú közösség számára, és elősegíti a matematikai AI fejlesztését.
  • Értékes tapasztalatokat és módszereket biztosít a matematikai korpuszok felépítéséhez és a matematikai érvelési modellek képzéséhez.
  • A javasolt GRPO algoritmus új ötleteket ad a megerősítő tanulási képzéshez más területeken.

Hasonló hozzászólások

Vélemény, hozzászólás?

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük