Dnes bych se rád podělil o článek z DeepSeek s názvem DeepSeekMath: Posouvání limitů matematického uvažování v otevřených jazykových modelech.
Tento článek představuje DeepSeekMath 7B, který je předtrénovaný na DeepSeek-Coder-Base-v1.5 7B na základě sbírka 120B tokenů souvisejících s matematikou, přirozený jazyk a kódová data.
Model dosáhl úžasného skóre 51,7% v konkurenčních MATH benchmarcích, aniž by se spoléhal na externí sady nástrojů a techniky hlasování, čímž se přiblížil výkonnostní úrovni Gemini-Ultra a GPT-4.
Schopnost matematického uvažování DeepSeekMath 7B je připisována dvěma klíčovým faktorům: Za prvé, prostřednictvím pečlivě navržený kanál pro výběr dat, vysoce kvalitní data související s matematikou jsou iterativně těžena z veřejně dostupných webových dat.
Za druhé, optimalizace relativní politiky skupiny (GRPO) je představil, což je varianta proximální optimalizace politiky (PPO), která může zlepšit schopnost matematického uvažování a zároveň optimalizovat využití paměti PPO.
- Vlastnosti metody jsou shrnuty následovně:Vysoce kvalitní matematický předtréninkový korpus byl zkonstruován a pečlivě navržené potrubí bylo použito k těžbě vysoce kvalitních matematických dat z Common Crawl.
- Algoritmus GRPO byl navržen, což snižuje zdroje potřebné pro školení a zlepšuje schopnost matematického uvažování modelu. 3) Nejmodernější výkon byl dosažené v několika srovnávacích testech matematického uvažování.
Přehled
Titul: DeepSeekMath: Posouvání limitů matematického uvažování v modelech otevřeného jazyka
URL: klikněte zde
autoři: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y. Wu, Daya Guo
Kód: klikněte zde
Motivace
Matematické uvažování představuje významnou výzvu pro jazykové modely kvůli složitosti a strukturované povaze matematiky. Nejpokročilejší modely, jako je GPT-4 a Gemini-Ultra, jsou výkonné, ale nejsou veřejně dostupné. Existuje tedy značný prostor pro zlepšení výkonu open source modely.
Složitost a struktura: Matematické uvažování představuje významnou výzvu pro jazykové modely kvůli složitosti a strukturované povaze matematiky.
Potenciál veřejných dat: Veřejně dostupná webová data mohou obsahovat bohaté matematické informace, které je třeba ještě vytěžit a využít.
Metody
Sběr dat: Korpus DeepSeekMath se 120B tokeny byl vytvořen shromažďováním vysoce kvalitních webových dat souvisejících s matematikou z Common Crawl prostřednictvím iterativního potrubí.
Modelový trénink: Korpus byl použit pro předtrénování nad DeepSeek-Coder-Base-v1.5 7B a byl použit algoritmus dolaďování matematických instrukcí a optimalizace skupinové relativní politiky (GRPO).
Algoritmus GRPO: GRPO je vylepšený algoritmus učení posilování, který odstraňuje kritický model v PPO a odhaduje základní linii ze skupinového skóre, čímž výrazně snižuje tréninkové zdroje.
Podrobné metody a postupy:
Sběr a zpracování dat:

Sestavení korpusu DeepSeekMath: Pomocí klasifikátoru založeného na rychlém textu extrahujte 120B tokenů souvisejících s matematikou od Common Crawl k vybudování rozsáhlého, vysoce kvalitního předtrénovaného korpusu DeepSeekMath Corpus.
Iterativní filtrování dat: Používá se iterativní strategie, pomocí OpenWebMath jako počátečních dat k trénování počátečního klasifikátoru a poté pomocí tohoto klasifikátoru získávat další pozitivní příklady z Common Crawl, které jsou ručně anotovány, aby se průběžně optimalizoval výkon klasifikátoru.
Vícejazyčné funkce: DeepSeekMath Corpus obsahuje vícejazyčná data, což zlepšuje výkon modelu v čínských matematických benchmarkech.
Zpracování odstranění znečištění: de-Zpracování znečištění se provádí na trénovacích datech, aby se zabránilo překrývání s testovacím benchmarkem.
Předtrénink:
Inicializace modelu na základě kódu: Inicializace pomocí DeepSeek-Coder-Base-v1.5 7B bylo zjištěno, že je efektivnější než inicializace z obecného LLM.
Složení předtréninkových dat: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% Github kód, 10% Common Crawl data přirozeného jazyka.
Předtréninkové parametry: Je použit optimalizátor AdamW s rychlostí učení 4,2e-4, velikostí dávky 10 milionů tokenů a školením 500B tokenů.
Doladění návodu:
Vytvořte datovou sadu pro jemné ladění instrukcí: Sestavte matematickou instrukci pro jemné doladění datové sady obsahující 776 tisíc vzorků, pokrývající různé matematické oblasti a úrovně obtížnosti, včetně CoT, PoT a inferenčních formátů integrovaných do nástrojů pro řešení kroků.
Parametry tréninku: Velikost dávky 256, rychlost učení 5e-5, trénujte 500 kroků.
Posílení učení – optimalizace relativní politiky skupiny (GRPO):
Navrhněte algoritmus GRPO: Navrhněte a Algoritmus varianty PPO GRPO, který se vyhýbá potřebě kritického modelu tím, že k odhadu základní linie používá skupinové skóre, a tím snižuje školicí zdroje.
Objektivní funkce: GRPO optimalizuje model politiky maximalizací objektivní funkce, která bere v úvahu relativní výhodu vnitroskupinových výstupů a přímo přidává divergenci KL jako regularizační člen.
Výpočet výhod: GRPO vypočítává výhodu prostřednictvím relativní odměny ve skupině, vyhýbání se srovnávání mezi skupinami a lépe vyhovující srovnávací povaze modelu odměny.
Podporuje monitorování výsledků i procesů: GRPO může podporovat monitorování výsledků i procesů a efektivněji monitorovat politiku poskytováním odměn na konci každého inferenčního kroku.
Iterativní RL: Používá an iterativní RL strategie generovat novou sadu školení na základě vzorkovacích výsledků modelu politiky, průběžně trénovat starý model odměn a používat nový model odměn k aktualizaci modelu politiky.
Údaje o tréninku: Používá problémy formátu CoT související s GSM8K a MATH v datech SFT, asi 144K problémů.
Parametry tréninku: Rychlost učení modelu politiky je 1e-6, koeficient KL je 0,04, pro každý problém je vzorkováno 64 výstupů, maximální délka je 1024 a velikost trénovací dávky je 1024.
Závěr

Závěr 1:DeepSeekMath 7B překonává všechny modely s otevřeným zdrojovým kódem ve schopnosti matematického uvažování. V konkurenčním benchmarkovém testu MATH dosáhl DeepSeekMath 7B přesnosti 51,7%, což je blízko výkonnostní úrovni Gemini-Ultra a GPT-4.
Závěr 2:Dobře navržená předtréninková data a algoritmy GRPO jsou klíčem k úspěchu modelu. Kombinace vysoce kvalitního matematického korpusu a GRPO algoritmů umožňuje modelu dosáhnout výrazného zvýšení výkonu v úlohách matematického uvažování.
Závěr 3:Trénink kódu pomáhá zlepšit schopnost matematického uvažování. Přidání dat kódu do fáze předtrénování může zlepšit schopnost modelu řešit matematické problémy, a to jak s nástroji, tak bez nich.
Závěr 4: Omezená užitečnost dat arXiv: Na rozdíl od předchozích přesvědčení bylo zjištěno, že data arXiv mají omezenou pomoc při zlepšování matematického uvažování.
Omezení
Možnosti geometrie a důkazu jsou relativně slabé: Ačkoli DeepSeekMath vyniká v kvantitativním uvažování, jeho schopnosti v geometrii a důkazu jsou stále horší než modely s uzavřeným zdrojem. To může být způsobeno neobjektivním výběrem dat ve fázích předtrénování a jemného ladění.
Slabost v malé kapacitě vzorků: DeepSeekMath je horší než GPT-4, pokud jde o učení malého vzorku, což může být způsobeno omezením velikosti modelu.
Jsou zapotřebí účinnější metody učení posilování: Ačkoli jsou metody posilovacího učení navrhované v článku efektivní, stále existuje prostor pro zlepšení, například jak efektivněji využívat zpětnou vazbu z modelu odměny a jak se vypořádat s hlučnými signály odměny.
Podrobnosti
Průzkum a analýza posílení učení
Přehled:
Zavedení optimalizace relativních zásad skupiny (GRPO): Článek navrhuje nový algoritmus učení se zesílením, GRPO, jako variantu proximální optimalizace politiky (PPO). Hlavním rysem GRPO je, že to opouští kritický model běžně používaný v PPO a odhaduje základní linii prostřednictvím skupinových skóre, čímž výrazně snižuje výpočetní zdroje potřebné pro školení.
Ukázka účinnosti GRPO: Článek experimentálně demonstruje, že GRPO může efektivně zlepšit výkon modelů jemného ladění příkazů, včetně matematických úloh v doméně i mimo ni.
Jednotný rámec pro metody posilování učení: Příspěvek navrhuje jednotný rámec pro pochopení různých metod posilování učení, jako je např Jemné ladění vzorkování odmítnutí (RFT), přímá optimalizace preferencí (DPO), PPO a GRPO. Rámec považuje tyto metody za přímé nebo zjednodušené techniky učení se posilováním.
Hloubkové prozkoumání prvků posilovacího učení: Článek zkoumá do hloubky klíčové prvky posilovacího učení, jako je online školení a offline školení, dohled nad výsledky a procesní dohled, jednokolové posilovací učení a iterativní posilovací učení, prostřednictvím podrobných experimentů a shrnuje potenciální směry pro zlepšení účinnosti posilovacího učení.
Algoritmus GRPO (Group Relative Policy Optimization).

Omezení PPO: PPO je běžně používaný algoritmus zesílení učení, ale vyžaduje školení dodatečný kritický model odhadnout hodnotovou funkci, která ukládá další výpočetní a paměťová zátěž. Navíc ve scénáři LLM Trénink kritického modelu může být komplikovaný, protože vyžaduje hodnocení výstup každého tokenu.
Základní myšlenka GRPO: Základní myšlenkou GRPO je opustit kritický model a místo toho použít průměrné skóre souboru výstupů pro stejný problém jako výchozí. Tato základní linie může být použita k odhadu funkce výhod a k optimalizaci politiky. Tento přístup výrazně snižuje náročnost tréninku.
Výpočet výhodných funkcí: GRPO vypočítá funkci výhody podle výpočet relativního hodnocení každého výstupu ve stejné sadě výstupů, spíše než spoléhání se na samostatnou hodnotovou funkci jako v PPO.
KL penalizace za divergenci: GRPO nepřidává k odměně penalizaci za divergenci KL jako PPO, ale místo toho přidává divergenci KL mezi modelem politiky a referenčním modelem přímo do funkce ztráty. Tím se vyhnete složitému výpočtu výhodové funkce.
Základní myšlenka GRPO
nevyžaduje kritika (hodnotová funkce): GRPO se vyhýbá potřebě hodnotové funkce a používá skóre v rámci skupiny k odhadu základní linie, čímž se snižují zdroje na školení.
Vnitroskupinová relativní výhoda: Pro každý problém q GRPO vzorkuje sadu výstupů {o(1), o(2), …, o(G)} ze staré politiky π(θold) a poté optimalizuje model politiky maximalizací následující rovnice jako cílové funkce.

konkrétně:

Klíčem je zde Â(i,t), které představuje výhodu a vypočítává se pomocí relativní odměna za vnitroskupinový výstup, spíše než se spoléhat na samostatnou hodnotovou funkci jako v PPO.

Objektivní funkce také přímo přidává KL divergence jako regularizační člen pro kontrolu velikosti aktualizace zásad

a sladit s porovnávací povahou modelu odměny: GRPO používá relativní vnitroskupinovou odměnu k výpočtu výhody, která je více v souladu s povahou modelu odměny, který je obvykle trénován na základě párového srovnání.
Jak lze navrhnout model odměn GRPO (viz DeepSeek R1)?
Vlastnosti:
formát odměny: nutí generování dlouhých dětská postýlka výsledky, které mohou přimět model ke generování inferenčních procesů a zlepšit inferenční efekt modelu.
odměna za přesnost: matematika může použít konečný výsledek a kód může použít zpětnou vazbu kompilátoru.
Výhody GRPO
Menší paměťová náročnost: není vyžadován žádný kritický model, což snižuje požadavky na paměť.
Efektivnější trénink: výpočet pomocí vnitroskupinové relativní výhody zjednodušuje tréninkový proces.
Více kompatibilní s povahou modelů odměn: zlepšuje stabilitu a efektivitu tréninku.
RL Unified Paradigm Summary
Navrženo jednotné paradigma
Autoři navrhují jednotné paradigma pro pochopení různých tréninkových metod, jako je SFT (Supervised Fine-tuning), RFT (Rejection Sampling Fine-tuning), DPO (Direct Preference Optimization), PPO, GRPO atd. Klíčové prvky RL: Mezi klíčové prvky jednotného rámce patří: zdroje dat, funkce odměn a algoritmy.
- Zdroj dat: To se týká dat používaných pro školení, která mohou být odvozena z manuálního označování, modelů SFT nebo modelů politiky v reálném čase.
- Funkce odměn: To se týká funkce používané k hodnocení kvality výstupu, což může být pravidlo nebo model.
- Algoritmus: To se týká metody použité ke zpracování dat a signálu odměny a aktualizaci parametrů modelu.
Analýza různých metod založených na jednotném paradigmatu
Tabulka 10 shrnuje podobnosti a rozdíly mezi SFT, RFT, DPO, Online RFT, PPO a GRPO z hlediska zdrojů dat, funkcí odměn a gradientových koeficientů.
Metoda | Tréninkové údaje | Funkce odměn | Gradientový koeficient | Metoda tréninku | Výhody/vlastnosti | Použitelné scénáře |
SFT | Ručně označená data SFT | Vybráno ručně (implicitní odměna) | Opraveno na 1 | Učení pod dohledem | Jednoduché a stabilní, závislé na vysoce kvalitních označených datech | Základní modelový nácvik, úloha počátečního vyrovnání |
RFT | Problém s datovou sadou SFT + Výstup vzorku modelu SFT | Na základě správnosti odpovědi (úsudek pravidla) | 0 (špatně) nebo 1 (správně) | Optimalizace zásad offline | Efektivní výpočet, přímé využití zpětné vazby pravidel | Matematicko/logické úlohy s jasnými pravidly |
DPO | Problém s datovou sadou SFT + výstup modelu do | Označení lidských preferencí nebo srovnání pravidel | Na základě výpočtu pravděpodobnosti preference (např. Bradley-Terry model) | Srovnávací učení | Vyhýbá se explicitnímu modelování odměn a přímo optimalizuje preference | Úkoly zarovnání lidských preferencí (např. generování dialogu) |
Online RFT | Vzorkování modelu politiky v reálném čase páry problém-výstup | Na základě správnosti odpovědi (úsudek pravidla) | 0 (špatně) nebo 1 (správně) | Online optimalizace zásad | Dynamicky aktualizuje zásady optimalizací zpětné vazby v reálném čase | Scénáře, které vyžadují online interakci (např. herní AI) |
PPO | Problém s datovou sadou SFT + výstup vzorkování modelu politiky | Vycvičený model odměn (RM). | Funkce dominance (na základě odhadu odměny) | Metoda gradientu politiky | Efektivní a stabilní, podporuje vícekrokovou optimalizaci | Komplexní úlohy (např. generování textu, ovládání robota) |
GRPO | Problém datové sady SFT + výstup vzorkování modelu politiky | Vycvičený model odměn (RM). | Relativní odměna v rámci skupiny (normalizované srovnání) | Optimalizace skupinové politiky | Snížit rozptyl odměn a zlepšit porovnávání v rámci skupiny | Úkoly s velkým rozptylem (např. generování dlouhého textu) |
Pozorování zdrojů dat

Online vs offline školení: Online školení se týká použití výstupu modelu politiky v reálném čase jako tréninkových dat, zatímco offline školení se týká použití výstupu pevného modelu (jako je model SFT) jako tréninkových dat. Experimentální výsledky to ukazují online školení je obecně lepší než školení offline.
Supervize výsledků versus procesní supervize: Dohled nad výsledkem se týká pouze odměňování posledního kroku výstupu, zatímco supervize procesu se týká odměňování každého kroku procesu uvažování. Experimentální výsledky to ukazují procesní dohled je efektivnější u složitých úkolů.
Výuka s jednou epizodou vs iterativní posilování: Jednoepizodové posilování učení se týká optimalizace jedné strategie, zatímco iterativní posilování učení se týká průběžné aktualizace modelu odměny po několika optimalizacích strategie. Experimentální výsledky to ukazují iterativní posilování učení může výrazně zlepšit výkon, zejména v první iteraci.
Pozorování gradientových koeficientů
Na základě pravidel vs. na základě modelu: Pravidlo se vztahuje k určení odměny na základě správnosti odpovědi a Model se vztahuje k trénování modelu odměny na bodování.
Rozdíl v gradientových koeficientech: Klíčový rozdíl mezi GRPO a Online RFT spočívá v tom, že GRPO upravuje své gradientové koeficienty na základě hodnot odměn poskytovaných modelem odměny, zatímco online RFT nikoli.
Výhody GRPO: Experimenty to ukazují GRPO je lepší než Online RFT a demonstruje účinnost změny znaménka gradientových koeficientů. GRPO+PS je lepší než GRPO+OS a demonstruje výhody použití jemnozrnných, krokových gradientových koeficientů.
RL účinnost a směry pro zlepšení
Proč je RL účinný?

Experimentální výsledky: RL zlepšuje výkon Maj@K, ale ne Pass@K.
Vysvětlení: RL zlepšuje celkový výkon modelu tím, že dělá distribuci výstupu robustnější, tj. zlepšuje pravděpodobnost správných odpovědí v TopK, spíše než zvyšuje základní schopnosti modelu.
Jak lze dosáhnout účinnějšího RL?
Na základě jednotného paradigmatu autoři navrhují budoucí směry pro zlepšení RL ve třech aspektech: zdroje dat, algoritmy a funkce odměňování.
- Zdroje dat:
- Prozkoumejte problémy mimo fázi SFT.
- Použijte pokročilejší strategie vzorkování (dekódování), jako jsou metody založené na stromovém vyhledávání.
- Použijte účinné techniky odvození ke zlepšení účinnosti průzkumu modelu politiky.
- Algoritmus:
- Prozkoumejte učební algoritmy posílení, které jsou odolnější vůči hlučným signálům odměny.
- Prostudujte si metody zarovnání typu WEAK-TO-STRONG.
- Funkce odměn:
- Vylepšete schopnost zobecnění modelu odměny pro řešení problémů s nedostatkem distribuce a pokročilé dekódované výstupy.
- Odrážejte nejistotu modelu odměny a použijte jej jako most k propojení slabých modelů odměn a učebních algoritmů WEAK-TO-STRONG.
- Efektivně sestavujte vysoce kvalitní modely odměňování procesů, které poskytují jemnozrnné tréninkové signály pro proces vyvozování.
Souhrn
DeepSeekMath výrazně zlepšil schopnost open source jazykových modelů v matematickém uvažování tím, že zkonstruoval rozsáhlý matematický korpus a navrhl nový posilovací výukový algoritmus. Hlavními body tohoto papíru jsou
- konstrukce a ověření korpusu DeepSeekMath, rozsáhlého, vysoce kvalitního, vícejazyčného matematického korpusu.
- Pro snížení využití paměti a zároveň zlepšení schopnosti modelu matematického uvažování je navržen účinný algoritmus učení zesílení, GRPO.
- Vliv trénování kódu na schopnost matematického uvažování je podrobně diskutován a bylo zjištěno, že data arXiv mají omezený účinek. Hodnota DeepSeekMath:
- Poskytuje komunitě open source výkonný model matematického uvažování a podporuje rozvoj matematické umělé inteligence.
- Poskytuje cenné zkušenosti a metody pro budování matematických korpusů a trénování modelů matematického uvažování.
- Navrhovaný algoritmus GRPO poskytuje nové nápady pro trénink posilování učení v jiných oblastech.