Dnes se podělíme DeepSeek R1, Název: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning: Incentivizing the reasoning capability of LLM through training learning.
Tento článek představuje první generaci modelů uvažování DeepSeek, DeepSeek-R1-Zero a DeepSeek-R1. Model DeepSeek-R1-Zero byl proškolen rozsáhlé posilovací učení (RL) bez doladění pod dohledem (SFT) jako počáteční krok, který demonstruje potenciál RL a vynikající schopnosti uvažování to přináší. Prostřednictvím posilovacího učení, DeepSeek-R1-Zero se přirozeně objevil s mnoha výkonnými a zajímavými způsoby uvažování. Aby dále optimalizovali některé problémy s R1-Zero (jazykové zmatky, zlepšená schopnost generalizace), vydali DeepSeek-R1, který kombinuje vícestupňové školení a jemné doladění dat studeného startu před učením posilování. DeepSeek-R1 dosáhl srovnatelného výkonu na úkolu uvažování s OpenAI-01-1217. Na podporu výzkumné komunity mají open-source DeepSeek-R1-Zero, DeepSeek-R1 a šest hustých modelů (1.5B, 7B, 8B, 14B, 32B, 70B) destilovaných z DeepSeek-R1, které jsou založeny na Qwen a Llama.
Charakteristiky metody jsou shrnuty takto:
- Posílené učení se aplikuje přímo na základní model, aniž by se spoléhalo na supervised fine-tuning (SFT) jako první krok.
- Je představen vývojový proces DeepSeek-R1, který kombinuje dvě fáze učení se zesílením a dvě řízené fáze jemného dolaďování, které položí základy pro uvažování a neuvažování modelu.
- Výkon malých modelů při úlohách uvažování se zlepšuje přenosem vzorců uvažování velkých modelů na malé modely destilační techniky.
Přehled
- Titul: DeepSeek-R1: Motivace schopnosti uvažování v LLM prostřednictvím posilování učení
- autoři: DeepSeek-AI
- Github: deepseek R1
Motivace
- Současné velké jazykové modely (LLM) dosáhly významného pokroku v úlohách odvození, ale stále čelí problémům.
- Potenciál čistého posílení učení (RL) při zlepšování schopnosti uvažování LLM nebylo plně prozkoumáno, zejména bez spoléhání se na data pod dohledem.
- Modelky vyškolené přes RL, jako např DeepSeek-R1-Zero, mají problémy s čitelností a mícháním jazyků (např. smíšená čínština a angličtina) a potřebují další vylepšení, aby se zlepšila uživatelská přívětivost.
Metody

DeepSeek-R1-Zero: Jako základní model používá DeepSeek-V3-Base a GRPO (Group Relative Policy Optimization) jako posilující učení rámec, bez dozorovaných dat, aby se zlepšil výkon modelu při vyvozování.
DeepSeek-R1:
- Studený start: Shromažďuje malé množství vysoce kvalitních dlouhých dat CoT (Chain-of-Thought) a dolaďuje Model DeepSeek-V3-Base jako počátečního aktéra posilujícího učení.
- Učení zaměřené na uvažování: To samé Je použit tréninkový proces posílení učení jako DeepSeek-R1-Zero, ale se zaměřením na zlepšení uvažovacích schopností modelu v oblastech, jako je kódování, matematika, věda a logické uvažování. Zavádějí se odměny za jazykovou konzistenci, aby se zmírnil problém lingvistického míšení, ke kterému dochází v CoT.
- Vzorkování odmítnutí a řízené jemné doladění: Používá konvergovaný kontrolní bod učení výztuže shromažďovat data Supervised Fine-Tuning (SFT). pro následné školení.
- Učení posilování pro všechny scénáře: Implementuje fázi učení posilování druhé úrovně, jejímž cílem je zlepšit vstřícnost a neškodnost modelu při optimalizaci jeho rozumové schopnosti.
- Destilace znalostí: Dolaďuje modely s otevřeným zdrojovým kódem Qwen a Llama přímo pomocí 800 000 vzorků spravovaných DeepSeek-R1.
Podrobné metody a postupy:

DeepSeek-R1-Zero: Posílení učení pro základní modely
- Algoritmus učení zesílení: Používá algoritmus Group Relative Policy Optimization (GRPO), který nevyžaduje a kritik model, odhaduje výchozí bod podle skupinového skóre a snižuje náklady na školení.
- Modelování odměn: Používá a systém odměn založený na pravidlechvčetně

- odměna za přesnost: Hodnotí, zda je odpověď správná, např. správnost konečného výsledku odpověď na matematický problém, zpětná vazba od kompilátoru pro problémy s kódem.
- Formát odměny: Vybízí modelku, aby umístit proces myšlení mezi
a
značky.
Šablona školení: Šablona obsahující a
značky jsou navrženy tak, aby veďte model tak, aby nejprve vydal proces myšlení a poté konečnou odpověď.

- Autoevoluční proces: Předvedeno DeepSeek-R1-Zero sebeevoluční vlastnosti během tréninku a byl schopen autonomně se naučit složitější strategie uvažování, jako je reflexe a zkoumání více cest k řešení problémů.

DeepSeek-R1: Učení zesílení kombinované se studeným startem

- Studený start: K vyřešení DeepSeek-R1-Zero's problém s čitelností, DeepSeek-R1 nejprve shromažďuje malé množství vysoce kvalitní data CoT a dolaďuje model DeepSeek-V3-Base na sloužit jako počáteční aktér posilujícího učení. Údaje o studeném startu obsahuje souhrnné značky a nepřátelské odpovědi jsou odfiltrovány.
- Metoda: 1) Vyberte vysoce kvalitní data Long COT. 2) Přidat a značky.
- Výhody: 1) Optimalizovaná čitelnost (řešení vícejazyčného problému R1-Zero nebo problému formátu markdown). 2) Pečlivě vybraná data preferovaná lidmi mohou i nadále zlepšovat výkon na R1-Zero.
- Otázka: Proč řešit problém s čitelností? Nejde to udělat lépe, aniž bychom to řešili (např. zkrácení délky výstupu a efektivnější vyvozování)?
- RL orientovaný na uvažování: Na základě modelu studeného startu je proces učení posilování podobný Použije se DeepSeek-R1-Zero se zaměřením na zlepšení schopností modelu v úkolech, jako je kódování, matematika, vědecké a logické uvažování. Chcete-li vyřešit problém smíšených jazyků (vícejazyčné uvažování), odměny za konzistenci jazyka jsou představeny.
- Otázka: Jak jsou trénovány úkoly a soubory dat vědeckého a logického uvažování?
- Vzorkování odmítnutí a SFT: Poté, co se inferencí vedené učení výztuže sblíží, je získaný kontrolní bod použit pro vzorkování odmítnutí pro generování nových dat SFT, která jsou kombinována s daty z DeepSeek-V3, aby se zlepšily možnosti modelu při psaní, hraní rolí a obecných úlohách.
- Účel:
- Tato fáze je zahájena po proces učení orientovaného na inferenci (RL) konverguje.
- Hlavním cílem je shromažďovat data dohlíženého jemného doladění (SFT). pro použití v následujících tréninkových kolech.
- Na rozdíl od počátečních dat studeného startu, která se soustředí pouze na odvození, je cílem této fáze rozšířit možnosti modelu k pokrytí psaní, hraní rolí a dalších obecných úkolů, nejen dedukcí.
- Sběr dat – odvozená data:
- Metoda: Použijte kontrolní body získané z inferencně orientované RL fáze ke generování inferenčních trajektorií pomocí vzorkování odmítnutí.
- Rozšíření datové sady: Na rozdíl od předchozí fáze RL, která používala pouze data odměn založená na pravidlech, jsou zde zavedena data odměn nezaložená na pravidlech. V některých případech se k určení odezvy používá model generativní odměny (DeepSeek-V3).
- Filtrování dat: Aby byla zajištěna kvalita a čitelnost, výstup je filtrován a odstraňuje:
- myšlenkové řetězce obsahující smíšené jazyky
- dlouhé odstavce
- bloky kódu
- Vzorkování a výběr: Pro každou výzvu bylo vygenerováno několik odpovědí. U datové sady byla zachována pouze „správná“ odpověď.
- Velikost datové sady: Přibližně 600 000 školicích vzorků souvisejících s odvozením byly shromážděny tímto způsobem.
- Sběr dat – neodvozená data:
- Pokrytí: Psaní, věcné odpovědi na otázky (QA), sebeuvědomění a překlad.
- V příspěvku je zmíněno použití DeepSeek-V3 zpracovává a znovu používá část datové sady DeepSeek-V3 SFT zvládnout tyto neinferenční úkoly. O 200 000 vzorků nezávislých na inferencích byly shromážděny. (Poznámka: Podrobnosti o sběru neodvozených dat jsou dále popsány v části 2.3.4)
- Použití shromážděných dat:
- Shromážděná data zdůvodňující a neuvažující (celkem asi 800 000 vzorků – 600 000 vzorků zdůvodnění + 200 000 neuvažujících vzorků) byla následně použita k dolaďte model DeepSeek-V3-Base pro dvě epochy. Tento vyladěný model byl poté použit v konečné fázi RL popsané v části 2.3.4.
- Souhrn Tento krok využívá schopnosti odvození naučili se prostřednictvím RL a vytvořili různorodou a vysoce kvalitní datovou sadu SFT. Tato datová sada posiluje schopnosti odvození a také rozšiřuje obecné možnosti model pro trénink ve fázi konečného sladění a zlepšování.
- Účel:
- Posílené učení pro všechny scénáře: Aby bylo možné dále sladit lidské preference, je implementována druhá fáze posilovacího učení, aby se zlepšila užitečnost a neškodnost modelu.
- Inferenční data: např. matematická, kódová, logická inference nebo pod dohledem pomocí metod založených na pravidlech.
- Obecná data: modely odměn se stále používají k poskytování informací o preferencích pro složité a jemné scénáře. Modely trénované s párovými daty jsou také odhadovány.
- Užitečnost: zaměřte se pouze na konečné souhrnné výsledky, čímž se sníží interference s procesem odvození.
- Neškodnost: dohlížejte na celou reakci, abyste snížili všechna rizika.
Modelová destilace (destilace):
- Aby bylo možné získat efektivnější malý inferenční model, článek destiluje inferenční schopnost DeepSeek-R1 do modelů s otevřeným zdrojovým kódem řady Qwen a Llama. Proces destilace používá pouze supervised fine-tuning (SFT) a nepoužívá fázi učení posilování.
Závěr
DeepSeek-R1-Zero: Demonstruje potenciál čisté posílení učení v motivaci LLM schopnost odvodit, a může dosáhnout silného výkonu bez spoléhání se na data pod dohledem.


- Aha moment: Krása posilovacího učení (modelův moment osvícení, kde to přiděluje více času na přemýšlení problému tím, že se učí přehodnocovat počáteční přístup)
- Délka výstupu se stále prodlužuje (doba přemýšlení se stále prodlužuje)
- Přesnost se stále zlepšuje (vzorkování 16 odpovědí pro výpočet přesnosti)

- DeepSeek-R1: Dále zlepšuje výkon modelu kombinací dat studeného startu a iterativního dolaďování učení, dosažení úrovně srovnatelné s OpenAI-01-1217 v různých úkolech.

- Destilace znalostí: Použitím DeepSeek-R1 jako učitelského modelu bylo vygenerováno 800 000 tréninkových vzorků a několik malých, hustých modelů bylo doladěno. Výsledky ukazují, že toto destilační metoda může výrazně zlepšit inferenční schopnost malé modely.
Omezení
- Omezení 1: Je třeba zlepšit obecnou schopnost DeepSeek-R1. DeepSeek-R1 je stále horší než DeepSeek-V3 v úkolech, jako jsou volání funkcí, víceotáčkový dialog, komplexní hraní rolí a výstup JSON.
- Omezení 2: Problém míchání jazyků. DeepSeek-R1 může narazit na problém s mícháním jazyků při zpracování nečínských a neanglických dotazů, například při zdůvodňování a odpovídání v angličtině.
- Omezení 3: Rychlá citlivost. DeepSeek-R1 je citlivý na výzvová slova a několik výstřelů sníží jeho výkon.
- Omezení 4: Omezená aplikace na úlohy softwarového inženýrství. Vzhledem k dlouhé době hodnocení nebylo rozsáhlé učení v oblasti posilování plně aplikováno na úlohy softwarového inženýrství a DeepSeek-R1 má omezené zlepšení oproti DeepSeek-V3 v benchmarcích softwarového inženýrství.