1 Pozadí
Během svátku jara, DeepSeek R1 opět přitáhl širokou pozornost a dokonce i článek o interpretaci DeepSeek V3, který jsme dříve napsali, byl také znovu přenesen a hodně diskutoval.
Přestože bylo provedeno mnoho analýz a reprodukcí DeepSeek R1, rozhodli jsme se sestavit několik odpovídajících poznámek ke čtení.
K demonstraci konstrukce modelu a klíčových technických bodů použijeme tři základní schematická schémata, destilující podstatu řady DeepSeek-R1, aby bylo možné lépe porozumět jejím návrhovým nápadům.
Odpovídající papír je [2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs through Reinforcement Learning
a odpovídající open source model je DeepSeek-R1
2 Úvod
2.1 Společné uvažovací algoritmy
Jak je znázorněno na obrázku 2 níže, autor vysvětluje čtyři běžné uvažovací algoritmy. Ačkoli se liší v konkrétních detailech, všechny zahrnují dvě základní operace:
- Rozšíření: vygenerujte tokeny pro rozšíření cesty řešení.
- Agregace: integrujte výsledky každé cesty, abyste získali konečnou odpověď. Zvýšení výpočetních zdrojů ve fázi expanze může obvykle zlepšit kvalitu odpovědi ve fázi agregace.
Sebekonzistence (SC). Jak je znázorněno na obrázku 2a, základní myšlenkou SC je generovat více různých výstupů (kterých lze dosáhnout změnou parametrů vzorkování atd.) a poté hlasovat pro všechny odpovědi, abyste vybrali odpověď s nejvyšší mírou výher. Klíčovým parametrem je počet kandidátních odpovědí n.
Algoritmus Rebase: Jak je znázorněno na obrázku 2b níže, Rebase také generuje více výstupů, ale ty jsou generovány v několika krocích. Každý krok je ohodnocen pomocí modelu odměn a výsledek s nejvyšším skóre se použije k pokračování ve generování. Nakonec je vygenerován uvažovací strom s více větvemi. Odpověď s nejvyšším skóre (Best-of-N) je vybrána ve fázi agregace.
Monte Carlo Tree Search (MCTS): Jak je znázorněno na obrázku 2c níže, MCTS je výkonný algoritmus Reasoning, který rozšiřuje uzly postupným vzorkováním a vytváří strom řešení, dokud nedosáhne listového uzlu obsahujícího kandidátské řešení. Každé řešení je ohodnoceno pomocí modelu odměny nebo simulace a skóre je šířeno zpět do uzlů svých předků, aby se aktualizovaly jejich hodnoty odměny, čímž se dokončí iterace. Klíčovým parametrem je také n a zvýšení n umožňuje hlubší a širší průzkum potenciálních řešení.
Internalizovaný kognitivní řetězec (ICoT). Jak je znázorněno na obrázku 2d níže, nejnovější LLM, jako je OpenAI o1 a Qwen-QWQ, mohou internalizovat uvažovací chování během tréninku bez potřeby explicitního uvažovacího algoritmu. Základní myšlenkou je vygenerovat sekvenci CoT, rozložit složité problémy na více dílčích problémů a poté tyto odpovědi iterativně optimalizovat reflexí předchozích výstupů, aby se nakonec dospělo k řešení.

2.2 Metody usměrňování
2.2.1 Přehled metody Best-of-N
Stručně řečeno, Best-of-N je metoda zarovnání široce používaná v LLM inferenci, jejímž cílem je zajistit vysokou kvalitu generovaných výsledků generováním více kandidátských odpovědí a výběrem té nejlepší. Skládá se ze tří hlavních procesů:
- Proces generování: Pro daný prompt X generuje metoda Best-of-N N IID odpovědí (Y₁, Y₂, …, Yₙ), kde N je často označováno jako „velikost dávky“.
- Mechanismus bodování: Každá vygenerovaná odpověď je hodnocena modelem odměny, aby se získalo odpovídající skóre {s(Y₁), s(Y₂), …, s(Yₙ)}.
- Výběr nejlepší odpovědi: Nakonec se jako výstup vybere odpověď s nejvyšším skóre ze všech vygenerovaných odpovědí, tj. Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}.
Výhody této metody jsou:
- Dokáže se efektivně vyhnout složitým krokům jemného ladění, což usnadňuje nasazení jazykových modelů, které byly předem natrénovány nebo doladěny pomocí pokynů.
- Je snadno implementovatelný, snadno pochopitelný a v podstatě bez hyperparametrů: hlavním hyperparametrem je N, který lze dynamicky upravovat během inference.
- Je vysoce konkurenceschopný, pokud jde o kvalitu generace, a může dokonce konkurovat některým složitým technikám po školení, jako je RLHF nebo DPO. Výzkum ukazuje, že metoda Best-of-N funguje dobře na křivce kompromisu mezi odměnou a divergencí KL, dokonce překonává jiné komplexní strategie zarovnání.
Nevýhody této metody jsou
- odvození vyžaduje generování N sekvencí, což může vést ke značné výpočetní režii. V praxi se rozumná hodnota pro N pohybuje od 4 do 128, ale aby bylo možné konkurovat nejpokročilejším metodám po školení, mohou být vyžadovány vyšší hodnoty N, například 1000 až 60000, což může vést k téměř nepřijatelným výpočtovým nákladům.
Metoda best-of-N se často používá ke generování vysoce kvalitních datových sad pro následné doladění pod dohledem a hrála klíčovou roli v procesu zarovnání LLaMA-2 a LLaMA-3.
2.2.2 OpenAI metoda best-of-N
OpenAI poprvé navrhlo Best-of-N vzorkování v [2009.01325] Naučit se shrnout z lidské zpětné vazby . Konkrétně se používá k vyhodnocení a optimalizaci výkonu souhrnného modelu výběrem nejlepšího souhrnu generovaného z více modelů. Tato metoda pomáhá výzkumníkům lépe porozumět vztahu mezi různými metrikami hodnocení a preferencemi lidských hodnotitelů a používá se jako vodítko pro školení a optimalizaci modelů.
OpenAI také používá Best-of-N vzorkování (vzorkování odmítnutí) při sledování [2112.09332] WebGPT: Odpovídání na otázky za pomoci prohlížeče s lidskou zpětnou vazbou. Konkrétně je z modelu BC nebo RL modelu odebrán pevný počet odpovědí (4, 16 nebo 64) a jako optimalizační metoda pro model odměňování protivníka je vybrána ta, která má nejvyšší skóre modelu odměny. Tato metoda nevyžaduje další školení, ale zvyšuje výpočetní složitost fáze inference, kterou je třeba dosáhnout.
2.2.3 Metoda Google BOND
Na adrese [2407.14622] BOND: Zarovnání LLM s destilací Best-of-N, autoři z Google navrhují Best-of-N Distillation (BOND), nový algoritmus RLHF navržený tak, aby simuloval strategii vzorkování Best-of-N pomocí algoritmu Distribution Matching bez výrazného zvýšení výpočtové režie během inference.

Konkrétně autor nejprve odvodí přesné analytické rozdělení Best-of-N vzorkování a uvede pravděpodobnostní funkci Best-of-N vzorkování:

Za druhé, autoři problém vyjadřují jako problém shody distribuce;

poté autoři navrhují použít Jeffreys divergenci jako cíl shody distribuce:

A konečně, k vyřešení problému výběru N autoři navrhují iterativní metodu BOND, která zlepšuje výkon strategie iterativní destilací distribuce Best-of-N. Mezi konkrétní kroky patří:
Inicializujte pomocnou strategii ukotvení π(kotva).
Iterativně spusťte BOND pro destilaci Best-of-N π (kotva) a aktualizaci π (kotva) po každém kroku.

2.3 Dohled nad procesem a dohled nad výsledkem
Výsledek a proces se týkají dvou aspektů hodnocení modelu odměn:
- Outcome Reward Model: Vyhodnoťte, zda je konečný výsledek výstupu modelu správný nebo podle očekávání.
- Procesní model odměny: Vyhodnocuje, zda jsou úvahy a rozhodovací kroky modelu v procesu generování výsledků rozumné a efektivní.
Například OpenAI Let's Verify Step by Step | OpenAI také zmiňuje:
- Procesní supervize (Outcome-supervised): zahrnuje poskytování zpětné vazby ke každému kroku procesu uvažování modelu. Process-supervised Reward Models (PRM) jsou trénovány tak, aby předpovídaly správnost každého kroku řešení.
- Outcome-supervised: Outcome-supervised poskytuje zpětnou vazbu založenou pouze na konečném výsledku uvažování modelu. Outcome-supervised modely odměn (ORM) jsou trénovány pomocí konečné odpovědi řešení a správnost je určena automatickou kontrolou.
2.4 Hackování odměn
V RL označuje hacking odměn jev, při kterém agent využívá chybu v návrhu funkce odměny k maximalizaci kumulativní odměny způsobem, který nesplňuje původní záměr návrháře. Ačkoli toto chování technicky splňuje cíl optimalizace funkce odměny, skutečný efekt se odchyluje od očekávaného cíle úkolu a může dokonce vést k negativním důsledkům.
Analýza klíčových bodů:
- Definice a projev:
- Agent najde chybu ve funkci odměny a získá vysokou odměnu tím, že místo skutečného řešení problému použije „zkratky“.
- Například úklidový robot zhasne světla, aby místnost „vypadala“ čistě, místo aby ji skutečně uklízela; herní agent opakovaně získává body, aniž by dokončil cíl úrovně; volba nezpomalit, aby se snížil počet brzdných dob, což představuje bezpečnostní riziko; generování nesmyslného obsahu, který odpovídá klíčovým slovům s cílem oklamat vysoké skóre.
- Hlavní příčiny:
- Neúplný návrh funkce odměny: přílišné zjednodušení nebo selhání při pokrytí okrajových případů.
- Nesoulad mezi cíli a odměnami: funkce odměny plně neodráží skutečný cíl, což způsobuje, že agent optimalizuje pro „špatný“ cíl.
- Řešení:
- Vylepšete návrh odměn: zaveďte vícerozměrné odměny (např. bezpečnost, účinnost atd.) nebo dynamicky upravte funkci odměn.
- Ověření protivníka: zjistěte, zda agent „podvádí“ pomocí dalších mechanismů.
- Manuální zásah a omezení: nastavte hranice chování (např. bezpečnostní vrstva) nebo manuální zpětnou vazbu (např. RLHF).
- Učení s inverzním posílením (IRL): naučte se realističtější funkci odměny z odborných ukázek.
- Učení hierarchického posílení: rozložte úkol na dílčí cíle, abyste snížili riziko místní optimalizace.
- Souvislost s přemontováním:
- Oba vykazují nesoulad mezi tréninkovými metrikami a výkonem v reálném světě, ale Reward Hacking klade větší důraz na konstrukční nedostatky funkce odměny než na schopnost modelu zobecňovat.
- Shrnutí:
- Reward Hacking odhaluje problém zarovnání cílů v RL. Řešení tohoto problému vyžaduje kombinaci navrhování robustnějších mechanismů odměňování, zavádění externích omezení a začlenění předchozích lidských znalostí, aby bylo zajištěno, že chování agenta je efektivní a v souladu s návrhovým záměrem.
3 DeepSeek-R1-Zero a DeepSeek-R1
3.1 Přehled
Předchozí výzkum se do značné míry spoléhal na velké množství kontrolovaných dat ke zlepšení výkonu modelu. Tato studie ukazuje, že i bez SFT jako studeného startu může RL ve velkém měřítku výrazně zlepšit uvažovací schopnost modelu. Zavedení malého množství dat studeného startu navíc může výkon dále optimalizovat. Níže jsou uvedeny modely související s DeepSeek-R1:
- DeepSeek-R1-Zero: Tento model aplikuje RL přímo na základní model bez jakýchkoli dat SFT.
- DeepSeek-R1: Tento model používá RL počínaje kontrolním bodem, který byl doladěn s tisíci dlouhých vzorků CoT.
- DeepSeek-R1-Distill-xx: Destiluje schopnost Reasoning DeepSeek-R1 do malého modelu Dense.
3.2 DeepSeek-R1-Zero
Následující obrázek ukazuje klíčové body v tréninku modelu DeepSeek-R1-Zero:

PS: Je třeba poznamenat, že článek neposkytuje mnoho informací o datech použitých v RL procesu DeepSeek-R1-Zero. Existuje však určité vysvětlení procesu generování dat a jejich množství v následném školení R1, i když to není nijak zvlášť specifické.
3.2.1 Algoritmus RL
Ke snížení nákladů na školení RL autoři používají vlastní metodu GRPO (Group Relative Policy Optimization) DeepSeek, [2402.03300] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. Tato metoda opouští kritický model, který je velikostí obvykle srovnatelný s modelem politiky, a místo toho odhaduje základní linii pomocí skupinového skóre. Odpovídající vysvětlení je uvedeno na obrázku níže (obrázek z Twitteru):

3.2.2 Modelování odměn
Odměny jsou zdrojem tréninkových signálů a určují směr optimalizace RL. K tréninku DeepSeek-R1-Zero použili autoři systém odměn založený na pravidlech, který se skládá hlavně ze dvou typů odměn:
- Odměna za přesnost: Vyhodnoťte, zda je odpověď správná. Například:
- V matematických úlohách s deterministickými výsledky musí model poskytnout konečnou odpověď ve specifickém formátu (například uvnitř krabice), aby jeho správnost mohla být spolehlivě ověřena pravidly.
- Podobně pro problémy s LeetCode lze zpětnou vazbu generovat pomocí kompilátoru na základě předem definovaných testovacích případů.
- Formátová odměna: Formátová odměna se také používá k přinucení modelu umístit svůj myšlenkový proces mezi „ “ a „ ” tagy.
Při vývoji DeepSeek-R1-Zero autor nepoužil Outcome Neural Reward Model nebo Process Neural Reward Model, protože autor zjistil, že model neurální odměny se může setkat se spoofingem odměn (Reward Hacking) ve velkých RL procesech; přeškolení Modelu odměn navíc vyžaduje nejen další školicí zdroje, ale také komplikuje celý školicí proces.
3.2.3 Školicí šablona
Pro trénování DeepSeek-R1-Zero autoři nejprve navrhli jednoduchou šablonu, která bude základní model vést k dodržování stanovených pokynů. Jak je uvedeno v tabulce 1 níže, šablona vyžaduje DeepSeek-R1-Zero k vygenerování procesu odvození a následnému poskytnutí konečné odpovědi.

Autor záměrně omezil omezení na tento strukturální rámec, aby se vyhnul zavádění jakéhokoli zkreslení obsahu – například vynucení reflektivního uvažování nebo prosazování specifických strategií řešení problémů – aby bylo zajištěno, že přirozený vývoj modelu bude možné přesně pozorovat během procesu RL.
3.2.4 Závěr
Robustní možnosti uvažování bez dat SFT: Spuštěním RL přímo ze základního modelu lze pozorně sledovat vývojovou trajektorii modelu bez interference SFT. Jak ukazuje obrázek 3 níže, doba přemýšlení DeepSeek-R1-Zero se během tréninkového procesu dále zlepšovala (délka růstu se postupně prodlužovala). Toto zlepšení nepocházelo z externích úprav, ale bylo přirozeným výsledkem vnitřního vývoje modelu. DeepSeek-R1-Zero přirozeně získal schopnost řešit stále složitější úlohy odvození, jako je schopnost reflektovat, pomocí výpočtů prodloužené doby testování.

DeepSeek-R1-Zero zažil během tréninku „aha moment“. Jak je uvedeno v tabulce 3 níže, k tomuto okamžiku došlo ve fázi střední verze modelu. Během této fáze se DeepSeek-R1-Zero naučil přidělovat více času na přemýšlení problémům přehodnocením svého původního přístupu.

Většinové hlasování: Výkon DeepSeek-R1-Zero lze dále zlepšit použitím většinového hlasování. Například, jak je uvedeno v tabulce 2 níže, po použití většinového hlasování v benchmarkovém testu AIME jeho výkon vyskočí z 71,0% na 86,7%, čímž překoná OpenAI-o1-0912.

Slabé stránky: Zatímco DeepSeek-R1-Zero demonstruje silné schopnosti Reasoning a autonomně vyvíjí neočekávané a silné Reasoning chování, stále čelí výzvám, jako je špatná čitelnost a míchání jazyků.
3.3 DeepSeek-R1
Aby byl proces Reasoning čitelnější a sdílel jej s otevřenou komunitou, autoři dále zkoumají metodu DeepSeek-R1, která využívá data studeného startu pro RL, která jsou přívětivá pro člověka. Inspirováno DeepSeek-R1-Zero, následují dvě přirozené otázky:
- Lze výkon funkce Reasoning dále zlepšit nebo proces konvergence urychlit zavedením malého množství vysoce kvalitních dat jako studený start?
- Jak můžeme trénovat uživatelsky přívětivý model, který nejen generuje jasné a koherentní CoT, ale také demonstruje silné možnosti zobecnění?
Jako odpověď na tyto otázky jsme navrhli tréninkový proces pro DeepSeek-R1. Proces se skládá z několika fází, jak je popsáno níže:
Fáze-1, jak je znázorněno na obrázku níže, trénuje přechodný stav DeepSeek-R1 přes SFT + RL:

Následující obrázek ukazuje fáze 2, 3 a 4:
- Fáze 2: vlevo nahoře sestrojte 200 000 neuvažujících dat a 600 000 uvažovacích dat.
- Stupeň 3: vpravo nahoře, vlak SFT + RL DeepSeek-R1.
- Stupeň-4: spodní obrázek, Distill DeepSeek-R1-Distill-xx.

3.3.1 Studený start (1. fáze)
Na rozdíl od DeepSeek-R1-Zero, aby se zabránilo nestabilní fázi studeného startu základního modelu na začátku tréninku RL, autoři vytvořili a shromáždili malé množství dat Long CoT pro DeepSeek-R1, aby doladili model jako počátečního aktéra RL. Pro sběr těchto dat autoři prozkoumali různé metody:
- Použití několikanásobných výzev s příklady Long CoT
- Přímá výzva modelu, aby generoval podrobné odpovědi s reflexí a ověřením
- Shromažďování výstupu DeepSeek-R1-Zero ve formátu čitelném pro člověka
- Upřesnění výsledků pomocí následného zpracování s ručním označováním
Autoři shromáždili celkem tisíce dat Cold Start, která byla použita k doladění DeepSeek-V3-Base jako výchozího bodu pro RL. Ve srovnání s DeepSeek-R1-Zero zahrnují výhody dat studeného startu
- Čitelnost: DeepSeek-R1-Zero Responses lze kombinovat ve více jazycích nebo postrádat formátování Markdown používané ke zvýraznění uživatelských odpovědí. Naproti tomu při vytváření dat studeného startu pro DeepSeek-R1 autor navrhl čitelný formát, který obsahuje shrnutí na konci každé odpovědi a odfiltruje nečitelné odpovědi. Zde je výstupní formát definován jako |special_token| |speciální_token|
, kde proces uvažování je zřetězené myšlení dotazu a souhrn se používá k shrnutí výsledků uvažování. - Potenciál: Pečlivým navržením kombinace datových vzorů typu člověk-a priori Cold Start autoři zjistili, že jeho výkon je lepší než u DeepSeek-R1-Zero.
3.3.2 RL řízená uvažováním (1. fáze)
Po jemném vyladění dat DeepSeek-V3-Base on Cold Start se použije stejný rozsáhlý tréninkový proces RL jako DeepSeek-R1-Zero. Tato fáze si klade za cíl zlepšit schopnost modelu v úlohách náročných na uvažování, zejména v problémech programování, matematiky, vědy a logického uvažování s jasnými řešeními.
Během školení autoři pozorovali, že CoT často trpělo míšením jazyků, zvláště když výzva RL zahrnovala více jazyků. Aby se zmírnil problém s mícháním jazyků, autoři zavedli do tréninku RL odměnu za konzistenci jazyka, která se vypočítává na základě podílu slov v cílovém jazyce v CoT. Ačkoli ablační experimenty ukazují, že tato metoda zarovnání vede k mírnému snížení výkonnosti modelu, tento mechanismus odměny je v souladu s lidskými preferencemi a zlepšuje čitelnost. Nakonec autoři přímo přidávají přesnost úlohy Reasoning k odměně konzistence jazyka, aby vytvořili konečnou odměnu, a implementují trénink RL na vyladěném modelu, dokud se nesblíží s úlohou Reasoning.
3.3.3 Konstrukce 800 000 vybraných dat (2. fáze)
Zatímco RL for Reasoning konverguje, data SFT se shromažďují pomocí výsledného kontrolního bodu pro další tréninkové kolo. Na rozdíl od počátečních dat Cold Start, která se soustředí hlavně na uvažování, tato fáze zahrnuje data z jiných domén, aby se zlepšila schopnost modelu psát, hrát role a další obecné úkoly. Konkrétně se generují data a model se dolaďuje následovně:
- Data zdůvodnění: Vyberou se výzvy k odůvodnění a trajektorie zdůvodnění se generují provedením vzorkování odmítnutí z výše uvedeného kontrolního bodu vyškoleného RL (DeepSeek-R1 Fáze 1). V předchozí fázi byla zahrnuta pouze data, která bylo možné vyhodnotit pomocí odměn založených na pravidlech. V této fázi však byla datová sada rozšířena o další data, z nichž některá byla vygenerována pomocí modelu odměny, a skutečné odpovědi byly posuzovány vložením předpovědí modelu do DeepSeek-V3 (DeepSeek V3 jako soudce). Navíc, protože výstup modelu je někdy matoucí a obtížně čitelný, byly odfiltrovány smíšené jazykové myšlenkové řetězce, dlouhé odstavce a bloky kódu. Pro každou výzvu bylo odebráno několik vzorků odpovědí a byly zachovány pouze ty správné (nejlepší z N). Celkem bylo shromážděno asi 600 000 vzorků školení souvisejících s uvažováním.
- Data bez uvažování: jako je psaní, faktické otázky, sebeuvědomění a překlad, použila proces DeepSeek-V3 a znovu použila některé datové sady SFT DeepSeek-V3. Pro některé úlohy, které nejsou uvažovány, je DeepSeek-V3 volán ke generování potenciálních CoT před zodpovězením otázky. Pro jednoduché dotazy, jako je „Ahoj“, však odpověď neobsahuje žádný myšlenkový řetězec. Nakonec bylo shromážděno celkem asi 200 000 vzorků tréninku mimo Reasoning.
3.3.4 SFT & RL pro všechny scénáře (3. fáze)
Dvě kola jemného ladění celkem asi 800 000 vybraných vzorků byla provedena na DeepSeek-V3-Base pomocí dvou výše uvedených datových sad (Reasoning a non-Reasoning).
Pro další sladění modelu s lidskými preferencemi autoři implementovali druhou fázi RL, jejímž cílem je zlepšit užitečnost a neškodnost modelu a zároveň vylepšit jeho schopnosti Reasoning. Konkrétně byl model trénován pomocí kombinace signálů odměn a různých rychlých distribucí.
- Pro data uvažování je dodržována metodika popsaná v DeepSeek-R1-Zero s použitím mechanismu odměn založeného na pravidlech, který řídí učení modelu v oblastech matematiky, programování a logického uvažování.
- Pro obecná data se model odměny používá k zachycení lidských preferencí ve složitých a jemných situacích. Podobná strategie preferenčních párů a distribuce trénovacích promptů se používá na základě procesu DeepSeek-V3.
- Pokud jde o užitečnost, bere se v úvahu pouze konečné shrnutí, což zajišťuje, že se hodnocení soustředí na praktičnost a relevanci odpovědi pro uživatele a zároveň minimalizuje interferenci se základním procesem uvažování.
- Pokud jde o neškodnost, je komplexně vyhodnocena celá Odezva modelu, včetně procesu Reasoning a shrnutí, aby se identifikovala a eliminovala veškerá potenciální rizika, zkreslení nebo škodlivý obsah, který se může objevit během procesu generování.
- V konečném důsledku lze integrací signálů odměn a diverzifikací distribuce dat vycvičit model, který upřednostňuje přínos i neškodnost a zároveň vyniká v uvažování.
3.3.5 Destilace (4. fáze)
Aby bylo možné efektivnější malý model vybavit rozumovou schopností DeepSeek-R1, autoři přímo doladili open source modely Qwen a LLaMA pomocí 800 000 vzorků vybraných v DeepSeek-R1-Stage-1. Výsledky ukazují, že tato metoda přímé destilace výrazně zlepšuje uvažovací schopnost malých modelů. Mezi základní modely, které autoři používají, patří Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B a Llama-3.3-70B-Instruct. Llama-3.3 byla vybrána, protože její schopnost uvažování je o něco lepší než Llama-3.1.
Pro model destilace autor používá pouze SFT a nezahrnuje stupeň RL. Přestože zavedení RL může výrazně zlepšit výkon modelu, hlavním účelem autora je zde demonstrovat účinnost destilační technologie a průzkum stupně RL je ponechán na následném výzkumu.
PS: Navíc je skutečně možné použít finální DeepSeek-R1 ke generování výše uvedených dat a rekonstrukci 800 000 dat použitých pro destilaci a destilovaný model může mít lepší efekt; cenou je však potřeba rekonstruovat data.