Abstrakt
Tento článek představuje první generaci modelů uvažování DeepSeek: DeepSeek-R1-Zero a DeepSeek-R1. Model DeepSeek-R1-Zero, vycvičený pomocí rozsáhlého posilovacího učení (RL) bez dolaďování pod dohledem (SFT), vykazuje pozoruhodné schopnosti uvažování. Prostřednictvím RL přirozeně rozvíjí výkonné rozumové chování. Potýká se však s problémy, jako je špatná čitelnost a míchání jazyků. Pro řešení těchto problémů a zvýšení výkonnosti uvažování byl vyvinut DeepSeek-R1, který zahrnuje vícestupňové učení a data studeného startu před RL. DeepSeek-R1 dosahuje v úlohách uvažování výkonnosti srovnatelné s OpenAI-o1-1217. Na podporu výzkumu DeepSeek otevřeně poskytuje oba modely a šest hustých modelů (1,5B, 7B, 8B, 14B, 32B, 70B) vydestilovaných z DeepSeek-R1 na základě Qwen a Llama.
Klíčové příspěvky
Po ukončení školení: Učení s posilováním ve velkém měřítku
- Úspěšná aplikace RL přímo na základní model bez SFT
- Vyvinutý DeepSeek-R1-Zero, který demonstruje schopnosti, jako je vlastní ověřování a reflexe.
- První otevřený výzkum, který potvrzuje, že schopnosti uvažování lze motivovat čistě prostřednictvím RL.
- Zavedená potrubní linka pro DeepSeek-R1 se dvěma RL stupni a dvěma SFT stupni
Destilace: Posílení menších modelů
- prokázal, že vzorce uvažování z větších modelů lze účinně destilovat do menších modelů.
- Otevřený zdroj DeepSeek-R1 a jeho API ve prospěch výzkumné komunity
- Vyladění několika hustých modelů, které vykazují výjimečný výkon v benchmarcích.
- Destilované modely výrazně překonávají předchozí modely s otevřeným zdrojovým kódem
Výsledky hodnocení
Úlohy na uvažování
- DeepSeek-R1 dosahuje 79,8% Pass@1 na AIME 2024, čímž překonává OpenAI-o1-1217
- 97,31 bodůTP11T v testu MATH-500, výkon srovnatelný s OpenAI-o1-1217
- Výkon na úrovni experta v úlohách kódové soutěže s hodnocením 2 029 Elo na Codeforces
Znalostní úkoly
- Vynikající výsledky u MMLU (90,8%), MMLU-Pro (84,0%) a GPQA Diamond (71,5%).
- Překonává ostatní modely s uzavřeným zdrojem ve vzdělávacích úlohách
- Vysoký výkon ve faktických srovnávacích testech, jako je SimpleQA.
Obecné schopnosti
- Vyniká v tvůrčím psaní, zodpovídání otázek, úpravách a shrnutí.
- 87,6% vítězství na AlpacaEval 2.0 a 92,3% na ArenaHard
- Dobrý výkon v úlohách s dlouhým porozuměním kontextu
Budoucí práce
Tým se chce zaměřit na:
- Zlepšení obecných schopností v oblastech, jako je volání funkcí a komplexní hraní rolí.
- Řešení problémů s mísením jazyků
- Zlepšení techniky podnětů
- Zvyšování výkonu při řešení úkolů softwarového inženýrství
Závěr
DeepSeek-R1 představuje významný pokrok ve schopnostech uvažování umělé inteligence prostřednictvím posilování učení. Úspěch hlavního modelu i jeho destilované verze ukazuje potenciál tohoto přístupu pro vývoj schopnějších systémů umělé inteligence. Zveřejnění těchto modelů jako otevřených zdrojů přispěje k dalšímu výzkumu a vývoji v této oblasti.