Abstrakt

Tento článek představuje první generaci modelů uvažování DeepSeek: DeepSeek-R1-Zero a DeepSeek-R1. Model DeepSeek-R1-Zero, vycvičený pomocí rozsáhlého posilovacího učení (RL) bez dolaďování pod dohledem (SFT), vykazuje pozoruhodné schopnosti uvažování. Prostřednictvím RL přirozeně rozvíjí výkonné rozumové chování. Potýká se však s problémy, jako je špatná čitelnost a míchání jazyků. Pro řešení těchto problémů a zvýšení výkonnosti uvažování byl vyvinut DeepSeek-R1, který zahrnuje vícestupňové učení a data studeného startu před RL. DeepSeek-R1 dosahuje v úlohách uvažování výkonnosti srovnatelné s OpenAI-o1-1217. Na podporu výzkumu DeepSeek otevřeně poskytuje oba modely a šest hustých modelů (1,5B, 7B, 8B, 14B, 32B, 70B) vydestilovaných z DeepSeek-R1 na základě Qwen a Llama.

Klíčové příspěvky

Po ukončení školení: Učení s posilováním ve velkém měřítku

  • Úspěšná aplikace RL přímo na základní model bez SFT
  • Vyvinutý DeepSeek-R1-Zero, který demonstruje schopnosti, jako je vlastní ověřování a reflexe.
  • První otevřený výzkum, který potvrzuje, že schopnosti uvažování lze motivovat čistě prostřednictvím RL.
  • Zavedená potrubní linka pro DeepSeek-R1 se dvěma RL stupni a dvěma SFT stupni

Destilace: Posílení menších modelů

  • prokázal, že vzorce uvažování z větších modelů lze účinně destilovat do menších modelů.
  • Otevřený zdroj DeepSeek-R1 a jeho API ve prospěch výzkumné komunity
  • Vyladění několika hustých modelů, které vykazují výjimečný výkon v benchmarcích.
  • Destilované modely výrazně překonávají předchozí modely s otevřeným zdrojovým kódem

Výsledky hodnocení

Úlohy na uvažování

  • DeepSeek-R1 dosahuje 79,8% Pass@1 na AIME 2024, čímž překonává OpenAI-o1-1217
  • 97,31 bodůTP11T v testu MATH-500, výkon srovnatelný s OpenAI-o1-1217
  • Výkon na úrovni experta v úlohách kódové soutěže s hodnocením 2 029 Elo na Codeforces

Znalostní úkoly

  • Vynikající výsledky u MMLU (90,8%), MMLU-Pro (84,0%) a GPQA Diamond (71,5%).
  • Překonává ostatní modely s uzavřeným zdrojem ve vzdělávacích úlohách
  • Vysoký výkon ve faktických srovnávacích testech, jako je SimpleQA.

Obecné schopnosti

  • Vyniká v tvůrčím psaní, zodpovídání otázek, úpravách a shrnutí.
  • 87,6% vítězství na AlpacaEval 2.0 a 92,3% na ArenaHard
  • Dobrý výkon v úlohách s dlouhým porozuměním kontextu

Budoucí práce

Tým se chce zaměřit na:

  1. Zlepšení obecných schopností v oblastech, jako je volání funkcí a komplexní hraní rolí.
  2. Řešení problémů s mísením jazyků
  3. Zlepšení techniky podnětů
  4. Zvyšování výkonu při řešení úkolů softwarového inženýrství

Závěr

DeepSeek-R1 představuje významný pokrok ve schopnostech uvažování umělé inteligence prostřednictvím posilování učení. Úspěch hlavního modelu i jeho destilované verze ukazuje potenciál tohoto přístupu pro vývoj schopnějších systémů umělé inteligence. Zveřejnění těchto modelů jako otevřených zdrojů přispěje k dalšímu výzkumu a vývoji v této oblasti.

Podobné příspěvky

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *