Paper-DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Obsah

Abstrakt

Tento článek představuje první generaci modelů uvažování DeepSeek: DeepSeek-R1-Zero a DeepSeek-R1. Model DeepSeek-R1-Zero, vycvičený pomocí rozsáhlého posilovacího učení (RL) bez dolaďování pod dohledem (SFT), vykazuje pozoruhodné schopnosti uvažování. Prostřednictvím RL přirozeně rozvíjí výkonné rozumové chování. Potýká se však s problémy, jako je špatná čitelnost a míchání jazyků. Pro řešení těchto problémů a zvýšení výkonnosti uvažování byl vyvinut DeepSeek-R1, který zahrnuje vícestupňové učení a data studeného startu před RL. DeepSeek-R1 dosahuje v úlohách uvažování výkonnosti srovnatelné s OpenAI-o1-1217. Na podporu výzkumu DeepSeek otevřeně poskytuje oba modely a šest hustých modelů (1,5B, 7B, 8B, 14B, 32B, 70B) vydestilovaných z DeepSeek-R1 na základě Qwen a Llama.

Klíčové příspěvky

Po ukončení školení: Učení s posilováním ve velkém měřítku

Úspěšná aplikace RL přímo na základní model bez SFT
Vyvinutý DeepSeek-R1-Zero, který demonstruje schopnosti, jako je vlastní ověřování a reflexe.
První otevřený výzkum, který potvrzuje, že schopnosti uvažování lze motivovat čistě prostřednictvím RL.
Zavedená potrubní linka pro DeepSeek-R1 se dvěma RL stupni a dvěma SFT stupni

Destilace: Posílení menších modelů

prokázal, že vzorce uvažování z větších modelů lze účinně destilovat do menších modelů.
Otevřený zdroj DeepSeek-R1 a jeho API ve prospěch výzkumné komunity
Vyladění několika hustých modelů, které vykazují výjimečný výkon v benchmarcích.
Destilované modely výrazně překonávají předchozí modely s otevřeným zdrojovým kódem

Výsledky hodnocení

Úlohy na uvažování

DeepSeek-R1 dosahuje 79,8% Pass@1 na AIME 2024, čímž překonává OpenAI-o1-1217
97,31 bodůTP11T v testu MATH-500, výkon srovnatelný s OpenAI-o1-1217
Výkon na úrovni experta v úlohách kódové soutěže s hodnocením 2 029 Elo na Codeforces

Znalostní úkoly

Vynikající výsledky u MMLU (90,8%), MMLU-Pro (84,0%) a GPQA Diamond (71,5%).
Překonává ostatní modely s uzavřeným zdrojem ve vzdělávacích úlohách
Vysoký výkon ve faktických srovnávacích testech, jako je SimpleQA.

Obecné schopnosti

Vyniká v tvůrčím psaní, zodpovídání otázek, úpravách a shrnutí.
87,6% vítězství na AlpacaEval 2.0 a 92,3% na ArenaHard
Dobrý výkon v úlohách s dlouhým porozuměním kontextu

Budoucí práce

Tým se chce zaměřit na:

Zlepšení obecných schopností v oblastech, jako je volání funkcí a komplexní hraní rolí.
Řešení problémů s mísením jazyků
Zlepšení techniky podnětů
Zvyšování výkonu při řešení úkolů softwarového inženýrství

Závěr

DeepSeek-R1 představuje významný pokrok ve schopnostech uvažování umělé inteligence prostřednictvím posilování učení. Úspěch hlavního modelu i jeho destilované verze ukazuje potenciál tohoto přístupu pro vývoj schopnějších systémů umělé inteligence. Zveřejnění těchto modelů jako otevřených zdrojů přispěje k dalšímu výzkumu a vývoji v této oblasti.

DeepSeek_R1 Stáhnout

Nezařazené

Nejnovější zprávy! Výzkumník DeepSeek odhaluje online: Trénink R1 trval pouze dva až tři týdny a během svátku čínského Nového roku byl pozorován silný vývoj R1 nula.

Podlezddeepseeker Únor 4, 2025Únor 4, 2025

Nejnovější zprávy! Výzkumník DeepSeek odhaluje online: Školení R1 trvalo pouze dva až tři týdny a během svátku čínského Nového roku byl pozorován silný vývoj R1 nula Právě jsme si všimli, že výzkumník DeepSeek Daya Guo odpověděl na dotazy uživatelů o DeepSeek R1 a plánech společnosti. vpřed. Můžeme jen říci…

Nezařazené

Co je FlashMLA? Komplexní průvodce jeho dopadem na jádra dekódování AI

Podledeepseeker Únor 24, 2025Únor 24, 2025

FlashMLA si rychle získal pozornost ve světě umělé inteligence, zejména v oblasti velkých jazykových modelů (LLM). Tento inovativní nástroj vyvinutý společností DeepSeek slouží jako optimalizované dekódovací jádro navržené pro GPU Hopper – vysoce výkonné čipy běžně používané ve výpočtech AI. FlashMLA se zaměřuje na efektivní zpracování sekvencí s proměnnou délkou, díky čemuž je zvláště vhodný…

Nezařazené

OpenAI o3-mini vs. DeepSeek-R1: Kdo je králem nové generace modelů AI?

Podlezddeepseeker Únor 1, 2025Únor 1, 2025

o3-mini je tady, s dynamikou vyzyvatele 31. ledna vydala společnost OpenAI zbrusu nový velký model o3-mini a poskytla některé jeho funkce zdarma všem uživatelům ChatGPT. Přestože je počet dotazů omezen, umožňuje uživatelům vyzkoušet si nejnovější komerční model OpenAI co nejdříve.....

Nezařazené

Gemini 2.0 dominuje žebříčkům, zatímco DeepSeek V3 pláče ve své ceně a nový nákladově efektivní šampion je na světě!

Podlezddeepseeker Únor 8, 2025Únor 8, 2025

Rodina Google Gemini 2.0 je konečně kompletní! Vévodí žebříčkům hned po vydání. Uprostřed pronásledování a blokád Deepseek, Qwen a o3 vydal Google dnes brzy ráno tři modely najednou: Gemini 2.0 Pro, Gemini 2.0 Flash a Gemini 2.0 Flash-Lite. V žebříčku velkých modelů LMSYS, Gemini…

Nezařazené

Qwen2.5-max vs DeepSeek R1: Hluboké srovnání modelů: úplná analýza scénářů aplikací

Podlezddeepseeker Únor 14, 2025Únor 14, 2025

Úvod Dnes hrají zásadní roli velké jazykové modely (LLM). Začátkem roku 2025, kdy konkurence o AI zesílila, uvedla Alibaba na trh nový model AI Qwen2.5-max a společnost DeepSeek z Hangzhou v Číně uvedla na trh model R1, který představuje vrchol technologie LLM. Deepseek R1 je open source model umělé inteligence, který přitahuje…

Nezařazené

Le Chat vede žebříčky s investicí ve výši sta miliard dolarů. Je po USA a Číně třetí mocností umělé inteligence?

Podlezddeepseeker Únor 11, 2025Únor 11, 2025

9. února francouzský prezident Emmanuel Macron oznámil, že Francie v příštích několika letech investuje 109 miliard eur (113 miliard amerických dolarů) do oblasti umělé inteligence. Tato investice bude použita na vybudování parku umělé inteligence ve Francii, zlepšení infrastruktury a investic do místních start-upů zaměřených na umělou inteligenci. Mezitím Mistral, francouzský startup,…

Paper-DeepSeek-R1: Motivace schopnosti uvažování v LLM prostřednictvím učení s posilováním (Reinforcement Learning)

Abstrakt

Klíčové příspěvky