Absztrakt
Ez a dokumentum bemutatja az DeepSeek első generációs érvelési modelljeit: DeepSeek-R1-Zero és DeepSeek-R1. Az DeepSeek-R1-Zero, amelyet nagyméretű megerősítő tanulással (RL), felügyelt finomhangolás (SFT) nélkül képeztek ki, figyelemre méltó következtetési képességeket mutat. Az RL révén természetesen erőteljes következtetési viselkedést fejleszt ki. Ugyanakkor olyan kihívásokkal kell szembenéznie, mint a gyenge olvashatóság és a nyelvi keveredés. E problémák megoldására és a következtetési teljesítmény fokozására fejlesztették ki az DeepSeek-R1-et, amely többlépcsős képzést és hidegindításos adatokat tartalmaz az RL előtt. Az DeepSeek-R1 az OpenAI-o1-1217-hez hasonló teljesítményt ér el a következtetési feladatokban. A kutatás támogatása érdekében az DeepSeek mindkét modell és hat sűrű modell (1,5B, 7B, 8B, 14B, 32B, 70B) nyílt forráskódja, amelyeket az DeepSeek-R1-ből desztilláltak a Qwen és a Llama alapján.
Kulcsfontosságú hozzájárulások
Képzés után: Nagyméretű megerősítéses tanulás
- Sikeresen alkalmazott RL közvetlenül az alapmodellre SFT nélkül
- Kifejlesztette az DeepSeek-R1-Zero-t, bemutatva az olyan képességeket, mint az önellenőrzés és a tükrözés.
- Az első nyílt kutatás, amely igazolja, hogy az érvelési képességeket pusztán az RL segítségével lehet ösztönözni.
- Bevezetett csővezeték az DeepSeek-R1-hez két RL- és két SFT-szakasszal
Lepárlás: A kisebb modellek felhatalmazása
- Bemutatta, hogy a nagyobb modellekből származó gondolkodási mintákat hatékonyan lehet kisebb modellekbe desztillálni.
- Nyílt forráskódú DeepSeek-R1 és API-ja a kutatói közösség javára
- Több sűrű modell finomhangolása, amelyek kivételes teljesítményt mutatnak a benchmarkokban
- A disztillált modellek jelentősen felülmúlják a korábbi nyílt forráskódú modelleket
Értékelési eredmények
Érvelési feladatok
- DeepSeek-R1 79,8% Pass@1 az AIME 2024-en, felülmúlva az OpenAI-o1-1217-et
- 97,3% pontszám a MATH-500-on, az OpenAI-o1-1217-hez hasonlóan teljesít.
- Szakértői szintű teljesítmény a kódversenyfeladatokban 2,029 Elo értékeléssel a Codeforces-en
Tudásfeladatok
- Kiemelkedő eredmények az MMLU (90,8%), MMLU-Pro (84,0%) és GPQA Diamond (71,5%) esetében.
- Felülmúlja a többi zárt forráskódú modellt az oktatási feladatokban
- Erős teljesítmény az olyan tényszerű benchmarkokon, mint a SimpleQA
Általános képességek
- Kiválóan ért a kreatív íráshoz, a kérdések megválaszolásához, a szerkesztéshez és az összegzéshez.
- 87.6% nyerési arány az AlpacaEval 2.0-n és 92.3% az ArenaHard-on.
- Erős teljesítmény a hosszú kontextusmegértési feladatokban
Jövőbeni munka
A csapat a következőkre tervezi összpontosítani:
- Az általános képességek fejlesztése olyan területeken, mint a funkcióhívás és az összetett szerepjáték.
- A nyelvi keveredési problémák kezelése
- A prompting-technika javítása
- A teljesítmény növelése a szoftverfejlesztési feladatokban
Következtetés
Az DeepSeek-R1 jelentős előrelépést jelent a mesterséges intelligencia érvelési képességei terén a megerősített tanulás révén. Mind a fő modell, mind pedig annak desztillált változatainak sikere azt mutatja, hogy ez a megközelítés milyen lehetőségeket rejt magában a még jobb képességű mesterséges intelligencia rendszerek kifejlesztésében. E modellek nyílt forráskódú kiadása hozzájárul a további kutatáshoz és fejlesztéshez ezen a területen.