Резюме
Този документ представя първото поколение модели за разсъждение на DeepSeek: DeepSeek-R1-Zero и DeepSeek-R1. DeepSeek-R1-Zero, обучен чрез широкомащабно усилено обучение (RL) без контролирана фина настройка (SFT), демонстрира забележителни възможности за разсъждение. Чрез RL той естествено развива мощно поведение на разсъждаване. Въпреки това той е изправен пред предизвикателства като слаба четимост и смесване на езици. За да се решат тези проблеми и да се подобри ефективността на разсъжденията, е разработен DeepSeek-R1, включващ многоетапно обучение и данни за студен старт преди RL. DeepSeek-R1 постига производителност, сравнима с тази на OpenAI-o1-1217, при задачи за разсъждаване. В подкрепа на научните изследвания DeepSeek предоставя отворени източници на двата модела и на шест плътни модела (1,5B, 7B, 8B, 14B, 32B, 70B), дестилирани от DeepSeek-R1 на базата на Qwen и Llama.
Основни приноси
След обучението: Широкомащабно обучение с усилване
- Успешно прилагане на RL директно към базовия модел без SFT
- Разработи DeepSeek-R1-Zero, демонстрирайки възможности като самопроверка и отразяване
- Първото открито изследване, което потвърждава, че способностите за разсъждение могат да бъдат стимулирани единствено чрез RL
- Въведен конвейер за DeepSeek-R1 с два RL етапа и два SFT етапа
Дестилация: Овластяване на по-малките модели
- Демонстрира, че моделите на разсъждения от по-големи модели могат да бъдат ефективно дестилирани в по-малки.
- Открит достъп до DeepSeek-R1 и неговия API в полза на изследователската общност
- Фина настройка на няколко плътни модела, показващи изключителна производителност в бенчмарковете
- Дестилираните модели значително превъзхождат предишните модели с отворен код
Резултати от оценката
Задачи за разсъждение
- DeepSeek-R1 постига 79,8% Pass@1 на AIME 2024, надминавайки OpenAI-o1-1217
- 97.3% резултат по MATH-500, постигайки резултати, равни на тези на OpenAI-o1-1217
- Представяне на експертно ниво в задачи за състезание по програмиране с 2 029 Elo точки в Codeforces
Задачи, свързани със знанието
- Изключителни резултати при MMLU (90,8%), MMLU-Pro (84,0%) и GPQA Diamond (71,5%)
- Превъзхожда други модели със затворен код в образователните задачи
- Силно представяне на фактологични еталони като SimpleQA
Общи възможности
- Умее да пише творчески, да отговаря на въпроси, да редактира и да обобщава
- 87,6% коефициент на печалба в AlpacaEval 2.0 и 92,3% в ArenaHard
- Силно представяне при задачи за разбиране на дълъг контекст
Бъдеща работа
Екипът планира да се съсредоточи върху:
- Подобряване на общите възможности в области като извикване на функции и сложни ролеви игри
- Решаване на проблеми, свързани със смесването на езици
- Усъвършенстване на техниката за подсказване
- Повишаване на ефективността на задачите по софтуерно инженерство
Заключение
DeepSeek-R1 представлява значителен напредък в способностите за разсъждаване с изкуствен интелект чрез усилено обучение. Успехът както на основния модел, така и на неговите дестилирани версии демонстрира потенциала на този подход за разработване на по-способни системи за ИИ. Публикуването на тези модели с отворен код ще допринесе за по-нататъшни изследвания и разработки в тази област.