Аннотация
В этом документе представлены модели рассуждений DeepSeek первого поколения: DeepSeek-R1-Zero и DeepSeek-R1. DeepSeek-R1-Zero, обученная с помощью крупномасштабного обучения с подкреплением (RL) без контролируемой тонкой настройки (SFT), демонстрирует замечательные способности к рассуждениям. Благодаря RL он естественным образом развивает мощное поведение рассуждения. Однако он сталкивается с такими проблемами, как плохая читаемость и смешение языков. Для решения этих проблем и повышения эффективности рассуждений была разработана система DeepSeek-R1, включающая многоступенчатое обучение и холодный старт данных перед RL. DeepSeek-R1 достигает производительности, сравнимой с OpenAI-o1-1217 в задачах рассуждения. Для поддержки исследований в DeepSeek открыты обе модели и шесть плотных моделей (1.5B, 7B, 8B, 14B, 32B, 70B), выделенных из DeepSeek-R1 на основе Qwen и Llama.
Основные вклады
Посттренировочное обучение: Крупномасштабное обучение с подкреплением
- Успешное применение RL непосредственно к базовой модели без SFT
- Разработка DeepSeek-R1-Zero, демонстрирующая такие возможности, как самопроверка и рефлексия
- Первое открытое исследование, подтверждающее, что способности к рассуждению можно стимулировать исключительно с помощью RL
- Представлен конвейер для DeepSeek-R1 с двумя каскадами RL и двумя каскадами SFT
Дистилляция: Расширение возможностей небольших моделей
- Продемонстрировал, что схемы рассуждений из больших моделей могут быть эффективно разделены на более мелкие
- Открытая версия DeepSeek-R1 и ее API для исследовательского сообщества
- Тонкая настройка нескольких плотных моделей, демонстрирующих исключительную производительность в бенчмарках
- Разработанные модели значительно превосходят предыдущие модели с открытым исходным кодом
Результаты оценки
Задачи на рассуждение
- DeepSeek-R1 достигает 79,8% Pass@1 на AIME 2024, превосходя OpenAI-o1-1217
- 97,3% баллов по MATH-500, наравне с OpenAI-o1-1217
- Экспертный уровень производительности в конкурсных задачах по коду с рейтингом 2,029 Elo на Codeforces
Задачи на знание
- Выдающиеся результаты по MMLU (90,8%), MMLU-Pro (84,0%) и GPQA Diamond (71,5%)
- Превосходит другие модели с закрытым исходным кодом в решении образовательных задач
- Высокие показатели по фактическим показателям, таким как SimpleQA
Общие возможности
- Отлично справляется с творческими заданиями, ответами на вопросы, редактированием и подведением итогов
- 87,6% коэффициент побед на AlpacaEval 2.0 и 92,3% на ArenaHard
- Высокая производительность при выполнении заданий на понимание длинного контекста
Будущая работа
Команда планирует сосредоточиться на:
- Расширение общих возможностей в таких областях, как вызов функций и сложные ролевые игры
- Решение проблем смешения языков
- Совершенствование техники подсказок
- Повышение производительности при решении задач программной инженерии
Заключение
DeepSeek-R1 представляет собой значительный шаг вперед в развитии возможностей ИИ в области рассуждений с помощью обучения с подкреплением. Успех как основной модели, так и ее расширенных версий демонстрирует потенциал этого подхода для разработки более способных систем ИИ. Выпуск этих моделей с открытым исходным кодом будет способствовать дальнейшим исследованиям и разработкам в этой области.