Аннотация

В этом документе представлены модели рассуждений DeepSeek первого поколения: DeepSeek-R1-Zero и DeepSeek-R1. DeepSeek-R1-Zero, обученная с помощью крупномасштабного обучения с подкреплением (RL) без контролируемой тонкой настройки (SFT), демонстрирует замечательные способности к рассуждениям. Благодаря RL он естественным образом развивает мощное поведение рассуждения. Однако он сталкивается с такими проблемами, как плохая читаемость и смешение языков. Для решения этих проблем и повышения эффективности рассуждений была разработана система DeepSeek-R1, включающая многоступенчатое обучение и холодный старт данных перед RL. DeepSeek-R1 достигает производительности, сравнимой с OpenAI-o1-1217 в задачах рассуждения. Для поддержки исследований в DeepSeek открыты обе модели и шесть плотных моделей (1.5B, 7B, 8B, 14B, 32B, 70B), выделенных из DeepSeek-R1 на основе Qwen и Llama.

Основные вклады

Посттренировочное обучение: Крупномасштабное обучение с подкреплением

  • Успешное применение RL непосредственно к базовой модели без SFT
  • Разработка DeepSeek-R1-Zero, демонстрирующая такие возможности, как самопроверка и рефлексия
  • Первое открытое исследование, подтверждающее, что способности к рассуждению можно стимулировать исключительно с помощью RL
  • Представлен конвейер для DeepSeek-R1 с двумя каскадами RL и двумя каскадами SFT

Дистилляция: Расширение возможностей небольших моделей

  • Продемонстрировал, что схемы рассуждений из больших моделей могут быть эффективно разделены на более мелкие
  • Открытая версия DeepSeek-R1 и ее API для исследовательского сообщества
  • Тонкая настройка нескольких плотных моделей, демонстрирующих исключительную производительность в бенчмарках
  • Разработанные модели значительно превосходят предыдущие модели с открытым исходным кодом

Результаты оценки

Задачи на рассуждение

  • DeepSeek-R1 достигает 79,8% Pass@1 на AIME 2024, превосходя OpenAI-o1-1217
  • 97,3% баллов по MATH-500, наравне с OpenAI-o1-1217
  • Экспертный уровень производительности в конкурсных задачах по коду с рейтингом 2,029 Elo на Codeforces

Задачи на знание

  • Выдающиеся результаты по MMLU (90,8%), MMLU-Pro (84,0%) и GPQA Diamond (71,5%)
  • Превосходит другие модели с закрытым исходным кодом в решении образовательных задач
  • Высокие показатели по фактическим показателям, таким как SimpleQA

Общие возможности

  • Отлично справляется с творческими заданиями, ответами на вопросы, редактированием и подведением итогов
  • 87,6% коэффициент побед на AlpacaEval 2.0 и 92,3% на ArenaHard
  • Высокая производительность при выполнении заданий на понимание длинного контекста

Будущая работа

Команда планирует сосредоточиться на:

  1. Расширение общих возможностей в таких областях, как вызов функций и сложные ролевые игры
  2. Решение проблем смешения языков
  3. Совершенствование техники подсказок
  4. Повышение производительности при решении задач программной инженерии

Заключение

DeepSeek-R1 представляет собой значительный шаг вперед в развитии возможностей ИИ в области рассуждений с помощью обучения с подкреплением. Успех как основной модели, так и ее расширенных версий демонстрирует потенциал этого подхода для разработки более способных систем ИИ. Выпуск этих моделей с открытым исходным кодом будет способствовать дальнейшим исследованиям и разработкам в этой области.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *