Сегодня мы поделимся DeepSeek R1, Название: DeepSeek-R1: Стимулирование способности к рассуждению у LLM посредством обучения с подкреплением: Стимулирование способности к рассуждению у LLM посредством обучения с подкреплением.
В данной статье представлено первое поколение моделей рассуждений DeepSeek, DeepSeek-R1-Zero и DeepSeek-R1. Модель DeepSeek-R1-Zero была обучена с помощью крупномасштабное обучение с подкреплением (RL) без контролируемой тонкой настройки (SFT) в качестве начального шага, демонстрирующее потенциал RL и превосходные возможности рассуждения это приносит. Благодаря обучению с подкреплением, DeepSeek-R1-Zero естественным образом проявил себя со множеством мощных и интересных моделей поведения при рассуждениях.. Для дальнейшей оптимизации некоторых проблем с R1-Zero (лингвистические путаницы, улучшенная способность к обобщению) они выпустили DeepSeek-R1, который сочетает многоэтапное обучение и тонкую настройку данных холодного старта перед обучением с подкреплением. DeepSeek-R1 достиг сопоставимой производительности на задаче рассуждения с OpenAI-01-1217. Чтобы поддержать исследовательское сообщество, они модели с открытым исходным кодом DeepSeek-R1-Zero, DeepSeek-R1 и шесть плотных моделей (1.5B, 7B, 8B, 14B, 32B, 70B), созданные на основе DeepSeek-R1, которые основаны на Qwen и Llama.
Характеристики метода можно обобщить следующим образом:
- Обучение с подкреплением применяется непосредственно к базовой модели, не полагаясь на контролируемую тонкую настройку (SFT) в качестве начального шага.
- Представлен процесс разработки DeepSeek-R1, который объединяет две фазы обучения с подкреплением и две контролируемые фазы тонкой настройки, чтобы заложить основу для рассуждающих и нерассуждающих возможностей модели.
- Эффективность небольших моделей при решении задач на рассуждение улучшается за счет переноса шаблонов рассуждений больших моделей на небольшие модели посредством Методы дистилляции.
Обзор
- Заголовок: DeepSeek-R1: Стимулирование способности к рассуждению у студентов магистратуры с помощью обучения с подкреплением
- Авторы: DeepSeek-AI
- Гитхаб: deepseek R1
Мотивация
- Современные большие языковые модели (LLM) достигли значительного прогресса в задачах вывода, но все еще сталкиваются с трудностями.
- Потенциал чистого Подкреплённое обучение (RL) в улучшении способности рассуждать у LLM не было полностью изучено, особенно без опоры на контролируемые данные.
- Модели, обученные с помощью RL, такие как DeepSeek-R1-Zero, есть проблемы с читаемостью и смешением языков (например, смешанный разговор на китайском и английском языках), и требуется дальнейшее улучшение для повышения удобства использования.
Методы

DeepSeek-R1-Ноль: Использует DeepSeek-V3-Base в качестве базовой модели и GRPO (Group Relative Policy Optimization) как метод обучения с подкреплением рамки, без контролируемых данных для улучшения производительности модели в выводе.
DeepSeek-R1:
- Холодный старт: Собирает небольшое количество высококачественных длинных данных CoT (цепочка мыслей) и точно настраивает DeepSeek-V3-Базовая модель как начальный участник обучения с подкреплением.
- Обучение с подкреплением, ориентированное на рассуждения: Одинаковый применяется процесс обучения с подкреплением, как DeepSeek-R1-Zero, но с акцентом на улучшение способностей модели к рассуждению в таких областях, как кодирование, математика, наука и логическое мышление. Награды за языковую согласованность вводятся для смягчения проблемы языкового смешивания, которая возникает в CoT.
- Отбраковка образцов и контролируемая тонкая настройка: Использует конвергентную контрольную точку обучения с подкреплением для собирать данные контролируемой тонкой настройки (SFT) для последующего обучения.
- Обучение с подкреплением для всех сценариев: реализует фазу обучения с подкреплением второго уровня, которая направлена на улучшение полезность и безвредность модели при оптимизации ее рассудочной способности.
- Выжимка знаний: Тонкая настройка моделей с открытым исходным кодом Qwen и Llama напрямую с использованием 800 тыс. образцов, отобранных DeepSeek-R1.
Подробные методы и процедуры:

DeepSeek-R1-Zero: Обучение с подкреплением для базовых моделей
- Алгоритм обучения с подкреплением: Использует алгоритм оптимизации групповой политики (GRPO), который не требует критик модель, оценивает исходный уровень по групповым баллам и снижает затраты на обучение.
- Моделирование вознаграждения: Использует система вознаграждения, основанная на правилах, включая

- Награда за точность: Оценивает правильность ответа, например, правильность конечного результата ответ на математическую задачу, обратная связь от компилятора для проблем с кодом.
- Формат вознаграждения: Поощряет модель поместите мыслительный процесс между
и
теги.
Шаблон обучения: Шаблон, содержащий и
теги предназначены для направьте модель так, чтобы она сначала вывела мыслительный процесс, а затем окончательный ответ.

- Самоэволюционный процесс: DeepSeek-R1-Zero продемонстрирован саморазвивающиеся характеристики во время обучения, и смог самостоятельно освоить более сложные стратегии рассуждения, такие как размышление и исследование множественных путей решения проблем.

DeepSeek-R1: Обучение с подкреплением в сочетании с холодным стартом

- Холодный старт: Чтобы решить DeepSeek-R1-Zero's проблема читаемости, DeepSeek-R1 сначала собирает небольшое количество высококачественные данные CoT и настраивает модель DeepSeek-V3-Base для служить начальным субъектом для обучения с подкреплением. Данные холодного старта содержит сводные теги и недружелюбные ответы отфильтровываются.
- Метод: 1) Выберите высококачественные длинные данные COT. 2) Добавьте теги.
- Преимущества: 1) Оптимизированная читаемость (решает проблему многоязычности R1-Zero или проблему формата markdown). 2) Тщательно отобранные данные, удобные для пользователя, могут продолжать улучшать производительность R1-Zero.
- Вопрос: Зачем решать проблему читаемости? Разве нельзя сделать лучше, не решая ее (например, уменьшить длину вывода и сделать вывод более эффективным)?
- RL, ориентированный на рассуждение: На основе модели холодного старта, процесс обучения с подкреплением, аналогичный Применяется DeepSeek-R1-Zero, направленный на улучшение возможностей модели в таких задачах, как кодирование, математика, научное и логическое мышление.. Чтобы решить проблему смешанных языков (многоязычное рассуждение), награды за языковую согласованность представлены.
- Вопрос: Как обучаются заданиям и наборам данных на научное и логическое мышление?
- Отбраковка и SFT: После того, как обучение с подкреплением, основанное на выводах, сходится, полученная контрольная точка используется для выборка отклонения для генерации новых данных SFT, которые объединяются с данными из DeepSeek-V3 для расширения возможностей модели при написании, ролевых играх и выполнении общих задач.
- Цель:
- Эта фаза начинается после Процесс обучения с подкреплением (RL), ориентированный на вывод, сходится.
- Основная цель — собирать данные контролируемой тонкой настройки (SFT) для использования в последующих раундах обучения.
- В отличие от первоначальных данных холодного старта, которые фокусируются только на выводах, эта фаза направлена на расширить возможности модели для охвата письма, ролевых игр и других общих задач, а не только умозаключений.
- Сбор данных – Данные вывода:
- Метод: Используйте контрольные точки, полученные в ходе фазы RL, ориентированной на вывод, для генерации траекторий вывода путем выборки отклонения.
- Расширение набора данных: В отличие от предыдущей фазы RL, которая использовала только данные о вознаграждении на основе правил, здесь вводятся данные о вознаграждении без правил. В некоторых случаях для определения ответа используется генеративная модель вознаграждения (DeepSeek-V3).
- Фильтрация данных: Для обеспечения качества и читаемости выходные данные фильтруются для удаления:
- цепочки мыслей, содержащие смешанные языки
- длинные абзацы
- блоки кода
- Отбор проб и выборка: Для каждого запроса было сгенерировано несколько ответов. Только «правильный» ответ был сохранен для набора данных.
- Размер набора данных: Примерно 600 000 обучающих примеров, связанных с выводами были собраны таким образом.
- Сбор данных – невыводимые данные:
- Охват: письмо, ответы на фактические вопросы (QA), самосознание и перевод.
- В статье упоминается использование Процесс DeepSeek-V3 и повторное использование части набора данных DeepSeek-V3 SFT для решения этих невыводимых задач. О 200 000 независимых от выводов выборок были собраны. (Примечание: подробности сбора невыводимых данных более подробно описаны в разделе 2.3.4)
- Использование собранных данных:
- Собранные данные по рассуждениям и нерассуждениям (всего около 800 000 образцов – 600 000 образцов с рассуждениями + 200 000 образцов без рассуждений) затем использовались для тонкая настройка модели DeepSeek-V3-Base для двух эпох. Эта точно настроенная модель затем использовалась на заключительном этапе RL, описанном в разделе 2.3.4.
- Резюме На этом этапе используются возможности вывода научились через RL генерировать разнообразный и высококачественный набор данных SFT. Этот набор данных усиливает возможности вывода, а также расширяет общие возможности модель для обучения на этапе окончательного согласования и улучшения.
- Цель:
- Обучение с подкреплением для всех сценариев: для дальнейшего согласования человеческих предпочтений реализуется вторая фаза обучения с подкреплением, которая позволяет повысить полезность и безвредность модели.
- Данные вывода: например, математика, код, логический вывод или контролируемые с помощью методов базы правил.
- Общие данные: модели вознаграждения по-прежнему используются для предоставления информации о предпочтениях для сложных и тонких сценариев. Модели, обученные с использованием парных данных, также оцениваются.
- Полезность: сосредоточьтесь только на окончательных итоговых результатах, что снижает помехи в процессе вывода.
- Безвредность: контролируйте весь процесс реагирования, чтобы снизить любые риски.
Модель дистилляции (Дистилляция):
- Для того чтобы получить более эффективную модель малого вывода, статья переносит способность вывода DeepSeek-R1 в модели с открытым исходным кодом серий Qwen и Llama. Процесс перегонки использует только контролируемую тонкую настройку (SFT) и не использует стадию обучения с подкреплением.
Заключение
DeepSeek-R1-Zero: Демонстрирует потенциал чистое обучение с подкреплением в мотивации способности делать выводы LLM и может достичь высоких результатов не полагаясь на контролируемые данные.


- Ага-момент: Красота обучения с подкреплением (момент просветления модели, когда она выделяет больше времени на обдумывание проблемы, обучаясь переоценивать ее первоначальный подход)
- Длина вывода продолжает увеличиваться (время обдумывания продолжает увеличиваться)
- Точность продолжает улучшаться (выборка 16 ответов для расчета точности)

- DeepSeek-R1: Дальнейшее повышение производительности модели за счет объединения данных холодного старта и тонкой настройки итеративного обучения с подкреплением, достижение уровня, сопоставимого с OpenAI-01-1217 по различным задачам.

- Извлечение знаний: Используя DeepSeek-R1 в качестве модели-учителя, было сгенерировано 800 тыс. обучающих образцов и несколько небольших, плотных моделей были точно настроены. Результаты показывают, что это Метод дистилляции может значительно улучшить способность вывода маленькие модели.
Ограничение
- Ограничение 1: Необходимо улучшить общие возможности DeepSeek-R1. DeepSeek-R1 по-прежнему уступает DeepSeek-V3 в таких задачах, как вызовы функций, многоходовой диалог, сложная ролевая игра и вывод JSON.
- Ограничение 2: Проблема смешения языков. DeepSeek-R1 может столкнуться с проблемой смешения языков при обработке запросов на языках, отличных от китайского и английского, например, при рассуждениях и ответах на английском языке.
- Ограничение 3: Оперативная чувствительность. DeepSeek-R1 чувствителен к подсказкам, и редкие подсказки снизят его производительность.
- Ограничение 4: Ограниченное применение к задачам разработки программного обеспечения. Из-за длительного времени оценки крупномасштабное обучение с подкреплением не было в полной мере применено к задачам программной инженерии, а DeepSeek-R1 имеет ограниченное улучшение по сравнению с DeepSeek-V3 в тестах программной инженерии.