Раскрыта технология DeepSeek-R1: основные принципы статьи раскрыты и ключ к прорывной производительности модели раскрыт

Сегодня мы поделимся DeepSeek R1, Название: DeepSeek-R1: Стимулирование способности к рассуждению у LLM посредством обучения с подкреплением: Стимулирование способности к рассуждению у LLM посредством обучения с подкреплением.

В данной статье представлено первое поколение моделей рассуждений DeepSeek, DeepSeek-R1-Zero и DeepSeek-R1. Модель DeepSeek-R1-Zero была обучена с помощью крупномасштабное обучение с подкреплением (RL) без контролируемой тонкой настройки (SFT) в качестве начального шага, демонстрирующее потенциал RL и превосходные возможности рассуждения это приносит. Благодаря обучению с подкреплением, DeepSeek-R1-Zero естественным образом проявил себя со множеством мощных и интересных моделей поведения при рассуждениях.. Для дальнейшей оптимизации некоторых проблем с R1-Zero (лингвистические путаницы, улучшенная способность к обобщению) они выпустили DeepSeek-R1, который сочетает многоэтапное обучение и тонкую настройку данных холодного старта перед обучением с подкреплением. DeepSeek-R1 достиг сопоставимой производительности на задаче рассуждения с OpenAI-01-1217. Чтобы поддержать исследовательское сообщество, они модели с открытым исходным кодом DeepSeek-R1-Zero, DeepSeek-R1 и шесть плотных моделей (1.5B, 7B, 8B, 14B, 32B, 70B), созданные на основе DeepSeek-R1, которые основаны на Qwen и Llama.

Характеристики метода можно обобщить следующим образом:

Обучение с подкреплением применяется непосредственно к базовой модели, не полагаясь на контролируемую тонкую настройку (SFT) в качестве начального шага.
Представлен процесс разработки DeepSeek-R1, который объединяет две фазы обучения с подкреплением и две контролируемые фазы тонкой настройки, чтобы заложить основу для рассуждающих и нерассуждающих возможностей модели.
Эффективность небольших моделей при решении задач на рассуждение улучшается за счет переноса шаблонов рассуждений больших моделей на небольшие модели посредством Методы дистилляции.

Оглавление

Обзор

Заголовок: DeepSeek-R1: Стимулирование способности к рассуждению у студентов магистратуры с помощью обучения с подкреплением
Авторы: DeepSeek-AI
Гитхаб: deepseek R1

Мотивация

Современные большие языковые модели (LLM) достигли значительного прогресса в задачах вывода, но все еще сталкиваются с трудностями.
Потенциал чистого Подкреплённое обучение (RL) в улучшении способности рассуждать у LLM не было полностью изучено, особенно без опоры на контролируемые данные.
Модели, обученные с помощью RL, такие как DeepSeek-R1-Zero, есть проблемы с читаемостью и смешением языков (например, смешанный разговор на китайском и английском языках), и требуется дальнейшее улучшение для повышения удобства использования.

Методы

DeepSeek-R1-Ноль: Использует DeepSeek-V3-Base в качестве базовой модели и GRPO (Group Relative Policy Optimization) как метод обучения с подкреплением рамки, без контролируемых данных для улучшения производительности модели в выводе.

DeepSeek-R1:

Холодный старт: Собирает небольшое количество высококачественных длинных данных CoT (цепочка мыслей) и точно настраивает DeepSeek-V3-Базовая модель как начальный участник обучения с подкреплением.
Обучение с подкреплением, ориентированное на рассуждения: Одинаковый применяется процесс обучения с подкреплением, как DeepSeek-R1-Zero, но с акцентом на улучшение способностей модели к рассуждению в таких областях, как кодирование, математика, наука и логическое мышление. Награды за языковую согласованность вводятся для смягчения проблемы языкового смешивания, которая возникает в CoT.
Отбраковка образцов и контролируемая тонкая настройка: Использует конвергентную контрольную точку обучения с подкреплением для собирать данные контролируемой тонкой настройки (SFT) для последующего обучения.
Обучение с подкреплением для всех сценариев: реализует фазу обучения с подкреплением второго уровня, которая направлена на улучшение полезность и безвредность модели при оптимизации ее рассудочной способности.
Выжимка знаний: Тонкая настройка моделей с открытым исходным кодом Qwen и Llama напрямую с использованием 800 тыс. образцов, отобранных DeepSeek-R1.

Подробные методы и процедуры:

DeepSeek-R1-Zero: Обучение с подкреплением для базовых моделей

Алгоритм обучения с подкреплением: Использует алгоритм оптимизации групповой политики (GRPO), который не требует критик модель, оценивает исходный уровень по групповым баллам и снижает затраты на обучение.
Моделирование вознаграждения: Использует система вознаграждения, основанная на правилах, включая

Награда за точность: Оценивает правильность ответа, например, правильность конечного результата ответ на математическую задачу, обратная связь от компилятора для проблем с кодом.
Формат вознаграждения: Поощряет модель поместите мыслительный процесс между и теги.

Шаблон обучения: Шаблон, содержащий и теги предназначены для направьте модель так, чтобы она сначала вывела мыслительный процесс, а затем окончательный ответ.

Самоэволюционный процесс: DeepSeek-R1-Zero продемонстрирован саморазвивающиеся характеристики во время обучения, и смог самостоятельно освоить более сложные стратегии рассуждения, такие как размышление и исследование множественных путей решения проблем.

DeepSeek-R1: Обучение с подкреплением в сочетании с холодным стартом

Холодный старт: Чтобы решить DeepSeek-R1-Zero's проблема читаемости, DeepSeek-R1 сначала собирает небольшое количество высококачественные данные CoT и настраивает модель DeepSeek-V3-Base для служить начальным субъектом для обучения с подкреплением. Данные холодного старта содержит сводные теги и недружелюбные ответы отфильтровываются.
- Метод: 1) Выберите высококачественные длинные данные COT. 2) Добавьте теги.
- Преимущества: 1) Оптимизированная читаемость (решает проблему многоязычности R1-Zero или проблему формата markdown). 2) Тщательно отобранные данные, удобные для пользователя, могут продолжать улучшать производительность R1-Zero.
- Вопрос: Зачем решать проблему читаемости? Разве нельзя сделать лучше, не решая ее (например, уменьшить длину вывода и сделать вывод более эффективным)?
RL, ориентированный на рассуждение: На основе модели холодного старта, процесс обучения с подкреплением, аналогичный Применяется DeepSeek-R1-Zero, направленный на улучшение возможностей модели в таких задачах, как кодирование, математика, научное и логическое мышление.. Чтобы решить проблему смешанных языков (многоязычное рассуждение), награды за языковую согласованность представлены.
- Вопрос: Как обучаются заданиям и наборам данных на научное и логическое мышление?
Отбраковка и SFT: После того, как обучение с подкреплением, основанное на выводах, сходится, полученная контрольная точка используется для выборка отклонения для генерации новых данных SFT, которые объединяются с данными из DeepSeek-V3 для расширения возможностей модели при написании, ролевых играх и выполнении общих задач.
- Цель:
  - Эта фаза начинается после Процесс обучения с подкреплением (RL), ориентированный на вывод, сходится.
  - Основная цель — собирать данные контролируемой тонкой настройки (SFT) для использования в последующих раундах обучения.
  - В отличие от первоначальных данных холодного старта, которые фокусируются только на выводах, эта фаза направлена на расширить возможности модели для охвата письма, ролевых игр и других общих задач, а не только умозаключений.
- Сбор данных – Данные вывода:
  - Метод: Используйте контрольные точки, полученные в ходе фазы RL, ориентированной на вывод, для генерации траекторий вывода путем выборки отклонения.
  - Расширение набора данных: В отличие от предыдущей фазы RL, которая использовала только данные о вознаграждении на основе правил, здесь вводятся данные о вознаграждении без правил. В некоторых случаях для определения ответа используется генеративная модель вознаграждения (DeepSeek-V3).
  - Фильтрация данных: Для обеспечения качества и читаемости выходные данные фильтруются для удаления:
    - цепочки мыслей, содержащие смешанные языки
    - длинные абзацы
    - блоки кода
  - Отбор проб и выборка: Для каждого запроса было сгенерировано несколько ответов. Только «правильный» ответ был сохранен для набора данных.
  - Размер набора данных: Примерно 600 000 обучающих примеров, связанных с выводами были собраны таким образом.
- Сбор данных – невыводимые данные:
  - Охват: письмо, ответы на фактические вопросы (QA), самосознание и перевод.
  - В статье упоминается использование Процесс DeepSeek-V3 и повторное использование части набора данных DeepSeek-V3 SFT для решения этих невыводимых задач. О 200 000 независимых от выводов выборок были собраны. (Примечание: подробности сбора невыводимых данных более подробно описаны в разделе 2.3.4)
- Использование собранных данных:
  - Собранные данные по рассуждениям и нерассуждениям (всего около 800 000 образцов – 600 000 образцов с рассуждениями + 200 000 образцов без рассуждений) затем использовались для тонкая настройка модели DeepSeek-V3-Base для двух эпох. Эта точно настроенная модель затем использовалась на заключительном этапе RL, описанном в разделе 2.3.4.
- Резюме На этом этапе используются возможности вывода научились через RL генерировать разнообразный и высококачественный набор данных SFT. Этот набор данных усиливает возможности вывода, а также расширяет общие возможности модель для обучения на этапе окончательного согласования и улучшения.
Обучение с подкреплением для всех сценариев: для дальнейшего согласования человеческих предпочтений реализуется вторая фаза обучения с подкреплением, которая позволяет повысить полезность и безвредность модели.
- Данные вывода: например, математика, код, логический вывод или контролируемые с помощью методов базы правил.
- Общие данные: модели вознаграждения по-прежнему используются для предоставления информации о предпочтениях для сложных и тонких сценариев. Модели, обученные с использованием парных данных, также оцениваются.
- Полезность: сосредоточьтесь только на окончательных итоговых результатах, что снижает помехи в процессе вывода.
- Безвредность: контролируйте весь процесс реагирования, чтобы снизить любые риски.

Модель дистилляции (Дистилляция):

Для того чтобы получить более эффективную модель малого вывода, статья переносит способность вывода DeepSeek-R1 в модели с открытым исходным кодом серий Qwen и Llama. Процесс перегонки использует только контролируемую тонкую настройку (SFT) и не использует стадию обучения с подкреплением.

Заключение

DeepSeek-R1-Zero: Демонстрирует потенциал чистое обучение с подкреплением в мотивации способности делать выводы LLM и может достичь высоких результатов не полагаясь на контролируемые данные.

Ага-момент: Красота обучения с подкреплением (момент просветления модели, когда она выделяет больше времени на обдумывание проблемы, обучаясь переоценивать ее первоначальный подход)
Длина вывода продолжает увеличиваться (время обдумывания продолжает увеличиваться)
Точность продолжает улучшаться (выборка 16 ответов для расчета точности)

DeepSeek-R1: Дальнейшее повышение производительности модели за счет объединения данных холодного старта и тонкой настройки итеративного обучения с подкреплением, достижение уровня, сопоставимого с OpenAI-01-1217 по различным задачам.

Извлечение знаний: Используя DeepSeek-R1 в качестве модели-учителя, было сгенерировано 800 тыс. обучающих образцов и несколько небольших, плотных моделей были точно настроены. Результаты показывают, что это Метод дистилляции может значительно улучшить способность вывода маленькие модели.

Ограничение

Ограничение 1: Необходимо улучшить общие возможности DeepSeek-R1. DeepSeek-R1 по-прежнему уступает DeepSeek-V3 в таких задачах, как вызовы функций, многоходовой диалог, сложная ролевая игра и вывод JSON.
Ограничение 2: Проблема смешения языков. DeepSeek-R1 может столкнуться с проблемой смешения языков при обработке запросов на языках, отличных от китайского и английского, например, при рассуждениях и ответах на английском языке.
Ограничение 3: Оперативная чувствительность. DeepSeek-R1 чувствителен к подсказкам, и редкие подсказки снизят его производительность.
Ограничение 4: Ограниченное применение к задачам разработки программного обеспечения. Из-за длительного времени оценки крупномасштабное обучение с подкреплением не было в полной мере применено к задачам программной инженерии, а DeepSeek-R1 имеет ограниченное улучшение по сравнению с DeepSeek-V3 в тестах программной инженерии.

Раскрыта технология DeepSeek-R1: основные принципы статьи раскрыты и ключ к прорывной производительности модели раскрыт

Обзор

Мотивация

Методы

Заключение

Ограничение

Чего может добиться Deepseek? Даже OpenAI не может этого сделать?

Gemini 2.0 доминирует в чартах, в то время как DeepSeek V3 плачет по своей цене, и рождается новый экономически эффективный чемпион!

Диалог a16z с 27-летним генеральным директором: AI Agent имеет огромный эффект рычага, и долгосрочное ценообразование будет связано с затратами на рабочую силу

OpenAI o3-mini против DeepSeek-R1: кто король нового поколения моделей ИИ?

Le Chat возглавляет рейтинги, имея инвестиции в сто миллиардов долларов. Является ли он третьей силой ИИ после США и Китая?

Недорогая модель Google серии Gemini 2.0 наступает: борьба за экономическую эффективность в крупных моделях усиливается

Добавить комментарий Отменить ответ

Обзор

Мотивация

Методы

Заключение

Ограничение

Похожие записи

Добавить комментарий Отменить ответ