Сегодня мы поделимся DeepSeek R1, Название: DeepSeek-R1: Стимулирование способности к рассуждению у LLM посредством обучения с подкреплением: Стимулирование способности к рассуждению у LLM посредством обучения с подкреплением.

В данной статье представлено первое поколение моделей рассуждений DeepSeek, DeepSeek-R1-Zero и DeepSeek-R1. Модель DeepSeek-R1-Zero была обучена с помощью крупномасштабное обучение с подкреплением (RL) без контролируемой тонкой настройки (SFT) в качестве начального шага, демонстрирующее потенциал RL и превосходные возможности рассуждения это приносит. Благодаря обучению с подкреплением, DeepSeek-R1-Zero естественным образом проявил себя со множеством мощных и интересных моделей поведения при рассуждениях.. Для дальнейшей оптимизации некоторых проблем с R1-Zero (лингвистические путаницы, улучшенная способность к обобщению) они выпустили DeepSeek-R1, который сочетает многоэтапное обучение и тонкую настройку данных холодного старта перед обучением с подкреплением. DeepSeek-R1 достиг сопоставимой производительности на задаче рассуждения с OpenAI-01-1217. Чтобы поддержать исследовательское сообщество, они модели с открытым исходным кодом DeepSeek-R1-Zero, DeepSeek-R1 и шесть плотных моделей (1.5B, 7B, 8B, 14B, 32B, 70B), созданные на основе DeepSeek-R1, которые основаны на Qwen и Llama.

Характеристики метода можно обобщить следующим образом:

  1. Обучение с подкреплением применяется непосредственно к базовой модели, не полагаясь на контролируемую тонкую настройку (SFT) в качестве начального шага.
  2. Представлен процесс разработки DeepSeek-R1, который объединяет две фазы обучения с подкреплением и две контролируемые фазы тонкой настройки, чтобы заложить основу для рассуждающих и нерассуждающих возможностей модели.
  3. Эффективность небольших моделей при решении задач на рассуждение улучшается за счет переноса шаблонов рассуждений больших моделей на небольшие модели посредством Методы дистилляции.

Обзор

Мотивация

  • Современные большие языковые модели (LLM) достигли значительного прогресса в задачах вывода, но все еще сталкиваются с трудностями.
  • Потенциал чистого Подкреплённое обучение (RL) в улучшении способности рассуждать у LLM не было полностью изучено, особенно без опоры на контролируемые данные.
  • Модели, обученные с помощью RL, такие как DeepSeek-R1-Zero, есть проблемы с читаемостью и смешением языков (например, смешанный разговор на китайском и английском языках), и требуется дальнейшее улучшение для повышения удобства использования.

Методы

DeepSeek-R1-Ноль: Использует DeepSeek-V3-Base в качестве базовой модели и GRPO (Group Relative Policy Optimization) как метод обучения с подкреплением рамки, без контролируемых данных для улучшения производительности модели в выводе.

DeepSeek-R1:

  • Холодный старт: Собирает небольшое количество высококачественных длинных данных CoT (цепочка мыслей) и точно настраивает DeepSeek-V3-Базовая модель как начальный участник обучения с подкреплением.
  • Обучение с подкреплением, ориентированное на рассуждения: Одинаковый применяется процесс обучения с подкреплением, как DeepSeek-R1-Zero, но с акцентом на улучшение способностей модели к рассуждению в таких областях, как кодирование, математика, наука и логическое мышление. Награды за языковую согласованность вводятся для смягчения проблемы языкового смешивания, которая возникает в CoT.
  • Отбраковка образцов и контролируемая тонкая настройка: Использует конвергентную контрольную точку обучения с подкреплением для собирать данные контролируемой тонкой настройки (SFT) для последующего обучения.
  • Обучение с подкреплением для всех сценариев: реализует фазу обучения с подкреплением второго уровня, которая направлена на улучшение полезность и безвредность модели при оптимизации ее рассудочной способности.
  • Выжимка знаний: Тонкая настройка моделей с открытым исходным кодом Qwen и Llama напрямую с использованием 800 тыс. образцов, отобранных DeepSeek-R1.

Подробные методы и процедуры:

DeepSeek-R1-Zero: Обучение с подкреплением для базовых моделей

  • Алгоритм обучения с подкреплением: Использует алгоритм оптимизации групповой политики (GRPO), который не требует критик модель, оценивает исходный уровень по групповым баллам и снижает затраты на обучение.
  • Моделирование вознаграждения: Использует система вознаграждения, основанная на правилах, включая
  • Награда за точность: Оценивает правильность ответа, например, правильность конечного результата ответ на математическую задачу, обратная связь от компилятора для проблем с кодом.
  • Формат вознаграждения: Поощряет модель поместите мыслительный процесс между и теги.

Шаблон обучения: Шаблон, содержащий и теги предназначены для направьте модель так, чтобы она сначала вывела мыслительный процесс, а затем окончательный ответ.

  • Самоэволюционный процесс: DeepSeek-R1-Zero продемонстрирован саморазвивающиеся характеристики во время обучения, и смог самостоятельно освоить более сложные стратегии рассуждения, такие как размышление и исследование множественных путей решения проблем.

DeepSeek-R1: Обучение с подкреплением в сочетании с холодным стартом

  • Холодный старт: Чтобы решить DeepSeek-R1-Zero's проблема читаемости, DeepSeek-R1 сначала собирает небольшое количество высококачественные данные CoT и настраивает модель DeepSeek-V3-Base для служить начальным субъектом для обучения с подкреплением. Данные холодного старта содержит сводные теги и недружелюбные ответы отфильтровываются.
    • Метод: 1) Выберите высококачественные длинные данные COT. 2) Добавьте теги.
    • Преимущества: 1) Оптимизированная читаемость (решает проблему многоязычности R1-Zero или проблему формата markdown). 2) Тщательно отобранные данные, удобные для пользователя, могут продолжать улучшать производительность R1-Zero.
    • Вопрос: Зачем решать проблему читаемости? Разве нельзя сделать лучше, не решая ее (например, уменьшить длину вывода и сделать вывод более эффективным)?
  • RL, ориентированный на рассуждение: На основе модели холодного старта, процесс обучения с подкреплением, аналогичный Применяется DeepSeek-R1-Zero, направленный на улучшение возможностей модели в таких задачах, как кодирование, математика, научное и логическое мышление.. Чтобы решить проблему смешанных языков (многоязычное рассуждение), награды за языковую согласованность представлены.
    • Вопрос: Как обучаются заданиям и наборам данных на научное и логическое мышление?
  • Отбраковка и SFT: После того, как обучение с подкреплением, основанное на выводах, сходится, полученная контрольная точка используется для выборка отклонения для генерации новых данных SFT, которые объединяются с данными из DeepSeek-V3 для расширения возможностей модели при написании, ролевых играх и выполнении общих задач.
    • Цель:
      • Эта фаза начинается после Процесс обучения с подкреплением (RL), ориентированный на вывод, сходится.
      • Основная цель — собирать данные контролируемой тонкой настройки (SFT) для использования в последующих раундах обучения.
      • В отличие от первоначальных данных холодного старта, которые фокусируются только на выводах, эта фаза направлена на расширить возможности модели для охвата письма, ролевых игр и других общих задач, а не только умозаключений.
    • Сбор данных – Данные вывода:
      • Метод: Используйте контрольные точки, полученные в ходе фазы RL, ориентированной на вывод, для генерации траекторий вывода путем выборки отклонения.
      • Расширение набора данных: В отличие от предыдущей фазы RL, которая использовала только данные о вознаграждении на основе правил, здесь вводятся данные о вознаграждении без правил. В некоторых случаях для определения ответа используется генеративная модель вознаграждения (DeepSeek-V3).
      • Фильтрация данных: Для обеспечения качества и читаемости выходные данные фильтруются для удаления:
        • цепочки мыслей, содержащие смешанные языки
        • длинные абзацы
        • блоки кода
      • Отбор проб и выборка: Для каждого запроса было сгенерировано несколько ответов. Только «правильный» ответ был сохранен для набора данных.
      • Размер набора данных: Примерно 600 000 обучающих примеров, связанных с выводами были собраны таким образом.
    • Сбор данных – невыводимые данные:
      • Охват: письмо, ответы на фактические вопросы (QA), самосознание и перевод.
      • В статье упоминается использование Процесс DeepSeek-V3 и повторное использование части набора данных DeepSeek-V3 SFT для решения этих невыводимых задач. О 200 000 независимых от выводов выборок были собраны. (Примечание: подробности сбора невыводимых данных более подробно описаны в разделе 2.3.4)
    • Использование собранных данных:
      • Собранные данные по рассуждениям и нерассуждениям (всего около 800 000 образцов – 600 000 образцов с рассуждениями + 200 000 образцов без рассуждений) затем использовались для тонкая настройка модели DeepSeek-V3-Base для двух эпох. Эта точно настроенная модель затем использовалась на заключительном этапе RL, описанном в разделе 2.3.4.
    • Резюме На этом этапе используются возможности вывода научились через RL генерировать разнообразный и высококачественный набор данных SFT. Этот набор данных усиливает возможности вывода, а также расширяет общие возможности модель для обучения на этапе окончательного согласования и улучшения.
  • Обучение с подкреплением для всех сценариев: для дальнейшего согласования человеческих предпочтений реализуется вторая фаза обучения с подкреплением, которая позволяет повысить полезность и безвредность модели.
    • Данные вывода: например, математика, код, логический вывод или контролируемые с помощью методов базы правил.
    • Общие данные: модели вознаграждения по-прежнему используются для предоставления информации о предпочтениях для сложных и тонких сценариев. Модели, обученные с использованием парных данных, также оцениваются.
    • Полезность: сосредоточьтесь только на окончательных итоговых результатах, что снижает помехи в процессе вывода.
    • Безвредность: контролируйте весь процесс реагирования, чтобы снизить любые риски.

Модель дистилляции (Дистилляция):

  • Для того чтобы получить более эффективную модель малого вывода, статья переносит способность вывода DeepSeek-R1 в модели с открытым исходным кодом серий Qwen и Llama. Процесс перегонки использует только контролируемую тонкую настройку (SFT) и не использует стадию обучения с подкреплением.

Заключение

DeepSeek-R1-Zero: Демонстрирует потенциал чистое обучение с подкреплением в мотивации способности делать выводы LLM и может достичь высоких результатов не полагаясь на контролируемые данные.

  • Ага-момент: Красота обучения с подкреплением (момент просветления модели, когда она выделяет больше времени на обдумывание проблемы, обучаясь переоценивать ее первоначальный подход)
  • Длина вывода продолжает увеличиваться (время обдумывания продолжает увеличиваться)
  • Точность продолжает улучшаться (выборка 16 ответов для расчета точности)
  • DeepSeek-R1: Дальнейшее повышение производительности модели за счет объединения данных холодного старта и тонкой настройки итеративного обучения с подкреплением, достижение уровня, сопоставимого с OpenAI-01-1217 по различным задачам.
  • Извлечение знаний: Используя DeepSeek-R1 в качестве модели-учителя, было сгенерировано 800 тыс. обучающих образцов и несколько небольших, плотных моделей были точно настроены. Результаты показывают, что это Метод дистилляции может значительно улучшить способность вывода маленькие модели.

Ограничение

  • Ограничение 1: Необходимо улучшить общие возможности DeepSeek-R1. DeepSeek-R1 по-прежнему уступает DeepSeek-V3 в таких задачах, как вызовы функций, многоходовой диалог, сложная ролевая игра и вывод JSON.
  • Ограничение 2: Проблема смешения языков. DeepSeek-R1 может столкнуться с проблемой смешения языков при обработке запросов на языках, отличных от китайского и английского, например, при рассуждениях и ответах на английском языке.
  • Ограничение 3: Оперативная чувствительность. DeepSeek-R1 чувствителен к подсказкам, и редкие подсказки снизят его производительность.
  • Ограничение 4: Ограниченное применение к задачам разработки программного обеспечения. Из-за длительного времени оценки крупномасштабное обучение с подкреплением не было в полной мере применено к задачам программной инженерии, а DeepSeek-R1 имеет ограниченное улучшение по сравнению с DeepSeek-V3 в тестах программной инженерии.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *