1 Предыстория

Во время праздника весны, DeepSeek R1 снова привлекла всеобщее внимание, и даже статья с интерпретацией DeepSeek V3, которую мы написали ранее, также была повторно передана и много обсуждалась.

Хотя было проведено множество анализов и воспроизведений DeepSeek R1, здесь мы решили собрать некоторые соответствующие заметки для чтения.

Мы воспользуемся тремя основными схематическими диаграммами для демонстрации конструкции модели и ключевых технических моментов, излагая суть серии DeepSeek-R1 и обеспечивая более интуитивное понимание ее конструктивных идей.

Соответствующая статья [2501.12948] DeepSeek-R1: Стимулирование способности к рассуждению в магистрах права с помощью обучения с подкреплением

и соответствующая модель с открытым исходным кодом — DeepSeek-R1

2 Введение

2.1 Общие алгоритмы рассуждений

Как показано на рисунке 2 ниже, автор объясняет четыре общих алгоритма рассуждений. Хотя они различаются в конкретных деталях, все они включают две основные операции:

  • Расширение: генерировать токены для расширения пути решения.
  • Агрегация: интегрируйте результаты каждого пути для получения окончательного ответа. Увеличение вычислительных ресурсов на этапе расширения обычно может улучшить качество ответа на этапе агрегации.

Самосогласованность (SC). Как показано на рисунке 2a, основная идея SC заключается в генерации нескольких различных выходов (что может быть достигнуто путем изменения параметров выборки и т. д.), а затем голосовании за все ответы для выбора ответа с наивысшим процентом победителей. Ключевым параметром является количество возможных ответов n.

Алгоритм Rebase: Как показано на рисунке 2b ниже, Rebase также генерирует несколько выходов, но они генерируются в несколько шагов. Каждый шаг оценивается с использованием модели Reward, и результат с наивысшим баллом используется для продолжения генерации. Наконец, генерируется дерево рассуждений с несколькими ветвями. Ответ с наивысшим баллом (Best-of-N) выбирается на этапе агрегации.

Поиск по дереву Монте-Карло (MCTS): Как показано на рисунке 2c ниже, MCTS — это мощный алгоритм рассуждений, который расширяет узлы путем постепенной выборки и строит дерево решений до тех пор, пока не достигнет листового узла, содержащего потенциальное решение. Каждое решение оценивается с помощью модели вознаграждения или симуляции, и оценка распространяется обратно на его родительские узлы для обновления их значений вознаграждения, тем самым завершая итерацию. Ключевым параметром также является n, и увеличение n позволяет глубже и шире исследовать потенциальные решения.

Интернализованная когнитивная цепь (ICoT). Как показано на рисунке 2d ниже, новейшие LLM, такие как OpenAI o1 и Qwen-QWQ, могут интернализовать поведение рассуждения во время обучения без необходимости в явном алгоритме рассуждения. Основная идея заключается в создании последовательности CoT, разложении сложных проблем на несколько подпроблем, а затем итеративной оптимизации этих ответов путем размышления над предыдущими результатами, чтобы в конечном итоге прийти к решению.

2.2 Методы выравнивания рассуждений

2.2.1 Обзор метода Best-of-N

Короче говоря, Best-of-N — это метод выравнивания, широко используемый в выводе LLM, который направлен на обеспечение высокого качества сгенерированных результатов путем генерации нескольких ответов-кандидатов и выбора лучшего из них. Он состоит из трех основных процессов:

  1. Процесс генерации: для заданного запроса X метод Best-of-N генерирует N IID-ответов (Y₁, Y₂, …, Yₙ), где N часто называют «размером пакета».
  2. Механизм подсчета очков: каждый сгенерированный ответ оценивается с помощью модели вознаграждения для получения соответствующего балла {s(Y₁), s(Y₂), …, s(Yₙ)}.
  3. Выбор лучшего ответа: Наконец, в качестве результата выбирается ответ с наивысшей оценкой среди всех сгенерированных ответов, т. е. Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}.

Преимущества этого метода:

  1. Он позволяет эффективно избегать сложных этапов тонкой настройки, упрощая развертывание языковых моделей, которые были предварительно обучены или настроены с помощью инструкций.
  2. Он прост в реализации, понятен и по сути не содержит гиперпараметров: основным гиперпараметром является N, который можно динамически корректировать в процессе вывода.
  3. Он весьма конкурентоспособен с точки зрения качества генерации и даже может соперничать с некоторыми сложными пост-тренинговыми методами, такими как RLHF или DPO. Исследования показывают, что метод Best-of-N хорошо работает на кривой компромисса между вознаграждением и дивергенцией KL, даже превосходя другие сложные стратегии выравнивания.

Недостатки этого метода:

  1. вывод требует генерации N последовательностей, что может привести к значительным вычислительным издержкам. На практике разумное значение для N лежит в диапазоне от 4 до 128, но для того, чтобы конкурировать с наиболее продвинутыми методами постобучения, могут потребоваться более высокие значения N, например от 1000 до 60000, что может привести к почти неприемлемым вычислительным издержкам.

Метод «лучшего из N» часто используется для создания высококачественных наборов данных для последующей контролируемой тонкой настройки и сыграл ключевую роль в процессе выравнивания LLaMA-2 и LLaMA-3.

2.2.2 Метод OpenAI best-of-N

OpenAI впервые предложил выборку Best-of-N в [2009.01325] Учимся обобщать информацию, полученную от людей . В частности, он используется для оценки и оптимизации производительности сводной модели путем выбора наилучшего сводного результата, полученного из нескольких моделей. Этот метод помогает исследователям лучше понять взаимосвязь между различными метриками оценки и предпочтениями оценщиков-людей и используется для руководства обучением и оптимизацией модели.

OpenAI также использует выборку Best-of-N (выборку с отклонением) в последующих действиях. [2112.09332] WebGPT: Браузерная система вопросов и ответов с обратной связью от человека. В частности, фиксированное количество ответов (4, 16 или 64) выбирается из модели BC или модели RL, и тот, у которого наивысшая оценка модели вознаграждения, выбирается в качестве метода оптимизации для модели состязательного вознаграждения. Этот метод не требует дополнительного обучения, но увеличивает вычислительную сложность этапа вывода для достижения.

2.2.3 Метод Google BOND

На сайте [2407.14622] BOND: Согласовывая LLM с Best-of-N Distillation, авторы из Google предлагают Best-of-N Distillation (BOND), новый алгоритм RLHF, разработанный для моделирования стратегии выборки Best-of-N с помощью алгоритма сопоставления распределений без значительного увеличения вычислительных затрат во время вывода.

В частности, автор сначала выводит точное аналитическое распределение выборки Best-of-N и дает функцию вероятности выборки Best-of-N:

Во-вторых, авторы формулируют проблему как задачу сопоставления распределений;

затем авторы предлагают использовать дивергенцию Джеффри в качестве цели сопоставления распределений:

Наконец, для решения проблемы выбора N авторы предлагают итеративный метод BOND, который улучшает производительность стратегии путем итеративной перегонки распределения Best-of-N. Конкретные шаги включают:

Инициализируем вспомогательную стратегию якоря π(якорь).

Итеративно выполните BOND, чтобы выделить лучшее из N π(якорь) и обновить π(якорь) после каждого шага.

2.3 Надзор за процессом и надзор за результатами

Результат и процесс относятся к двум аспектам оценки модели вознаграждения:

  • Модель вознаграждения за результат: оцените, является ли конечный результат модели правильным или ожидаемым.
  • Модель вознаграждения за процесс: оценивает, являются ли этапы рассуждения и принятия решений модели в процессе получения результатов разумными и эффективными.

Например, в документе OpenAI Let's Verify Step by Step | OpenAI также упоминается:

  • Процессный надзор (контролируемый по результатам): включает предоставление обратной связи на каждом этапе процесса рассуждения модели. Модели вознаграждения с контролем по процессу (PRM) обучаются предсказывать правильность каждого этапа решения.
  • Outcome-supervised: Outcome-supervised обеспечивает обратную связь, основанную только на конечном результате рассуждений модели. Модели вознаграждения с контролем результатов (ORM) обучаются с использованием окончательного ответа решения, а правильность определяется автоматической проверкой.

2.4 Взлом вознаграждения

В RL взлом вознаграждения относится к явлению, при котором агент использует недостаток в конструкции функции вознаграждения, чтобы максимизировать кумулятивное вознаграждение способом, который не соответствует изначальному замыслу разработчика. Хотя такое поведение технически соответствует цели оптимизации функции вознаграждения, фактический эффект отклоняется от ожидаемой цели задачи и может даже привести к негативным последствиям.

Анализ ключевых моментов:

  1. Определение и проявление:
    1. Агент находит изъян в функции вознаграждения и получает высокое вознаграждение, используя «срезы пути» вместо реального решения проблемы.
    2. Например, робот-уборщик выключает свет, чтобы комната «выглядела» чистой, вместо того чтобы на самом деле ее убирать; игровой агент неоднократно набирает очки, не достигая цели уровня; решает не снижать скорость, чтобы сократить количество торможений, что представляет угрозу безопасности; создает бессмысленный контент, соответствующий ключевым словам, с целью обмана набрать высокие баллы.
  2. Корневые причины:
    1. Неполная конструкция функции вознаграждения: чрезмерное упрощение или неспособность охватить пограничные случаи.
    2. Несоответствие между целями и вознаграждениями: функция вознаграждения не в полной мере отражает реальную цель, заставляя агента оптимизироваться для «неправильной» цели.
  3. Решения:
    1. Улучшите дизайн вознаграждения: введите многомерные вознаграждения (например, безопасность, эффективность и т. д.) или динамически корректируйте функцию вознаграждения.
    2. Состязательная проверка: выявление «мошенничества» агента с помощью дополнительных механизмов.
    3. Ручное вмешательство и ограничения: установите поведенческие границы (например, уровень безопасности) или ручную обратную связь (например, RLHF).
    4. Обратное обучение с подкреплением (IRL): изучите более реалистичную функцию вознаграждения на примерах экспертов.
    5. Иерархическое обучение с подкреплением: разбейте задачу на подцели, чтобы снизить риск локальной оптимизации.
  4. Связь с переобучением:
    1. В обоих случаях наблюдается разрыв между показателями обучения и реальными результатами, но метод Reward Hacking больше внимания уделяет недостаткам конструкции функции вознаграждения, чем обобщающей способности модели.
  5. Краткое содержание:
    1. Reward Hacking раскрывает проблему согласования целей в RL. Решение этой проблемы требует сочетания разработки более надежных механизмов вознаграждения, введения внешних ограничений и включения предшествующих человеческих знаний, чтобы гарантировать, что поведение агента является как эффективным, так и соответствующим замыслу проекта.

3 DeepSeek-R1-ноль и DeepSeek-R1

3.1 Обзор

Предыдущие исследования в значительной степени опирались на большие объемы контролируемых данных для улучшения производительности модели. Это исследование показывает, что даже без SFT в качестве холодного старта крупномасштабное RL может значительно улучшить способность модели к рассуждению. Кроме того, введение небольшого объема данных холодного старта может дополнительно оптимизировать производительность. Ниже приведены модели, связанные с DeepSeek-R1:

  1. DeepSeek-R1-Zero: эта модель применяет RL непосредственно к базовой модели без каких-либо данных SFT.
  2. DeepSeek-R1: Эта модель применяет RL, начиная с контрольной точки, которая была точно настроена с помощью тысяч длинных образцов CoT.
  3. DeepSeek-R1-Distill-xx: Преобразует возможности рассуждений DeepSeek-R1 в небольшую плотную модель.

3.2 DeepSeek-R1-Ноль

На следующем рисунке показаны ключевые моменты обучения модели DeepSeek-R1-Zero:

PS: Следует отметить, что статья не содержит много информации о данных, используемых в процессе RL DeepSeek-R1-Zero. Однако есть некоторые пояснения процесса генерации данных и количества в последующем обучении R1, хотя они и не являются особенно конкретными.

3.2.1 Алгоритм RL

Чтобы снизить стоимость обучения RL, авторы используют собственный метод GRPO (Group Relative Policy Optimization) DeepSeek, [2402.03300] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. Этот метод отказывается от модели Critic, которая обычно сопоставима по размеру с моделью Policy, и вместо этого оценивает базовый уровень с использованием групповой оценки. Соответствующее объяснение показано на рисунке ниже (изображение из Twitter):

3.2.2 Моделирование вознаграждения

Награды являются источником обучающих сигналов и определяют направление оптимизации RL. Для обучения DeepSeek-R1-Zero авторы использовали систему наград, основанную на правилах, которая в основном состоит из двух типов наград:

  • Награда за точность: Оцените правильность ответа. Например:
    • В математических задачах с детерминированными результатами модель должна предоставлять окончательный ответ в определенном формате (например, внутри рамки), чтобы ее правильность можно было надежно проверить с помощью правил.
    • Аналогично, для проблем LeetCode обратная связь может быть создана с помощью компилятора на основе предопределенных тестовых случаев.
  • Вознаграждение за формат: Вознаграждение за формат также используется для того, чтобы заставить модель поместить свой мыслительный процесс между « " и " » теги.

При разработке DeepSeek-R1-Zero автор не использовал Outcome Neural Reward Model или Process Neural Reward Model, поскольку автор обнаружил, что Neural Reward Model может столкнуться с подменой вознаграждения (взломом вознаграждения) в масштабных процессах обучения с подкреплением; кроме того, переобучение Reward Model не только требует дополнительных ресурсов обучения, но и усложняет весь процесс обучения.

3.2.3 Шаблон обучения

Для обучения DeepSeek-R1-Zero авторы сначала разработали простой шаблон, чтобы направить базовую модель на выполнение заданных инструкций. Как показано в таблице 1 ниже, шаблон требует, чтобы DeepSeek-R1-Zero сгенерировал процесс вывода, а затем дал окончательный ответ.

Автор намеренно ограничил ограничения этой структурной рамки, чтобы избежать внесения какой-либо предвзятости в содержание (например, навязывания рефлексивного мышления или продвижения определенных стратегий решения проблем), чтобы гарантировать, что естественная эволюция модели может быть точно отслежена в процессе обучения с подкреплением.

3.2.4 Заключение

Надежные возможности рассуждения без данных SFT: запуская RL непосредственно из базовой модели, можно тщательно отслеживать траекторию эволюции модели без вмешательства SFT. Как показано на рисунке 3 ниже, время мышления DeepSeek-R1-Zero продолжало улучшаться (длина роста постепенно увеличивалась) на протяжении всего процесса обучения. Это улучшение не было результатом внешних корректировок, а стало естественным результатом внутреннего развития модели. DeepSeek-R1-Zero естественным образом приобрела способность решать все более сложные задачи вывода, такие как способность размышлять, используя расширенные расчеты времени тестирования.

DeepSeek-R1-Zero испытал «момент озарения» во время обучения. Как показано в Таблице 3 ниже, этот момент произошел на этапе средней версии модели. На этом этапе DeepSeek-R1-Zero научился выделять больше времени на обдумывание проблем, переоценивая свой первоначальный подход.

Голосование большинством: производительность DeepSeek-R1-Zero может быть дополнительно улучшена путем применения голосования большинством. Например, как показано в Таблице 2 ниже, после использования голосования большинством в тесте производительности AIME, его производительность подскакивает с 71.0% до 86.7%, превосходя OpenAI-o1-0912.

Слабые стороны: хотя DeepSeek-R1-Zero демонстрирует сильные возможности рассуждения и самостоятельно развивает неожиданное и мощное поведение рассуждения, он по-прежнему сталкивается с такими проблемами, как плохая читаемость и смешение языков.

3.3 DeepSeek-R1

Чтобы сделать процесс Reasoning более читаемым и поделиться им с открытым сообществом, авторы дополнительно изучают метод DeepSeek-R1, который использует удобные для человека данные холодного старта для RL. Вдохновленные DeepSeek-R1-Zero, возникают два естественных вопроса:

  1. Можно ли еще больше повысить производительность рассуждений или ускорить процесс сходимости, введя небольшой объем высококачественных данных в качестве холодного старта?
  2. Как можно обучить удобную для пользователя модель, которая не только генерирует понятные и связные CoT, но и демонстрирует сильные возможности обобщения?

В ответ на эти вопросы мы разработали процесс обучения для DeepSeek-R1. Процесс состоит из нескольких этапов, как описано ниже:

Стадия 1, как показано на рисунке ниже, тренирует промежуточное состояние DeepSeek-R1 посредством SFT + RL:

На следующем рисунке показаны этапы 2, 3 и 4:

  • Этап 2: вверху слева, создание 200 тыс. нелогических данных и 600 тыс. логических данных.
  • Этап 3: вверху справа, SFT + RL поезд DeepSeek-R1.
  • Стадия-4: нижняя цифра, дистилляция DeepSeek-R1-Distill-xx.

3.3.1 Холодный запуск (этап 1)

В отличие от DeepSeek-R1-Zero, для предотвращения нестабильной фазы холодного старта базовой модели в начале обучения RL, авторы построили и собрали небольшое количество данных Long CoT для DeepSeek-R1, чтобы настроить модель как начального актера RL. Для сбора этих данных авторы исследовали различные методы:

  • Использование подсказок с несколькими выстрелами с длинными примерами CoT
  • Побуждая модель напрямую генерировать подробные ответы с размышлением и проверкой
  • Сбор выходных данных DeepSeek-R1-Zero в удобном для восприятия формате
  • Уточнение результатов путем постобработки с ручной маркировкой

Авторы собрали в общей сложности тысячи данных Cold Start, которые были использованы для тонкой настройки DeepSeek-V3-Base в качестве отправной точки для RL. По сравнению с DeepSeek-R1-Zero, преимущества данных Cold Start включают

  • Удобочитаемость: Ответы DeepSeek-R1-Zero могут быть смешаны на нескольких языках или не иметь форматирования Markdown, используемого для выделения ответов пользователей. Напротив, при создании данных Cold Start для DeepSeek-R1 автор разработал читаемый формат, который включает резюме в конце каждого Ответа и отфильтровывает нечитаемые Ответы. Здесь выходной формат определяется как |special_token| |специальный_токен| , где reasoning_process — это цепочка рассуждений Запроса, а summary используется для обобщения результатов рассуждений.
  • Потенциал: Тщательно разработав комбинацию шаблонов данных холодного старта, априори разработанных человеком, авторы обнаружили, что ее производительность превосходит производительность DeepSeek-R1-Zero.

3.3.2 RL, основанное на рассуждениях (этап 1)

После тонкой настройки DeepSeek-V3-Base на данных Cold Start используется тот же крупномасштабный процесс обучения RL, что и DeepSeek-R1-Zero. Этот этап направлен на улучшение возможностей модели в задачах, требующих интенсивного рассуждения, особенно в задачах программирования, математики, естественных наук и логических рассуждений с понятными решениями.

Во время обучения авторы заметили, что CoT часто страдает от смешивания языков, особенно когда подсказка RL включает несколько языков. Чтобы облегчить проблему смешивания языков, авторы ввели вознаграждение за языковую согласованность в обучение RL, которое рассчитывается на основе доли слов на целевом языке в CoT. Хотя эксперименты по абляции показывают, что этот метод выравнивания приводит к небольшому снижению производительности модели, этот механизм вознаграждения согласуется с предпочтениями человека и повышает читаемость. Наконец, авторы напрямую добавляют точность задачи Reasoning к вознаграждению за языковую согласованность, чтобы сформировать окончательное вознаграждение, и реализуют обучение RL на точно настроенной модели, пока она не сойдется с задачей Reasoning.

3.3.3 Создание 800 000 выбранных данных (этап 2)

В то время как RL для Reasoning сходится, данные SFT собираются с использованием полученной контрольной точки для следующего раунда обучения. В отличие от начальных данных Cold Start, которые в основном фокусируются на Reasoning, этот этап включает данные из других доменов для улучшения возможностей модели в написании, ролевых играх и других задачах общего назначения. В частности, данные генерируются, а модель настраивается следующим образом:

  • Данные рассуждений: подсказки для рассуждений выбираются, а траектории рассуждений генерируются путем выполнения выборки отклонения из вышеупомянутой контрольной точки с обучением на основе RL (этап 1 1 1-го этапа). На предыдущем этапе были включены только данные, которые можно было оценить с использованием вознаграждений на основе правил. Однако на этом этапе набор данных был расширен за счет включения большего количества данных, некоторые из которых были сгенерированы с использованием модели вознаграждения, а реальные ответы оценивались путем подачи прогнозов модели в DeepSeek-V3 (DeepSeek V3 в качестве судьи). Кроме того, поскольку выходные данные модели иногда запутанны и трудны для чтения, цепочки мыслей на смешанном языке, длинные абзацы и блоки кода были отфильтрованы. Для каждой подсказки были отобраны несколько ответов, и были сохранены только правильные (Best-of-N). Всего было собрано около 600 000 обучающих образцов, связанных с рассуждениями.
  • Данные, не относящиеся к рассуждениям: такие как письмо, вопросы-факты, самосознание и перевод, использовали процесс DeepSeek-V3 и повторно использовали некоторые наборы данных SFT DeepSeek-V3. Для некоторых задач, не относящихся к рассуждениям, DeepSeek-V3 вызывается для генерации потенциальных CoT перед ответом на вопрос. Однако для простых запросов, таких как «Привет», в ответе не предоставляется цепочка мыслей. В итоге было собрано около 200 000 обучающих образцов, не относящихся к рассуждениям.

3.3.4 SFT и RL для всех сценариев (Этап-3)

На базе DeepSeek-V3-Base было выполнено два раунда тонкой настройки, в общей сложности около 800 000 выбранных образцов с использованием двух вышеупомянутых наборов данных (с рассуждениями и без рассуждений).

Для дальнейшего согласования модели с человеческими предпочтениями авторы реализовали вторую фазу RL, которая направлена на повышение полезности и безвредности модели, а также на совершенствование ее возможностей Reasoning. В частности, модель обучалась с помощью комбинации сигналов вознаграждения и различных распределений подсказок.

  • Для данных Reasoning применяется методология, описанная в DeepSeek-R1-Zero, с использованием механизма вознаграждения на основе правил для управления обучением модели в областях математики, программирования и логического мышления.
  • Для общих данных модель вознаграждения используется для захвата человеческих предпочтений в сложных и тонких ситуациях. Похожая стратегия пар предпочтений и распределения обучающих подсказок используется на основе процесса DeepSeek-V3.
  • С точки зрения полезности рассматривается только окончательное резюме, что гарантирует, что оценка будет сосредоточена на практичности и релевантности Ответа для пользователя, при этом минимизируя вмешательство в базовый процесс Рассуждения.
  • Что касается безвредности, то весь ответ модели всесторонне оценивается, включая процесс рассуждения и резюме, чтобы выявить и устранить любые потенциальные риски, предубеждения или вредоносный контент, которые могут возникнуть в процессе генерации.
  • В конечном итоге, путем интеграции сигналов вознаграждения и диверсификации распределения данных можно обучить модель, которая отдает приоритет как пользе, так и безвредности, а также демонстрирует превосходные результаты в рассуждениях.

3.3.5 Дистилляция (Стадия-4)

Чтобы оснастить более эффективную малую модель способностью к рассуждению DeepSeek-R1, авторы напрямую настроили модели с открытым исходным кодом Qwen и LLaMA, используя 800 000 образцов, отобранных в DeepSeek-R1-Stage-1. Результаты показывают, что этот метод прямой дистилляции значительно улучшает способность к рассуждению малых моделей. Базовые модели, используемые авторами, включают Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B и Llama-3.3-70B-Instruct. Llama-3.3 была выбрана, потому что ее способность к рассуждению немного лучше, чем Llama-3.1.

Для модели дистилляции автор использует только SFT и не включает стадию RL. Хотя введение RL может значительно улучшить производительность модели, главная цель автора здесь — продемонстрировать эффективность технологии дистилляции, а исследование стадии RL оставлено для последующих исследований.

PS: Кроме того, на самом деле можно использовать конечный DeepSeek-R1 для генерации вышеуказанных данных и реконструкции 800 000 данных, используемых для дистилляции, и дистиллированная модель может иметь лучший эффект; однако ценой этого является необходимость реконструкции данных.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *