Сегодня я хотел бы поделиться статьей из DeepSeek под названием «DeepSeekMath: Расширение границ математического мышления в моделях открытого языка».

В этой статье представлен DeepSeekMath 7B, который предварительно обучен на основе DeepSeek-Coder-Base-v1.5 7B коллекция из 120 млрд математических токенов, данных на естественном языке и кодов.

Модель достигла поразительного результата 51,7% в тестах MATH конкурентного уровня без использования внешних инструментов и методов голосования, приблизившись к уровню производительности Gemini-Ultra и GPT-4.

Способность DeepSeekMath 7B к математическому мышлению объясняется двумя ключевыми факторами: во-первых, посредством тщательно разработанный конвейер отбора данныхвысококачественные данные, связанные с математикой, итеративно извлекаются из общедоступных веб-данных.

Во-вторых, оптимизация групповой относительной политики (GRPO) Представлен вариант оптимизации проксимальной политики (PPO), который может улучшить способность к математическим рассуждениям, одновременно оптимизируя использование памяти PPO.

  1. Особенности метода можно обобщить следующим образом:Высококачественный математический корпус для предварительного обучения Был построен и тщательно спроектированный конвейер использовался для извлечения высококачественных математических данных из Common Crawl.
  2. Алгоритм GRPO Было предложено, что сокращает ресурсы, необходимые для обучения, и улучшает способность модели к математическому рассуждению. 3) Современная производительность был достигнуто в нескольких контрольных тестах по математическому мышлению.

Обзор

Заголовок: DeepSeekMath: Расширение границ математических рассуждений в моделях открытого языка

URL-адрес: кликните сюда

Авторы: Чжихун Шао, Пейи Ван, Цихао Чжу, Жуньсинь Сюй, Цзюньсяо Сун, Сяо Би, Хаовэй Чжан, Минчуань Чжан, ЮК Ли, Ю. Ву, Дая Го

Код: кликните сюда

Мотивация

Математическое рассуждение представляет собой значительную проблему для языковых моделей из-за сложности и структурированной природы математики. Самые продвинутые модели, такие как GPT-4 и Gemini-Ultra, являются мощными, но не общедоступными. Поэтому есть значительные возможности для улучшения производительности модели с открытым исходным кодом.

Сложность и структура: Математические рассуждения представляют собой серьезную проблему для языковых моделей ввиду сложности и структурированной природы математики.

Потенциал публичных данных: Общедоступные веб-данные могут содержать ценную математическую информацию, которую еще предстоит извлечь и использовать.

Методы

Сбор данных: Корпус DeepSeekMath из 120 млрд токенов был создан путем сбора высококачественных веб-данных, связанных с математикой, из Common Crawl с помощью итеративного конвейера.

Обучение моделей: Корпус использовался для предварительного обучения на основе DeepSeek-Coder-Base-v1.5 7B, а также был применен алгоритм точной настройки математических инструкций и оптимизации относительной политики группы (GRPO).

Алгоритм GRPO: GRPO — это усовершенствованный алгоритм обучения с подкреплением, который удаляет модель Critic из PPO и оценивает базовый уровень на основе групповой оценки, тем самым значительно сокращая ресурсы обучения.

Подробные методы и процедуры:

Сбор и обработка данных:

Сборка корпуса DeepSeekMath: Используя классификатор на основе fastText, извлечь 120 млрд математических токенов от Common Crawl для создания крупномасштабного, высококачественного предварительно обученного корпуса DeepSeekMath Corpus.

Итеративная фильтрация данных: Используется итеративная стратегия, использование OpenWebMath в качестве исходных данных для обучения начального классификатора, а затем использование этого классификатора для извлечения большего количества положительных примеров из Common Crawl, которые вручную аннотируются для постоянной оптимизации производительности классификатора.

Многоязычные функции: Корпус DeepSeekMath содержит многоязычные данные, что улучшает производительность модели на китайских математических тестах.

Обработка по очистке от загрязнений: Де-Обработка загрязнения выполняется на основе обучающих данных, чтобы избежать совпадения с тестовым эталоном..

Предварительная подготовка:

Инициализация модели на основе кода: Инициализация с использованием DeepSeek-Coder-Base-v1.5 7B модель оказалась более эффективной, чем инициализация из общей LLM.

Состав данных для предварительного обучения: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% Github code, 10% Common Crawl данные на естественном языке.

Параметры предварительной подготовки: Используется оптимизатор AdamW со скоростью обучения 4,2e-4, размером пакета 10 млн токенов и обучением 500 млрд токенов.

Тонкая настройка инструкции:

Постройте набор данных для тонкой настройки инструкций: Построить набор данных для точной настройки математических инструкций, содержащий 776 тыс. образцов, охватывающий различные математические области и уровни сложности, включая CoT, PoT и форматы вывода, интегрированные в инструменты для решения шагов.

Параметры тренировки: Размер партии 256, скорость обучения 5e-5, обучение 500 шагов.

Обучение с подкреплением – оптимизация групповой относительной политики (GRPO):

Предложить алгоритм GRPO: Предложить Вариант алгоритма PPO GRPO, который устраняет необходимость в модели Critic, используя групповые оценки для оценки базового уровня, тем самым сокращая ресурсы обучения.

Целевая функция: GRPO оптимизирует модель политики путем максимизации целевой функции, которая учитывает относительное преимущество внутригрупповых результатов и напрямую добавляет расхождение KL в качестве члена регуляризации.

Расчет преимущества: GRPO рассчитывает преимущество через внутригрупповые относительные вознаграждения, позволяющие избегать сравнений между группами и лучше соответствовать сравнительному характеру модели вознаграждения.

Поддерживает мониторинг как результатов, так и процесса: GRPO может поддерживать как мониторинг результатов, так и мониторинг процесса, а также более эффективно контролировать политику путем предоставления вознаграждений в конце каждого этапа вывода.

Итеративный RL: Использует итеративная стратегия RL для создания нового обучающего набора на основе результатов выборки модели политики, непрерывного обучения старой модели вознаграждения и использования новой модели вознаграждения для обновления модели политики.

Данные обучения: Использует задачи формата CoT, связанные с GSM8K и MATH в данных SFT, около 144K задач.

Параметры тренировки: Скорость обучения модели политики составляет 1e-6, коэффициент KL составляет 0,04, для каждой проблемы выбирается 64 выходных данных, максимальная длина составляет 1024, а размер обучающей партии составляет 1024.

Заключение

Вывод 1:DeepSeekMath 7B превосходит все модели с открытым исходным кодом по способности к математическим рассуждениям. В конкурентном тесте MATH DeepSeekMath 7B достиг точности 51,7%, что близко к уровню производительности Gemini-Ultra и GPT-4.

Вывод 2:Правильно спроектированные данные предварительной подготовки и алгоритмы GRPO являются ключом к успеху модели. Сочетание высококачественного математического корпуса и алгоритмов GRPO позволяет модели достичь значительного повышения производительности при решении задач математического обоснования.

Вывод 3:Обучение кодированию помогает улучшить способность к математическому мышлению. Добавление данных кода на этапе предварительного обучения может улучшить способность модели решать математические задачи как с использованием инструментов, так и без них.

Вывод 4: Ограниченная полезность данных arXiv: Вопреки прежним представлениям, данные arXiv оказались малоэффективными в улучшении математических рассуждений.

Ограничение

Возможности геометрии и доказательства относительно слабы: Хотя DeepSeekMath преуспевает в количественном обосновании, его возможности в геометрии и доказательстве все еще уступают моделям с закрытым исходным кодом. Это может быть связано с предвзятым выбором данных на этапах предварительной подготовки и тонкой настройки.

Недостаток — малая емкость выборки: DeepSeekMath уступает GPT-4 с точки зрения обучения на малых выборках, что может быть связано с ограничением размера модели.

Необходимы более эффективные методы обучения с подкреплением: Хотя методы обучения с подкреплением, предложенные в статье, эффективны, все еще есть возможности для совершенствования, например, как более эффективно использовать обратную связь от модели вознаграждения и как справляться с шумными сигналами вознаграждения.

Подробности

Исследование и анализ обучения с подкреплением

Обзор:

Введение в оптимизацию групповой относительной политики (GRPO): В статье предлагается новый алгоритм обучения с подкреплением, GRPO, как вариант Proximal Policy Optimization (PPO). Главной особенностью GRPO является то, что он отказывается от модели Critic, обычно используемой в PPO, и оценивает базовый уровень с помощью групповых оценок, тем самым значительно сокращая вычислительные ресурсы, необходимые для обучения.

Демонстрация эффективности GRPO: В статье экспериментально показано, что GRPO может эффективно улучшить производительность моделей тонкой настройки команд, включая как внутридоменные, так и внедоменные математические задачи.

Единая структура методов обучения с подкреплением: В статье предлагается единая структура для понимания различных методов обучения с подкреплением, таких как Тонкая настройка выборки отклонения (RFT), прямая оптимизация предпочтений (DPO), PPO и GRPO. В рамках данной структуры эти методы рассматриваются как прямые или упрощенные методы обучения с подкреплением.

Углубленное исследование элементов обучения с подкреплением: В статье подробно исследуются ключевые элементы обучения с подкреплением, такие как онлайн-обучение и офлайн-обучение, контроль результатов и контроль процесса, однораундовое обучение с подкреплением и итеративное обучение с подкреплением, посредством подробных экспериментов, и суммирует потенциальные направления повышения эффективности обучения с подкреплением.

Алгоритм GRPO (оптимизация групповой относительной политики)

Ограничения ППО: PPO — это широко используемый алгоритм обучения с подкреплением, но он требует обучения дополнительная модель Критика для оценки функции ценности, которая накладывает дополнительная вычислительная нагрузка и нагрузка на память. Кроме того, в сценарии LLM, Обучение модели критики может быть сложным, поскольку оно требует оценки выход каждого токена.

Основная идея GRPO: Основная идея GRPO заключается в том, чтобы отказаться от модели Critic и вместо этого использовать средний балл набора выходов для той же проблемы в качестве базовой линии. Эта базовая линия может быть использована для оценки функции преимущества и для оптимизации политики. Такой подход значительно снижает сложность обучения.

Расчет функции преимущества: GRPO вычисляет функцию преимущества по формуле вычисление относительного рейтинга каждого результата в одном и том же наборе результатов, а не использование отдельной функции значения как в ППО.

Штраф за расхождение KL: GRPO не добавляет штраф за расхождение KL к вознаграждению, как PPO, а вместо этого добавляет расхождение KL между моделью политики и эталонной моделью непосредственно к функции потерь. Это позволяет избежать сложного расчета функции преимущества.

Основная идея GRPO

не требует Критика (функции ценности): GRPO устраняет необходимость в функции ценности и использует внутригрупповой балл для оценки исходного уровня, тем самым сокращая ресурсы на обучение.

Внутригрупповое относительное преимущество: Для каждой проблемы q GRPO выбирает набор выходных данных {o(1), o(2), …, o(G)} из старой политики π(θold), а затем оптимизирует модель политики, максимизируя следующее уравнение в качестве целевой функции.

Конкретно:

Ключевым моментом здесь является Â(i,t), который представляет собой преимущество и рассчитывается относительное вознаграждение внутригруппового продукта, а не полагаться на отдельную функцию стоимости, как в PPO.

Целевая функция также напрямую добавляет Дивергенция KL как регуляризирующий член для контроля величины обновления политики

и соответствовать сравнительному характеру модели вознаграждения: GRPO использует относительное внутригрупповое вознаграждение для расчета преимущества, что больше соответствует природе модели вознаграждения, которая обычно обучается на основе попарного сравнения.

Как можно разработать модель вознаграждения GRPO (см. DeepSeek R1)?

Функции:

Формат награды: заставляет генерацию длинных детская кроватка результаты, которые могут подтолкнуть модель к генерации процессов вывода и улучшить эффект вывода модели.

Награда за точность: Математика может использовать конечный результат, а код может использовать обратную связь компилятора.

Преимущества ГРПО

Меньше занимаемой памяти: Модель Critic не требуется, что снижает требования к памяти.

Более эффективное обучение: Расчет с использованием внутригруппового относительного преимущества упрощает процесс обучения.

Более соответствует природе моделей вознаграждения: повышает стабильность и эффективность тренировок.

Резюме унифицированной парадигмы RL

Предложена единая парадигма

Авторы предлагают единую парадигму для понимания различных методов обучения, таких как SFT (контролируемая тонкая настройка), RFT (тонкая настройка с отбраковкой), DPO (прямая оптимизация предпочтений), PPO, GRPO и т. д. Ключевые элементы RL: Ключевые элементы единой структуры включают: источники данных, функции вознаграждения и алгоритмы.

  • Источник данных: Это относится к данным, используемым для обучения, которые могут быть получены с помощью ручной маркировки, моделей SFT или моделей политики в реальном времени.
  • Функция вознаграждения: Это относится к функции, используемой для оценки качества выходных данных, которая может быть правилом или моделью.
  • Алгоритм: Это относится к методу, используемому для обработки данных и сигнала вознаграждения, а также для обновления параметров модели.

Анализ различных методов на основе единой парадигмы

В таблице 10 обобщены сходства и различия между SFT, RFT, DPO, Online RFT, PPO и GRPO с точки зрения источников данных, функций вознаграждения и коэффициентов градиента.

МетодДанные обученияФункция вознагражденияКоэффициент градиентаМетод обученияПреимущества/особенностиПрименимые сценарии
СФТДанные SFT, маркированные вручнуюВыбирается вручную (неявное вознаграждение)Исправлено до 1Контролируемое обучениеПростота и стабильность, зависящие от высококачественных маркированных данныхБазовое обучение модели, начальная задача выравнивания
ЗППроблема набора данных SFT + Пример выходных данных модели SFTНа основе правильности ответа (правило суждения)0 (неправильно) или 1 (правильно)Оптимизация политики офлайнЭффективный расчет, прямое использование обратной связи по правиламМатематические/логические задачи с четкими правилами
ДПОПроблема набора данных SFT + модель вывода вМаркировка человеческих предпочтений или сравнение правилНа основе расчета вероятности предпочтения (например, модель Брэдли-Терри)Сравнительное обучениеИзбегает явного моделирования вознаграждений, напрямую оптимизируя предпочтенияЗадачи по выравниванию предпочтений человека (например, генерация диалога)
Онлайн-запрос предложенийВыборка модели политики в реальном времени пары проблема-выходНа основе правильности ответа (правило суждения)0 (неправильно) или 1 (правильно)Оптимизация онлайн-политикиДинамически обновляет политики с оптимизацией обратной связи в реальном времениСценарии, требующие онлайн-взаимодействия (например, игровой ИИ)
ППОПроблема набора данных SFT + выборка выходных данных модели политикиМодель вознаграждения (RM) обученаФункция доминирования (основана на оценке вознаграждения)Метод градиента политикиЭффективный и стабильный, поддерживает многоступенчатую оптимизациюСложные задачи (например, генерация текста, управление роботом)
GRPOПроблема набора данных SFT + выборка выходных данных модели политикиМодель вознаграждения (RM) обученаВнутригрупповое относительное вознаграждение (нормализованное сравнение)Оптимизация групповой политикиУменьшить дисперсию вознаграждения и улучшить внутригрупповое сравнениеЗадачи с высокой вариативностью (например, генерация длинных текстов)

Наблюдения за источниками данных

Онлайн и офлайн обучение: Онлайн-обучение относится к использованию выходных данных модели политики в реальном времени в качестве данных для обучения, в то время как офлайн-обучение относится к использованию выходных данных фиксированной модели (например, модели SFT) в качестве данных для обучения. Экспериментальные результаты показывают, что Онлайн-обучение, как правило, лучше, чем офлайн-обучение.

Надзор за результатами и надзор за процессом: Контроль результатов относится только к вознаграждению последнего шага вывода, в то время как контроль процесса относится к вознаграждению каждого шага процесса рассуждения. Экспериментальные результаты показывают, что контроль процесса более эффективен при выполнении сложных задач.

Одноэпизодное и итеративное обучение с подкреплением: Обучение с подкреплением в одном эпизоде относится к оптимизации одной стратегии, в то время как итеративное обучение с подкреплением относится к непрерывному обновлению модели вознаграждения после оптимизации нескольких стратегий. Экспериментальные результаты показывают, что итеративное обучение с подкреплением может значительно улучшить производительность, особенно на первой итерации.

Наблюдение за коэффициентами градиента

Основанный на правилах и основанный на моделях: Правило относится к определению вознаграждения на основе правильности ответа, а модель относится к обучению модели вознаграждения для начисления очков.

Разница в коэффициентах градиента: Ключевое различие между GRPO и Online RFT заключается в том, что GRPO корректирует свои коэффициенты градиента на основе значений вознаграждения, предоставляемых моделью вознаграждения, тогда как Online RFT этого не делает.

Преимущества ГРПО: Эксперименты показывают, что GRPO превосходит Online RFT, демонстрируя эффективность изменения знака градиентных коэффициентов. GRPO+PS превосходит GRPO+OS, демонстрируя преимущества использования мелкозернистых, учитывающих пошаговые значения градиентных коэффициентов.

Эффективность RL и направления для улучшения

Почему RL эффективен?

Результаты эксперимента: RL улучшает показатели Maj@K, но не Pass@K.

Объяснение: RL улучшает общую производительность модели, делая распределение выходных данных более надежным, т. е. повышает вероятность правильных ответов в TopK, а не улучшает базовые возможности модели.

Как можно добиться более эффективного RL?

На основе единой парадигмы авторы предлагают будущие направления совершенствования RL в трех аспектах: источники данных, алгоритмы и функции вознаграждения.

  • Источники данных:
    • Исследуйте проблемы, выходящие за рамки стадии SFT.
    • Используйте более продвинутые стратегии выборки (декодирования), такие как методы поиска по дереву.
    • Используйте эффективные методы вывода для повышения эффективности исследования политической модели.
  • Алгоритм:
    • Изучите алгоритмы обучения с подкреплением, которые более устойчивы к шумным сигналам вознаграждения.
    • Изучите методы выравнивания типа WEAK-TO-STRONG.
  • Функция вознаграждения:
    • Повысить обобщающую способность модели вознаграждения для решения проблем вне распределения и получения расширенных декодированных выходных данных.
    • Отразите неопределенность модели вознаграждения и используйте ее в качестве моста для соединения слабых моделей вознаграждения и алгоритмов обучения от СЛАБОГО К СИЛЬНОМУ.
    • Эффективно создавайте высококачественные модели вознаграждения за процесс, чтобы обеспечить точные обучающие сигналы для процесса вывода.

Резюме

DeepSeekMath значительно улучшил возможности моделей языка с открытым исходным кодом в математических рассуждениях, построив крупномасштабный математический корпус и предложив новый алгоритм обучения с подкреплением. Основные моменты этой статьи:

  • создание и проверка корпуса DeepSeekMath — масштабного, высококачественного, многоязычного математического корпуса.
  • Предлагается эффективный алгоритм обучения с подкреплением GRPO, позволяющий сократить использование памяти и одновременно улучшить математические рассуждения модели.
  • Влияние обучения коду на способность к математическому мышлению подробно обсуждается, и обнаруживается, что данные arXiv имеют ограниченный эффект. Значение DeepSeekMath:
  • Он предоставляет сообществу разработчиков ПО с открытым исходным кодом мощную модель математического мышления и способствует развитию математического ИИ.
  • Он предоставляет ценный опыт и методы для создания математических корпусов и обучения математическим моделям рассуждений.
  • Предложенный алгоритм GRPO предлагает новые идеи для обучения с подкреплением в других областях.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *