Днес бих искал да споделя статия от DeepSeek, озаглавена DeepSeekMath: Разширяване на границите на математическото разсъждение в отворени езикови модели.
Тази статия представя DeepSeekMath 7B, който е предварително обучен на базата на DeepSeek-Coder-Base-v1.5 7B колекция от 120B токени, свързани с математика, естествен език и кодови данни.
Моделът постигна удивителен резултат от 51.7% в МАТЕМАТИЧЕСКИ показатели на конкурентно ниво, без да разчита на външни инструменти и техники за гласуване, доближавайки се до нивото на производителност на Gemini-Ultra и GPT-4.
Способността на DeepSeekMath 7B за математически разсъждения се приписва на два ключови фактора: Първо, чрез внимателно проектиран канал за избор на данни, висококачествените данни, свързани с математиката, се извличат итеративно от публично достъпни уеб данни.
Второ, груповата относителна оптимизация на политиката (GRPO) е въведен, който е вариант на оптимизация на проксималната политика (PPO), който може да подобри способността за математически разсъждения, като същевременно оптимизира използването на паметта на PPO.
- Характеристиките на метода са обобщени, както следва:Висококачествен математически учебен корпус е конструиран и е използван внимателно проектиран тръбопровод за извличане на висококачествени математически данни от Common Crawl.
- Алгоритъмът GRPO беше предложено, което намалява ресурсите, необходими за обучение, и подобрява способността за математически разсъждения на модела. 3) Най-съвременно изпълнение беше постигнато в множество сравнителни тестове за математическо разсъждение.
Преглед
Заглавие: DeepSeekMath: Разширяване на границите на математическите разсъждения в отворени езикови модели
URL: щракнете тук
автори: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y. Wu, Daya Guo
Код: щракнете тук
Мотивация
Математическите разсъждения представляват значително предизвикателство за езиковите модели поради сложността и структурирания характер на математиката. Най-модерните модели, като GPT-4 и Gemini-Ultra, са мощни, но не са публично достъпни. Следователно има значително място за подобрение в работата на модели с отворен код.
Сложност и структура: Математическите разсъждения представляват значително предизвикателство за езиковите модели поради сложността и структурирания характер на математиката.
Потенциал на публичните данни: Публично достъпните уеб данни може да съдържат богата математическа информация, която тепърва ще се извлича и използва.
Методи
Събиране на данни: DeepSeekMath корпус от 120B токени беше конструиран чрез събиране на висококачествени свързани с математика уеб данни от Common Crawl чрез итеративен тръбопровод.
Обучение на модели: Корпусът беше използван за предварително обучение върху DeepSeek-Coder-Base-v1.5 7B и беше приложен алгоритъмът за фина настройка на математическите инструкции и групова относителна оптимизация на политиката (GRPO).
GRPO алгоритъм: GRPO е подобрен алгоритъм за обучение с подсилване, който премахва модела на критиката в PPO и оценява базовата линия от груповия резултат, като по този начин значително намалява ресурсите за обучение.
Подробни методи и процедури:
Събиране и обработка на данни:

Изградете DeepSeekMath Corpus: Използвайки базиран на fastText класификатор, извлечете 120B токени, свързани с математика от Common Crawl за изграждане на широкомащабен, висококачествен предварително обучен корпус, DeepSeekMath Corpus.
Итеративно филтриране на данни: Използва се итеративна стратегия, използване на OpenWebMath като начални данни за обучение на първоначален класификатор и след това използване на този класификатор за извличане на по-положителни примери от Common Crawl, които са ръчно анотирани за непрекъснато оптимизиране на ефективността на класификатора.
Многоезични функции: DeepSeekMath Corpus съдържа многоезични данни, което подобрява представянето на модела при китайски математически показатели.
Пречистване на замърсяването: де-обработката на замърсяването се извършва върху данните за обучение, за да се избегне припокриване с тестовия бенчмарк.
Предварителна подготовка:
Базирана на код инициализация на модела: Инициализация с помощта на DeepSeek-Coder-Base-v1.5 7B беше установено, че моделът е по-ефективен от инициализацията от общ LLM.
Състав на данните за предварително обучение: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% Github код, 10% Common Crawl данни на естествен език.
Параметри за предварителна подготовка: Използва се оптимизатор AdamW със скорост на обучение от 4.2e-4, размер на партидата от 10 милиона токена и обучение от 500 B токена.
Фина настройка на инструкциите:
Създайте набор от данни за фина настройка на инструкции: Конструирайте набор от данни за фина настройка на математически инструкции, съдържащ 776K проби, обхващащ различни математически полета и нива на трудност, включително CoT, PoT и интегрирани в инструменти формати за изводи за решаване на стъпки.
Параметри на обучението: Партиден размер 256, скорост на учене 5e-5, обучение за 500 стъпки.
Обучение с подсилване – Оптимизация на груповата относителна политика (GRPO):
Предложете GRPO алгоритъм: Предложете а PPO вариант алгоритъм GRPO, който избягва необходимостта от критичен модел чрез използване на групови резултати за оценка на базовата линия, като по този начин намалява ресурсите за обучение.
Целева функция: GRPO оптимизира модела на политика чрез максимизиране на целева функция, която взема предвид относителното предимство на изходите в групата и директно добавя дивергенцията на KL като член за регулиране.
Изчисление на предимството: GRPO изчислява предимството чрез относителни награди в групата, като се избягват междугруповите сравнения и по-добро съответствие със сравнителния характер на модела на възнаграждение.
Поддържа мониторинг както на резултатите, така и на процеса: GRPO може да поддържа мониторинг както на резултатите, така и на процеса и по-ефективно да наблюдава политиката чрез предоставяне на награди в края на всяка стъпка на извод.
Итеративен RL: Използва an итеративна RL стратегия за генериране на нов набор за обучение въз основа на резултатите от вземането на проби от модела на правилата, непрекъснато обучение на стария модел на възнаграждение и използване на новия модел на възнаграждение за актуализиране на модела на политиката.
Данни за обучението: Използва проблеми във формат CoT, свързани с GSM8K и MATH в SFT данните, около 144K проблеми.
Параметри на обучението: Скоростта на обучение на модела на политиката е 1e-6, KL коефициентът е 0,04, 64 изхода са взети за извадка за всеки проблем, максималната дължина е 1024, а размерът на обучителната партида е 1024.
Заключение

Заключение 1:DeepSeekMath 7B превъзхожда всички модели с отворен код в способността за математически разсъждения. В конкурентния сравнителен тест MATH, DeepSeekMath 7B постигна точност от 51.7%, което е близо до нивото на производителност на Gemini-Ultra и GPT-4.
Заключение 2:Добре проектираните данни за предварително обучение и GRPO алгоритми са ключови за успеха на модела. Комбинацията от висококачествен математически корпус и GRPO алгоритми позволява на модела да постигне значителни подобрения в производителността при задачи за математическо разсъждение.
Заключение 3:Обучението по кодове помага за подобряване на способността за математически разсъждения. Добавянето на кодови данни към етапа на предварително обучение може да подобри способността на модела да решава математически проблеми, както със, така и без инструменти.
Заключение 4: Ограничена полезност на arXiv данните: Противно на предишните вярвания, беше установено, че данните от arXiv са от ограничена помощ за подобряване на математическите разсъждения.
Ограничение
Възможностите за геометрия и доказателство са относително слаби: Въпреки че DeepSeekMath се отличава с количествени разсъждения, неговите възможности в геометрията и доказателството все още са по-ниски от моделите със затворен код. Това може да се дължи на предубедената селекция на данни в етапите на предварително обучение и фина настройка.
Слабост в малкия капацитет на извадката: DeepSeekMath е по-нисък от GPT-4 по отношение на обучението на малка извадка, което може да се дължи на ограничението на размера на модела.
Необходими са по-ефективни методи за обучение за укрепване: Въпреки че методите за обучение за подсилване, предложени в документа, са ефективни, все още има място за подобрение, например как да се използва по-ефективно обратната връзка от модела на възнаграждение и как да се справяте с шумни сигнали за възнаграждение.
Подробности
Изследване и анализ на ученето с подсилване
Преглед:
Въвеждане на оптимизация на груповата относителна политика (GRPO): Документът предлага нов алгоритъм за обучение за подсилване, GRPO, като вариант на оптимизация на проксималната политика (PPO). Основната характеристика на GRPO е, че то изоставя модела на Critic, който обикновено се използва в PPO, и оценява базовата линия чрез групови резултати, като по този начин значително намалява изчислителните ресурси, необходими за обучение.
Демонстрация на ефективността на GRPO: Документът експериментално демонстрира, че GRPO може ефективно подобряване на производителността на моделите за фина настройка на команди, включително математически задачи в домейн и извън домейн.
Унифицирана рамка за методи за обучение за засилване: Документът предлага унифицирана рамка за разбиране на различни методи за обучение с подсилване, като напр Фина настройка на вземане на проби за отхвърляне (RFT), директна оптимизация на предпочитанията (DPO), PPO и GRPO. Рамката третира тези методи като директни или опростени техники за обучение за укрепване.
Задълбочено изследване на елементите на обучението за укрепване: Документът изследва задълбочено ключови елементи на обучението за подсилване, като онлайн обучение и офлайн обучение, супервизия на резултатите и супервизия на процеса, еднократно обучение за укрепване и итеративно обучение за укрепване, чрез подробни експерименти, и обобщава потенциалните насоки за подобряване на ефективността на ученето с подсилване.
Алгоритъм GRPO (Оптимизация на относителната групова политика).

Ограничения на PPO: PPO е често използван алгоритъм за обучение за подсилване, но изисква обучение допълнителен критичен модел за оценка на функцията стойност, която налага допълнително натоварване на изчисленията и паметта. В допълнение, в сценария на LLM, Обучението на критичен модел може да бъде сложно, защото изисква оценка изхода на всеки токен.
Основната идея на GRPO: Основната идея на GRPO е да изоставете модела на критиката и вместо това използвайте средния резултат от набор от резултати за същия проблем като базова линия. Тази базова линия може да се използва за оценка на функцията на предимство и за оптимизиране на политиката. Този подход значително намалява сложността на обучението.
Изчисляване на функцията за предимство: GRPO изчислява функцията за предимство по изчисляване на относителното класиране на всеки изход в същия набор от изходи, вместо да се разчита на отделна функция на стойността като в РРО.
Наказание за отклонение на KL: GRPO не добавя наказание за отклонение на KL към наградата като PPO, а вместо това добавя отклонението на KL между модела на политиката и референтния модел директно към функцията за загуба. Това избягва сложното изчисляване на функцията за предимство.
Основната идея на GRPO
не изисква критик (стойностна функция): GRPO избягва необходимостта от стойностна функция и използва резултата в рамките на групата, за да оцени базовата линия, като по този начин намалява ресурсите за обучение.
Относително предимство в рамките на групата: За всеки проблем q GRPO взема проби от набор от изходи {o(1), o(2), …, o(G)} от старата политика π(θold) и след това оптимизира модела на политиката чрез максимизиране на следното уравнение като целева функция.

По-конкретно:

Ключът тук е Â(i,t), който представлява предимството и се изчислява от относително възнаграждение за вътрешногруповата продукция, вместо да разчитате на отделна стойностна функция, както в PPO.

Целевата функция също директно добавя KL дивергенция като регуляризиращ термин за контролиране на величината на актуализации на политиката

и се приведе в съответствие със сравнителния характер на модела на възнаграждение: GRPO използва относителното вътрешногрупово възнаграждение, за да изчисли предимството, което е по-съвместимо с естеството на модела на възнаграждение, който обикновено се обучава въз основа на сравнение по двойки.
Как може да бъде проектиран моделът за възнаграждение на GRPO (вижте DeepSeek R1)?
Характеристики:
формат награда: форсира генерирането на дълги кошара резултати, които могат да накарат модела да генерира процеси на извод и да подобри ефекта на извода на модела.
награда за точност: математиката може да използва крайния резултат, а кодът може да използва обратна връзка от компилатора.
Предимства на GRPO
По-малко памет: не се изисква критичен модел, което намалява изискванията за памет.
По-ефективно обучение: изчислението с използване на вътрешногрупово относително предимство опростява процеса на обучение.
По-съвместимо с естеството на моделите за възнаграждение: подобрява стабилността и ефективността на тренировката.
Обобщение на унифицираната парадигма на RL
Предложена унифицирана парадигма
Авторите предлагат унифицирана парадигма за разбиране на различни методи на обучение като SFT (контролирана фина настройка), RFT (фина настройка на отхвърляне на проби), DPO (директна оптимизация на предпочитанията), PPO, GRPO и др. Ключови елементи на RL: Ключовите елементи на унифицираната рамка включват: източници на данни, функции за възнаграждение и алгоритми.
- Източник на данни: Това се отнася до данните, използвани за обучение, които могат да бъдат извлечени от ръчно етикетиране, SFT модели или модели на политики в реално време.
- Функция за възнаграждение: Това се отнася до функцията, използвана за оценка на качеството на изхода, която може да бъде правило или модел.
- Алгоритъм: Това се отнася до метода, използван за обработка на данните и сигнала за награда и актуализиране на параметрите на модела.
Анализ на различни методи на базата на единна парадигма
Таблица 10 обобщава приликите и разликите между SFT, RFT, DPO, Online RFT, PPO и GRPO по отношение на източници на данни, функции за възнаграждение и коефициенти на градиент.
Метод | Данни за обучение | Функция за възнаграждение | Коефициент на градиент | Метод на обучение | Предимства/характеристики | Приложими сценарии |
SFT | Ръчно етикетирани SFT данни | Ръчно избрано (имплицитна награда) | Фиксиран на 1 | Учене под наблюдение | Лесен и стабилен, зависим от висококачествени етикетирани данни | Обучение на базов модел, задача за първоначално подравняване |
RFT | SFT проблем с набор от данни + Примерен изход на SFT модел | Въз основа на правилността на отговора (преценка на правилото) | 0 (грешно) или 1 (правилно) | Оптимизиране на офлайн правила | Ефективно изчисление, директно използване на обратна връзка с правила | Математически/логически задачи с ясни правила |
DPO | SFT проблем с набор от данни + модел изход към | Етикетиране на човешки предпочитания или сравнение на правила | Въз основа на изчисляване на вероятността за предпочитание (напр. модел на Брадли-Тери) | Сравнително обучение | Избягва изричното моделиране на възнагражденията, като директно оптимизира предпочитанията | Задачи за подравняване на човешки предпочитания (напр. генериране на диалог) |
Онлайн RFT | Вземане на извадка от модел на политика в реално време двойки проблем-изход | Въз основа на правилността на отговора (преценка на правилото) | 0 (грешно) или 1 (правилно) | Оптимизация на онлайн политики | Динамично актуализира правилата с оптимизация на обратната връзка в реално време | Сценарии, които изискват онлайн взаимодействие (напр. AI за игри) |
PPO | SFT проблем с набор от данни + извадка от модел на политика | Обучен модел на възнаграждение (RM). | Функция на доминиране (въз основа на оценка на възнаграждението) | Метод на градиента на политиката | Ефективен и стабилен, поддържа многоетапна оптимизация | Сложни задачи (напр. генериране на текст, управление на роботи) |
GRPO | Проблем с набор от данни на SFT + извадка от модел на политика | Обучен модел на възнаграждение (RM). | Вътрешногрупова относителна награда (нормализирано сравнение) | Оптимизация на груповата политика | Намалете вариациите във възнаграждението и подобрете вътрешногруповото сравнение | Задачи с голяма вариация (напр. генериране на дълъг текст) |
Наблюдения върху източници на данни

Онлайн срещу офлайн обучение: Онлайн обучението се отнася до използването на изхода на модела на политиката в реално време като данни за обучение, докато офлайн обучението се отнася до използването на изхода на фиксиран модел (като SFT модела) като данни за обучение. Експерименталните резултати показват това онлайн обучението обикновено е по-добро от офлайн обучението.
Надзор на резултатите срещу надзор на процеса: Надзорът на резултатите се отнася само до възнаграждаване на последната стъпка от изхода, докато надзорът на процеса се отнася до възнаграждаване на всяка стъпка от процеса на разсъждение. Експерименталните резултати показват това надзорът на процеса е по-ефективен при сложни задачи.
Единичен епизод срещу итеративно обучение за подсилване: Обучението за подсилване с един епизод се отнася до оптимизиране на една стратегия, докато итеративното обучение за подсилване се отнася до непрекъснатото актуализиране на модела на възнаграждение след множество оптимизации на стратегия. Експерименталните резултати показват това итеративното подсилващо обучение може значително да подобри производителността, особено при първата итерация.
Наблюдение на градиентни коефициенти
Базирано на правила срещу базирано на модел: Правилото се отнася до определяне на наградата въз основа на правилността на отговора, а моделът се отнася до обучение на модел на награда за отбелязване на точки.
Разлика в коефициентите на градиента: Ключовата разлика между GRPO и Онлайн RFT е, че GRPO коригира своите градиентни коефициенти въз основа на стойностите на възнаграждението, предоставени от модела на възнаграждение, докато Online RFT не го прави.
Предимства на GRPO: Експериментите показват това GRPO превъзхожда онлайн RFT, демонстрирайки ефективността на промяна на знака на градиентните коефициенти. GRPO+PS превъзхожда GRPO+OS, демонстрирайки предимствата от използването на фини градиентни коефициенти, съобразени със стъпките.
Ефективност на RL и насоки за подобряване
Защо RL е ефективен?

Експериментални резултати: RL подобрява Maj@K производителността, но не и Pass@K.
Обяснение: RL подобрява цялостната производителност на модела, като прави изходното разпределение по-стабилно, т.е. подобрява вероятността за верни отговори в TopK, вместо да подобрява основната способност на модела.
Как може да се постигне по-ефективен RL?
Въз основа на унифицираната парадигма, авторите предлагат бъдещи насоки за подобряване на RL в три аспекта: източници на данни, алгоритми и функции за възнаграждение.
- Източници на данни:
- Изследвайте проблеми отвъд етапа на SFT.
- Използвайте по-усъвършенствани стратегии за вземане на проби (декодиране), като например методи, базирани на дървовидно търсене.
- Използвайте ефективни техники за извод, за да подобрите ефективността на проучването на модела на политиката.
- Алгоритъм:
- Разгледайте алгоритми за обучение за подсилване, които са по-устойчиви на шумни сигнали за награда.
- Проучете методите за подравняване на типа СЛАБ КЪМ СИЛЕН.
- Функция за възнаграждение:
- Подобрете способността за обобщаване на модела за възнаграждение, за да се справи с проблемите извън разпространението и разширените декодирани изходи.
- Отразете несигурността на модела на възнаграждението и го използвайте като мост за свързване на слаби модели на възнаграждение и алгоритми за обучение ОТ СЛАБ КЪМ СИЛЕН.
- Ефективно конструирайте висококачествени модели за възнаграждение на процеса, за да осигурите фини сигнали за обучение за процеса на извод.
Резюме
DeepSeekMath значително подобри способността на езиковите модели с отворен код в математическите разсъждения чрез конструиране на широкомащабен математически корпус и предлагане на нов алгоритъм за обучение с подсилване. Акцентите в този документ са
- изграждането и валидирането на DeepSeekMath Corpus, мащабен, висококачествен, многоезичен математически корпус.
- Предложен е ефективен алгоритъм за обучение с подсилване, GRPO, за намаляване на използването на паметта, като същевременно се подобрява способността за математическо мислене на модела.
- Въздействието на кодовото обучение върху способността за математически разсъждения се обсъжда задълбочено и се установява, че данните от arXiv имат ограничен ефект. Стойността на DeepSeekMath:
- Той предоставя на общността с отворен код мощен модел за математически разсъждения и насърчава развитието на математически AI.
- Предоставя ценен опит и методи за изграждане на математически корпуси и обучение на модели за математически разсъждения.
- Предложеният алгоритъм на GRPO предоставя нови идеи за обучение с подсилващо обучение в други области.