Денес би сакал да споделам статија од DeepSeek, насловена како DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models.

Овој напис го воведува DeepSeekMath 7B, кој е претходно обучен на DeepSeek-Coder-Base-v1.5 7B врз основа на збирка од 120B математички токени, природен јазик и податоци за кодови.

Моделот постигна неверојатен резултат од 51,7% во одредниците за математика на конкурентно ниво без да се потпира на надворешни алатки и техники на гласање, приближувајќи се до нивото на перформанси на Gemini-Ultra и GPT-4.

Способноста за математичко расудување на DeepSeekMath 7B се припишува на два клучни фактори: Прво, преку внимателно дизајниран цевковод за избор на податоци, висококвалитетните податоци поврзани со математиката итеративно се минираат од јавно достапни веб-податоци.

Второ, оптимизација на релативната политика на групата (GRPO) е воведена, која е варијанта на оптимизација на проксимална политика (PPO) која може да ја подобри способноста за математичко расудување додека ја оптимизира употребата на меморијата на PPO.

  1. Карактеристиките на методот се сумирани како што следува:Висококвалитетен математички корпус за пред-тренинг беше изграден и внимателно дизајниран гасовод беше искористен за копирање на висококвалитетни математички податоци од Common Crawl.
  2. Алгоритмот GRPO беше предложено, со што се намалуваат ресурсите потребни за обука и се подобрува математичката способност за расудување на моделот. 3) Најсовремена изведба беше постигнати во повеќе репер тестови за математичко расудување.

Преглед

Наслов: DeepSeekMath: Поместување на границите на математичкото расудување во моделите со отворен јазик

URL: кликнете овде

Автори: Жихонг Шао, Пеији Ванг, Кихао Жу, Рунксин Ксу, Јунксиао Сонг, Ксијао Би, Хаовеи Џанг, Мингчуан Џанг, ЈК Ли, И. Ву, Даја Гуо

Код: кликнете овде

Мотивација

Математичкото расудување претставува значителен предизвик за јазичните модели поради сложеноста и структурираната природа на математиката. Најнапредните модели, како што се GPT-4 и Gemini-Ultra, се моќни, но не се јавно достапни. Затоа, постои значителен простор за подобрување во перформансите на модели со отворен код.

Комплексност и структура: Математичкото расудување претставува значителен предизвик за јазичните модели поради сложеноста и структурираната природа на математиката.

Потенцијал за јавни податоци: Јавно достапните веб-податоци може да содржат богати математички информации кои допрва треба да се ископуваат и искористат.

Методи

Собирање податоци: Корпус DeepSeekMath од 120B токени беше конструиран со собирање висококвалитетни веб-податоци поврзани со математика од Common Crawl преку итеративен гасовод.

Модел за обука: Корпусот беше искористен за пред-тренинг на врвот на DeepSeek-Coder-Base-v1.5 7B, а беше применет алгоритамот за фино подесување на математичката инструкција и оптимизација на групна релативна политика (GRPO).

GRPO алгоритам: GRPO е подобрен алгоритам за учење за засилување кој го отстранува Critic моделот во PPO и ја проценува основната линија од групниот резултат, а со тоа значително ги намалува ресурсите за обука.

Детални методи и процедури:

Собирање и обработка на податоци:

Изградете го корпус DeepSeekMath: Користење на класификатор базиран на fastText, извлечете 120B токени поврзани со математика од Common Crawl за изградба на голем, висококвалитетен претходно обучен корпус, DeepSeekMath Corpus.

Повторливо филтрирање на податоци: Се користи итеративна стратегија, користење OpenWebMath како семенски податоци за да се обучи почетен класификатор, а потоа да се користи овој класификатор за да се извлечат повеќе позитивни примери од Common Crawl, кои се рачно бележени за континуирано оптимизирање на перформансите на класификаторот.

Повеќејазични карактеристики: Корпусот DeepSeekMath содржи повеќејазични податоци, што ги подобрува перформансите на моделот на кинеските математички одредници.

Обработка на дезагадување: Де-обработката на загадувањето се врши на податоците за обуката за да се избегне преклопување со репер за тестирање.

Предобука:

Иницијализација на моделот базиран на код: Иницијализација со користење на DeepSeek-Coder-Base-v1.5 7B Се покажа дека моделот е поефективен од иницијализацијата од општ LLM.

Состав на податоци за предтренинг: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% Github код, 10% Common Crawl податоци од природен јазик.

Параметри за предобука: Се користи AdamW оптимизатор, со стапка на учење од 4,2e-4, големина на серија од 10M токени и обука од 500B токени.

Дотерување на инструкциите:

Конструирај база на податоци за фино подесување на инструкции: Конструирај математички инструкции за фино подесување на базата на податоци што содржи 776 илјади примероци, покривајќи различни математички полиња и нивоа на тежина, вклучувајќи CoT, PoT и формати на заклучоци интегрирани во алатка за решавање чекори.

Параметри за обука: Големина на серија 256, стапка на учење 5e-5, воз за 500 чекори.

Засилено учење – Групна оптимизација на релативна политика (GRPO):

Предложете GRPO алгоритам: Предложете а PPO варијанта на алгоритам GRPO, кој ја избегнува потребата за Critic модел со користење на групни резултати за да се процени основната линија, а со тоа се намалуваат ресурсите за обука.

Целна функција: GRPO го оптимизира моделот на политика со максимизирање на целната функција која ја зема предвид релативната предност на излезите во групата и директно ја додава KL дивергенцијата како термин за регулација.

Пресметка на предност: GRPO ја пресметува предноста преку релативни награди во групата, избегнување меѓугрупни споредби и подобро усогласување со компаративната природа на моделот на награда.

Поддржува и следење на исходот и на процесот: ГРПО може да го поддржи и исходот и следењето на процесите и поефикасно да ја следи политиката со обезбедување на награди на крајот од секој чекор за заклучување.

Итеративен RL: Користи ан итеративна RL стратегија за да генерирате нов сет за обука врз основа на резултатите од земање примероци од моделот на политиката, континуирано обучете го стариот модел на награда и користете го новиот модел на награда за ажурирање на моделот на политиката.

Податоци за обука: Ги користи проблемите со формат CoT поврзани со GSM8K и MATH во податоците на SFT, околу 144K проблеми.

Параметри за обука: Стапката на учење на моделот на политиката е 1e-6, коефициентот KL е 0,04, се земаат примероци од 64 излези за секој проблем, максималната должина е 1024, а големината на серијата за обука е 1024.

Заклучок

Заклучок 1:DeepSeekMath 7B ги надминува сите модели со отворен код во способноста за математичко расудување. Во конкурентниот MATH репер тест, DeepSeekMath 7B постигна точност од 51,7%, што е блиску до нивото на перформанси на Gemini-Ultra и GPT-4.

Заклучок 2:Добро дизајнираните податоци за предобука и GRPO алгоритмите се клучни за успехот на моделот. Комбинацијата на висококвалитетен математички корпус и GRPO алгоритми му овозможува на моделот да постигне значителни придобивки во перформансите во задачите за математичко расудување.

Заклучок 3:Обуката за кодови помага да се подобри способноста за математичко расудување. Додавањето податоци за кодови во фазата на предобука може да ја подобри способноста на моделот да решава математички проблеми, и со и без алатки.

Заклучок 4: Ограничена корисност на податоците arXiv: Спротивно на претходните верувања, беше откриено дека податоците на arXiv имаат ограничена помош за подобрување на математичкото расудување.

Ограничување

Геометријата и способностите за докажување се релативно слаби: Иако DeepSeekMath се истакнува во квантитативното расудување, неговите способности во геометријата и докажувањето сè уште се инфериорни во однос на моделите со затворен извор. Ова може да се должи на пристрасниот избор на податоци во фазите на предобука и дотерување.

Слабост во мал капацитет на примерок: DeepSeekMath е инфериорен во однос на GPT-4 во однос на учењето на мал примерок, што може да се должи на ограничувањето на големината на моделот.

Потребни се поефикасни методи за учење за зајакнување: Иако методите за зајакнување на учење предложени во трудот се ефективни, сè уште има простор за подобрување, на пример, како да се искористи поефикасна повратна информација од моделот на награда и како да се справи со бучните сигнали за награда.

Детали

Истражување и анализа за зајакнување на учењето

Преглед:

Воведување на групна оптимизација на релативна политика (GRPO): Трудот предлага нов алгоритам за учење за засилување, GRPO, како варијанта на Proximal Policy Optimization (PPO). Главната карактеристика на GRPO е тоа што таа го напушта Critic моделот што вообичаено се користи во PPO и ја проценува основната линија преку групните резултати, а со тоа значително ги намалува пресметковните ресурси потребни за обука.

Демонстрација на ефективноста на GRPO: Трудот експериментално покажува дека GRPO може ефикасно подобрување на перформансите на моделите за фино подесување на команди, вклучувајќи математички задачи во домен и надвор од домен.

Унифицирана рамка за методи на учење за зајакнување: Трудот предлага унифицирана рамка за разбирање на различни методи на учење за засилување, како на пр Фино подесување на примерок за отфрлање (RFT), оптимизација на директни преференци (DPO), PPO и GRPO. Рамката ги третира овие методи како директни или поедноставени техники за учење за зајакнување.

Продлабочено истражување на елементите на засилено учење: Трудот истражува во длабочина клучните елементи на зајакнувачкото учење, како што се обуката преку Интернет и офлајн обуката, надгледувањето на резултатите и надзорот на процесите, учењето за засилување во еден круг и повторувачкото учење за засилување, преку детални експерименти и ги сумира потенцијалните насоки за подобрување на ефективноста на учењето за засилување.

Алгоритам GRPO (Group Relative Policy Optimization).

Ограничувања на PPO: PPO е најчесто користен алгоритам за учење за зајакнување, но бара обука и дополнителен Критички модел да се процени вредносната функција, која наметнува дополнително пресметковно и мемориско оптоварување. Покрај тоа, во сценариото за LLM, Обуката за критички модел може да биде комплицирана бидејќи бара евалуација излезот на секој токен.

Основната идеја на GRPO: Основната идеја на GRPO е да напуштете го Critic моделот и наместо тоа користете го просечниот резултат на збир на излези за истиот проблем како основна линија. Оваа основна линија може да се користи за проценка на функцијата на предност и за оптимизација на политиката. Овој пристап значително ја намалува сложеноста на обуката.

Пресметка на функцијата за предност: GRPO ја пресметува функцијата предност со пресметување на релативното рангирање на секој излез во истиот сет на излези, наместо да се потпира на посебна вредносна функција како во ОЈО.

Казна за дивергенција на KL: ГРПО не додава казна за дивергенција KL на наградата како што е PPO, туку наместо тоа ја додава дивергенцијата KL помеѓу моделот на политиката и референтниот модел директно на функцијата за загуба. Ова ја избегнува пресметката на функцијата на сложената предност.

Основната идеја на GRPO

не бара критика (функција на вредност): GRPO ја избегнува потребата од вредносна функција и го користи резултатот во рамките на групата за да ја процени основната линија, а со тоа се намалуваат ресурсите за обука.

Релативна предност внатре во групата: За секој проблем q, GRPO зема примероци од збир на излези {o(1), o(2), …, o(G)} од старата политика π(θold) и потоа го оптимизира моделот на политиката со максимизирање на следната равенка како целна функција.

Поточно:

Клучот овде е Â(i,t), што ја претставува предноста и се пресметува од страна на релативна награда на интрагрупниот излез, наместо да се потпира на посебна вредносна функција како во PPO.

Целната функција исто така директно додава KL дивергенција како термин за регулација за контрола на големината на ажурирања на политиките

и усогласете се со споредбената природа на моделот на награда: GRPO ја користи релативната награда во рамките на групата за да ја пресмета предноста, која е поконзистентна со природата на моделот на награда, кој вообичаено се тренира врз основа на споредба во парови.

Како може да се дизајнира моделот за награда на GRPO (види DeepSeek R1)?

Карактеристики:

формат на награда: ја принудува генерацијата на долго креветче резултати, кои можат да го поттикнат моделот да генерира процеси на заклучување и да го подобри ефектот на заклучување на моделот.

награда за точност: математиката може да го користи конечниот резултат, а кодот може да користи повратни информации од компајлерот.

Предности на GRPO

Помал отпечаток од меморијата: не е потребен Critic модел, со што се намалуваат барањата за меморија.

Поефикасна обука: пресметката со користење на релативната предност во рамките на групата го поедноставува процесот на обука.

Покомпатибилно со природата на моделите за наградување: ја подобрува стабилноста и ефикасноста на тренингот.

Резиме на унифицирана парадигма на RL

Предложена унифицирана парадигма

Авторите предлагаат унифицирана парадигма за разбирање на различни методи за обука како што се SFT (Supervised Fine-tuning), RFT (Rejection Sampling Fine-tuning), DPO (Direct Preference Optimization), PPO, GRPO итн. Клучни елементи RL: Клучните елементи на унифицираната рамка вклучуваат: извори на податоци, функции за наградување и алгоритми.

  • Извор на податоци: Ова се однесува на податоците што се користат за обука, кои можат да се извлечат од рачно етикетирање, SFT модели или модели на политики во реално време.
  • Функција за награда: Ова се однесува на функцијата што се користи за оценување на квалитетот на излезот, што може да биде правило или модел.
  • Алгоритам: Ова се однесува на методот што се користи за обработка на податоците и сигналот за награда и ажурирање на параметрите на моделот.

Анализа на различни методи засновани на унифицирана парадигма

Табелата 10 ги сумира сличностите и разликите помеѓу SFT, RFT, DPO, Online RFT, PPO и GRPO во однос на изворите на податоци, функциите за наградување и коефициентите на градиент.

МетодПодатоци за обукаФункција за наградаКоефициент на градиентМетод на обукаПредности/карактеристикиПрименливи сценарија
SFTРачно означени SFT податоциРачно избрано (имплицитна награда)Фиксирано на 1Надгледувано учењеЕдноставно и стабилно, зависно од висококвалитетни означени податоциОбука за основен модел, задача за почетно усогласување
RFTПроблем со податоци на SFT + Излез на примерок од SFT моделВрз основа на точноста на одговорот (расудување на правила)0 (погрешно) или 1 (точно)Офлајн оптимизација на политикатаЕфикасно пресметување, директна употреба на повратни информации за правилатаМатематички/логички задачи со јасни правила
ДПОПроблем со податоци на SFT + излез од моделот доЕтикетирање на човекови преференци или споредба на правилаВрз основа на пресметување на веројатноста за предност (на пр., модел Бредли-Тери)Споредбено учењеИзбегнува експлицитно моделирање на награди, директно оптимизирајќи ги преференциитеЗадачи за усогласување на човековите преференци (на пр., генерирање дијалог)
Онлајн RFTПримерок од модел на политика во реално време проблем-излезен паровиВрз основа на точноста на одговорот (расудување на правила)0 (погрешно) или 1 (точно)Онлајн оптимизација на политикиДинамично ги ажурира политиките со оптимизација за повратни информации во реално времеСценарија за кои е потребна онлајн интеракција (на пример, игра со вештачка интелигенција)
ОЈОПроблем со податоци на SFT + излез на примерок од модел на политикаОбучен модел на награда (RM).Функција на доминација (врз основа на проценка на наградата)Метод на градиент на политикатаЕфикасно и стабилно, поддржува оптимизација во повеќе чекориСложени задачи (на пр. генерирање текст, контрола на робот)
ГРПОПроблем со SFT база на податоци + излез на примерок од модел на политикаОбучен модел на награда (RM).Релативна награда внатре во групата (нормализирана споредба)Оптимизација на групната политикаНамалете ја варијансата на наградите и подобрете ја споредбата меѓу групитеЗадачи со голема варијанса (на пр. генерирање долг текст)

Набљудувања на извори на податоци

Онлајн наспроти офлајн обука: Онлајн обуката се однесува на користење на излезот од моделот на политика во реално време како податоци за обука, додека офлајн обуката се однесува на користење на излезот од фиксен модел (како што е моделот SFT) како податоци за обука. Експерименталните резултати го покажуваат тоа онлајн обуката е генерално подобра од офлајн обуката.

Надзор на резултатот наспроти надзор на процесот: Надзорот на исходот се однесува само на наградување на последниот чекор од резултатот, додека надзорот на процесот се однесува на наградување на секој чекор од процесот на расудување. Експерименталните резултати го покажуваат тоа надзорот на процесот е поефективен во сложените задачи.

Учење со единечна епизода наспроти итеративно засилување: Учењето за засилување во една епизода се однесува на оптимизација на една стратегија, додека повторувачкото учење за засилување се однесува на континуирано ажурирање на моделот на награда по повеќе оптимизации на стратегии. Експерименталните резултати го покажуваат тоа итеративното засилувачко учење може значително да ги подобри перформансите, особено во првата итерација.

Набљудување на коефициенти на градиент

Засновано на правила наспроти модели: Правилото се однесува на одредување на наградата врз основа на точноста на одговорот, а Моделот се однесува на обука на модел на награда за да се бодува.

Разлика во коефициентите на градиент: Клучната разлика помеѓу GRPO и Онлајн RFT е тоа што GRPO ги приспособува своите коефициенти на градиент врз основа на вредностите за награда обезбедени од моделот на награда, додека Online RFT не.

Предности на GRPO: Експериментите го покажуваат тоа GRPO е супериорен во однос на Online RFT, покажувајќи ја ефективноста на менување на знакот на коефициентите на градиент. GRPO+PS е супериорен во однос на GRPO+OS, демонстрирајќи ги придобивките од користењето на фино зрнести градиентни коефициенти свесни за чекори.

Ефективност на RL и насоки за подобрување

Зошто RL е ефикасен?

Експериментални резултати: RL ги подобрува перформансите на Maj@K, но не и Pass@K.

Објаснување: RL ги подобрува вкупните перформанси на моделот со тоа што ја прави излезната дистрибуција поробусна, т.е. ја подобрува веројатноста за точни одговори во TopK, наместо да ја зајакнува основната способност на моделот.

Како може да се постигне поефективен RL?

Врз основа на обединетата парадигма, авторите предлагаат идни насоки за подобрување на RL во три аспекти: извори на податоци, алгоритми и функции за наградување.

  • Извори на податоци:
    • Истражете ги прашањата надвор од фазата SFT.
    • Користете понапредни стратегии за земање примероци (декодирање), како што се методите засновани на пребарување на дрво.
    • Користете ефикасни техники за заклучување за да ја подобрите ефикасноста на истражувањето на моделот на политика.
  • Алгоритам:
    • Истражете ги алгоритмите за учење за засилување кои се поцврсти за бучни сигнали за награда.
    • Проучете ги методите за усогласување од типот СЛАБ-ДО-ЈАК.
  • Функција за награда:
    • Подобрете ја способноста за генерализација на моделот на награда за справување со проблеми надвор од дистрибуција и напредни декодирани излези.
    • Одразете ја несигурноста на моделот на награда и користете го како мост за поврзување на слаби модели на награди и алгоритми за учење СЛАБ-ДО-СИЛНИ.
    • Ефикасно конструирајте висококвалитетни модели за наградување на процесите за да обезбедите ситно-гранулирани сигнали за обука за процесот на заклучување.

Резиме

DeepSeekMath значително ја подобри способноста на моделите на јазици со отворен код во математичкото расудување со конструирање на математички корпус од големи размери и предлагање на нов алгоритам за учење за зајакнување. Најдобрите моменти на овој труд се

  • изградбата и валидацијата на корпусот DeepSeekMath, голем, висококвалитетен, повеќејазичен математички корпус.
  • Ефикасен алгоритам за учење за засилување, GRPO, е предложен за да се намали употребата на меморијата, а истовремено да се подобри способноста за математичко расудување на моделот.
  • Влијанието на обуката за кодови врз способноста за математичко расудување е детално дискутирано и откриено е дека податоците на arXiv имаат ограничен ефект. Вредноста на DeepSeekMath:
  • На заедницата со отворен код и обезбедува моќен модел на математичко расудување и го промовира развојот на математичка вештачка интелигенција.
  • Обезбедува драгоцено искуство и методи за градење математички корпуси и обука на модели за математичко расудување.
  • Предложениот GRPO алгоритам дава нови идеи за обука за зајакнување на учење во други области.

Слични објави

Напишете коментар

Вашата адреса за е-пошта нема да биде објавена. Задолжителните полиња се означени со *