Денес ќе споделиме DeepSeek R1, Наслов: DeepSeek-R1: Поттикнување на способноста за расудување во LLM преку учење за зајакнување: Поттикнување на способноста за расудување на LLM преку учење за зајакнување.

Овој труд ја воведува првата генерација на модели на расудување на DeepSeek, DeepSeek-R1-Нула и DeepSeek-R1. Моделот DeepSeek-R1-Zero беше обучен преку засилено учење од големи размери (RL) без надгледувано фино подесување (SFT) како почетен чекор, покажувајќи го потенцијалот на RL и супериорните способности за расудување тоа носи. Преку засилено учење, DeepSeek-R1-Zero природно се појави со многу моќни и интересни расудувачки однесувања. За понатамошно оптимизирање на некои од проблемите со R1-Zero (јазични забуни, подобрена способност за генерализација), тие објавија DeepSeek-R1, кој комбинира обука во повеќе фази и фино подесување на податоците со ладен старт пред учењето за засилување. DeepSeek-R1 постигна споредливи перформанси на задачата за расудување со OpenAI-01-1217. За поддршка на истражувачката заедница, тие имаат отворен извор DeepSeek-R1-Zero, DeepSeek-R1 и шест густи модели (1.5B, 7B, 8B, 14B, 32B, 70B) дестилирани од DeepSeek-R1, кои се базирани на Qwen и Llama.

Карактеристиките на методот се сумирани како што следува:

  1. Зајакнувачкото учење се применува директно на основниот модел, без да се потпирате на надгледувано дотерување (SFT) како почетен чекор.
  2. Воведен е развоен процес DeepSeek-R1, кој комбинира две фази за зајакнување на учење и две надгледувани фази за фино подесување за да се постави основата за способностите за расудување и неразумување на моделот.
  3. Перформансите на малите модели на задачите за расудување се подобруваат со пренесување на моделите на расудување на големите модели на мали модели преку техники на дестилација.

Преглед

Мотивација

  • Тековните големи јазични модели (LLMs) постигнаа значителен напредок во задачите за заклучување, но сепак се соочуваат со предизвици.
  • Потенцијалот на чиста зајакнувачкото учење (RL) за подобрување на способноста за расудување на LLM не е целосно истражено, особено без да се потпирате на надгледувани податоци.
  • Модели обучени преку RL, како на пр DeepSeek-R1-Zero, имаат проблеми со читливоста и мешањето јазици (на пр., мешано зборување кинески и англиски) и треба дополнително подобрување за да се подобри прилагодливоста на корисниците.

Методи

DeepSeek-R1-Нула: Користи DeepSeek-V3-Base како основен модел и GRPO (Групна релативна политика за оптимизација) како зајакнувачко учење рамка, без надгледувани податоци за подобрување на перформансите на моделот во заклучоците.

DeepSeek-R1:

  • Ладен почеток: Собира мала количина на висококвалитетни долги CoT (Chain-of-Thought) податоци и фино го прилагодува DeepSeek-V3-Основен модел како иницијален чинител за засилено учење.
  • Зајакнувачко учење ориентирано кон расудување: Истото се применува процесот на обука за зајакнување на учење како DeepSeek-R1-Zero, но со фокус на подобрување на способностите за расудување на моделот во области како што се кодирање, математика, наука и логично расудување. Се воведуваат награди за јазична конзистентност за да се ублажи проблемот со јазичното мешање што се јавува во CoT.
  • Земање примероци за отфрлање и надгледувано дотерување: Го користи конвергираниот контролен пункт на засилување учење да собира податоци за надгледувано фино подесување (SFT). за последователна обука.
  • Засилено учење за сите сценарија: спроведува фаза на учење за зајакнување на второ ниво, која има за цел да го подобри корисноста и безопасноста на моделот при оптимизирање на неговата способност за расудување.
  • Дестилација на знаење: Добро ги прилагодува моделите со отворен код Qwen и Llama директно користејќи 800 илјади примероци курирани од DeepSeek-R1.

Детални методи и процедури:

DeepSeek-R1-Zero: Засилено учење за основни модели

  • Алгоритам за зајакнување на учењето: Го користи алгоритмот за оптимизација на релативна политика на група (GRPO), кој не бара а критичар модел, ја проценува основната линија по групни резултати и ги намалува трошоците за обука.
  • Моделирање на награда: Користи а систем за наградување заснован на правила, вклучувајќи
  • награда за точност: Оценува дали одговорот е точен, како што е точноста на конечниот резултат на Одговор за математички проблем, повратни информации од компајлерот за проблеми со кодот.
  • Форматирајте ја наградата: Го поттикнува моделот да поставете го процесот на размислување помеѓу и ознаки.

Шаблон за обука: Шаблон кој содржи и тагови е дизајниран да водете го моделот прво да излезе на процесот на размислување, а потоа конечниот одговор.

  • Самоеволутивен процес: Демонстрирано DeepSeek-R1-Zero само-еволутивни карактеристики за време на обуката и можеше автономно да научи посложени стратегии за расудување, како што се размислување и истражување на повеќе патеки за решавање проблеми.

DeepSeek-R1: Засилено учење во комбинација со ладен старт

  • Ладен почеток: За решавање на DeepSeek-R1-Zero's проблем со читливост, DeepSeek-R1 прво собира мала количина на висококвалитетни CoT податоци и фино го прилагодува моделот DeepSeek-V3-Base на служат како иницијален чинител за засилено учење. Податоци за ладен почеток содржи резиме ознаки и непријателски одговори се филтрираат.
    • Метод: 1) Изберете висококвалитетни Long COT податоци. 2) Додавање и ознаки.
    • Предности: 1) Оптимизирана читливост (решете го повеќејазичниот проблем на R1-Zero или проблемот со форматот на обележување). 2) Внимателно избраните податоци претпочитани од човекот може да продолжат да ги подобруваат перформансите на R1-Zero.
    • Прашање: Зошто да се реши проблемот со читливоста? Зарем не е можно да се направи подобро без да се реши (на пр., намалување на должината на излезот и поефикасно заклучување)?
  • RL ориентирана кон расудување: Врз основа на моделот со ладен старт, процес на учење за зајакнување сличен на Се применува DeepSeek-R1-Zero, фокусирајќи се на подобрување на способноста на моделот во задачи како што се кодирање, математика, научно и логично расудување. Да се реши проблемот со мешаните јазици (повеќејазично расудување), награди за јазична конзистентност се воведуваат.
    • Прашање: Како се обучуваат задачите и збирките на податоци за научно и логично расудување?
  • Земање примероци за отфрлање и SFT: Откако ќе се конвергира учењето за засилување водено со заклучоци, добиената контролна точка се користи за земање примероци за отфрлање за да се генерираат нови SFT податоци, кои се комбинираат со податоците од DeepSeek-V3 за да се подобрат можностите на моделот во пишување, играње улоги и општи задачи.
    • Цел:
      • Оваа фаза се започнува по Процесот на засилено учење (RL) ориентиран кон заклучоци конвергира.
      • Главната цел е да собира податоци за надгледувано дотерување (SFT). за употреба во следните обуки.
      • За разлика од првичните податоци за ладен почеток, кои се фокусираат само на заклучоците, оваа фаза има за цел да проширете ги можностите на моделот да го покрие пишувањето, играњето улоги и други задачи за општа намена, а не само заклучување.
    • Собирање податоци – податоци за заклучување:
      • Метод: Користете контролни точки добиени од фазата RL ориентирана кон заклучоци за да генерирате траектории за заклучување со земање примероци за отфрлање.
      • Проширување на множеството податоци: За разлика од претходната RL фаза, која користеше само податоци за награди засновани на правила, овде се воведуваат податоци за награди кои не се засноваат на правила. Во некои случаи, генеративен модел на награда (DeepSeek-V3) се користи за одредување на одговорот.
      • Филтрирање податоци: За да се обезбеди квалитет и читливост, излезот се филтрира за да се отстрани:
        • мисловни синџири кои содржат мешани јазици
        • долги параграфи
        • блокови на кодови
      • Земање примероци и избор: За секое барање, беа генерирани повеќе одговори. Само „точниот“ одговор беше задржан за датата на податоци.
      • Големина на збирка податоци: Приближно 600.000 примероци за обука поврзани со заклучоци беа собрани на овој начин.
    • Собирање податоци – податоци без заклучоци:
      • Покриеност: пишување, одговарање на фактички прашања (QA), самосвест и превод.
      • Во трудот се споменува употребата на Процесот на DeepSeek-V3 и повторното користење на дел од базата на податоци DeepSeek-V3 SFT да се справи со овие задачи што не се заклучуваат. За 200.000 примероци независни од заклучоците беа собрани. (Забелешка: Деталите за собирањето податоци што не се заклучуваат се дополнително опишани во Дел 2.3.4)
    • Употреба на собрани податоци:
      • Собраните податоци за расудување и нерасудување (вкупно околу 800.000 примероци – 600.000 примероци за расудување + 200.000 примероци без резонирање) потоа беа искористени за фино подесете го моделот DeepSeek-V3-Base за две епохи. Овој фино подесен модел потоа се користеше во последната RL фаза опишана во Дел 2.3.4.
    • Резиме Овој чекор ги користи можностите за заклучување научи преку RL да генерира разновидна и висококвалитетна SFT база на податоци. Оваа база на податоци ги зајакнува способностите за заклучување и исто така ги проширува општите способности на моделот за обука во фазата на финално усогласување и подобрување.
  • Зајакнувачко учење за сите сценарија: За понатамошно усогласување на човековите преференции, се спроведува втора фаза од учењето за засилување за да се подобри корисноста и безопасноста на моделот.
    • Податоци за заклучување: на пр. математика, код, логички заклучоци или надгледувани со методи на база на правила.
    • Општи податоци: моделите на награди сè уште се користат за да се обезбедат информации за преференци за сложени и суптилни сценарија. Се проценуваат и модели обучени со податоци во пар.
    • Корисност: фокусирајте се само на конечните резиме резултати, намалувајќи ги пречките во процесот на заклучување.
    • Безопасност: надгледувајте го целиот одговор за да ги намалите сите ризици.

Модел на дестилација (дестилација):

  • Со цел да се добие поефикасен модел за мали заклучоци, трудот ја дестилира способноста за заклучување на DeepSeek-R1 во моделите со отворен код од сериите Qwen и Llama. Процесот на дестилација користи само надгледувано дотерување (SFT) и не ја користи фазата на засилено учење.

Заклучок

DeepSeek-R1-Нула: Го демонстрира потенцијалот на Чисто засилено учење во мотивирање на способноста за заклучување на LLM и може да постигне силни перформанси без да се потпираат на надгледувани податоци.

  • Аха-момент: Убавината на учењето за зајакнување (моментот на просветлување на моделот, каде што одвојува повеќе време за размислување за проблем со тоа што ќе научи да се превреднува првичниот пристап)
  • Излезната должина продолжува да се зголемува (времето на размислување продолжува да се зголемува)
  • Точноста продолжува да се подобрува (примерок од 16 одговори за да се пресмета точноста)
  • DeepSeek-R1: Дополнително ги подобрува перформансите на моделот со комбинирање на податоци за ладен старт и повторливо подесување на учењето со засилување, постигнување на ниво споредливо со OpenAI-01-1217 за различни задачи.
  • Дестилација на знаење: Користејќи го DeepSeek-R1 како модел на наставници, беа генерирани 800K примероци за обука и неколку мали, густи модели беа фино подесени. Резултатите покажуваат дека ова методот на дестилација може значително да ја подобри способноста за заклучување на мали модели.

Ограничување

  • Ограничување 1: Општата способност на DeepSeek-R1 треба да се подобри. DeepSeek-R1 сè уште е инфериорен во однос на DeepSeek-V3 во задачи како што се повици на функции, дијалог со повеќе вртења, сложено играње улоги и JSON излез.
  • Ограничување 2: Проблем со мешање јазик. DeepSeek-R1 може да наиде на проблем со мешање јазик кога обработува некинески и неанглиски прашања, на пример, расудување и одговарање на англиски јазик.
  • Ограничување 3: Навремена чувствителност. DeepSeek-R1 е чувствителен на зборови, а неколкуте снимки ќе ги намалат неговите перформанси.
  • Ограничување 4: Ограничена примена на задачи за софтверско инженерство. Поради долгото време на евалуација, учењето за засилување од големи размери не е целосно применето на задачите за софтверско инженерство, а DeepSeek-R1 има ограничено подобрување во однос на DeepSeek-V3 во одредниците за софтверско инженерство.

Слични објави

Напишете коментар

Вашата адреса за е-пошта нема да биде објавена. Задолжителните полиња се означени со *