Днес ще споделим DeepSeek R1, Заглавие: DeepSeek-R1: Стимулиране на способността за разсъждение в LLM чрез обучение с подсилване: Стимулиране на способността за разсъждение на LLM чрез обучение с подсилване.

Този документ представя първото поколение модели на разсъждение на DeepSeek, DeepSeek-R1-Zero и DeepSeek-R1. Моделът DeepSeek-R1-Zero беше обучен широкомащабно обучение с подсилване (RL) без контролирана фина настройка (SFT) като начална стъпка, демонстрираща потенциала на RL и превъзходните способности за разсъждение носи. Чрез обучение за укрепване, DeepSeek-R1-Zero естествено се появи с много мощни и интересни разсъждения. За допълнително оптимизиране на някои от проблемите с R1-Zero (езикови обърквания, подобрена способност за обобщение), те пуснаха DeepSeek-R1, който съчетава многоетапно обучение и фина настройка на данните при студен старт преди обучение за подсилване. DeepSeek-R1 постигна сравнима производителност върху задачата за разсъждение с OpenAI-01-1217. За да подкрепят изследователската общност, те го направиха DeepSeek-R1-Zero с отворен код, DeepSeek-R1 и шест плътни модела (1.5B, 7B, 8B, 14B, 32B, 70B), дестилирани от DeepSeek-R1, които са базирани на Qwen и Llama.

Характеристиките на метода са обобщени, както следва:

  1. Обучението с подсилване се прилага директно към базовия модел, без да разчитате на контролирана фина настройка (SFT) като начална стъпка.
  2. Въвежда се процесът на разработка DeepSeek-R1, който съчетава две фази на обучение за укрепване и две контролирани фази на фина настройка, за да постави основата на възможностите за разсъждение и неразсъждение на модела.
  3. Ефективността на малките модели при задачи за разсъждение се подобрява чрез прехвърляне на моделите за разсъждение от големи модели към малки модели чрез техники за дестилация.

Преглед

Мотивация

  • Настоящите големи езикови модели (LLM) са постигнали значителен напредък в задачите за извод, но все още са изправени пред предизвикателства.
  • Потенциалът на чистото обучението с подсилване (RL) за подобряване на способността за разсъждение на LLM не е напълно проучено, особено без да разчитате на контролирани данни.
  • Модели, обучени чрез RL, като напр DeepSeek-R1-Zero, имат проблеми с четливостта и смесването на езици (напр. говорене на китайски и английски смесено) и се нуждаят от допълнително подобрение за подобряване на удобството за потребителя.

Методи

DeepSeek-R1-Нула: Използва DeepSeek-V3-Base като основен модел и GRPO (оптимизиране на груповата относителна политика) като обучение за укрепване рамка, без контролирани данни за подобряване на производителността на модела при извод.

DeepSeek-R1:

  • Студен старт: Събира малко количество висококачествени дълги CoT (Мисловна верига) данни и фино настройва DeepSeek-V3-Базов модел като първоначален актьор за учене с подсилване.
  • Обучение за укрепване, ориентирано към разсъждение: същото процес на обучение за подсилване, тъй като се прилага DeepSeek-R1-Zero, но с фокус върху подобряване на способностите за разсъждение на модела в области като кодиране, математика, наука и логически разсъждения. Наградите за езикова последователност се въвеждат, за да се смекчи проблемът с езиковото смесване, което възниква в CoT.
  • Отхвърляне на проби и контролирана фина настройка: Използва конвергентната контролна точка на обучение за подсилване събира данни за контролирана фина настройка (SFT). за последващо обучение.
  • Обучение за подсилване за всички сценарии: Внедрява фаза на обучение за подсилване от второ ниво, която има за цел да подобри полезност и безвредност на модела, като същевременно оптимизира способността му за разсъждение.
  • Дестилация на знания: Настройва фино моделите с отворен код Qwen и Llama директно с помощта на 800k семпли, курирани от DeepSeek-R1.

Подробни методи и процедури:

DeepSeek-R1-Zero: Подсилващо обучение за базови модели

  • Алгоритъм за обучение за укрепване: Използва алгоритъма за групова относителна оптимизация на правилата (GRPO), който не изисква a критик модел, оценява базовата линия по групови резултати и намалява разходите за обучение.
  • Моделиране на награди: Използва a базирана на правила система за възнаграждение, включително
  • награда за точност: Оценява дали отговорът е правилен, като например правилността на крайния резултат на отговор на математически проблем, обратната връзка от компилатора за проблеми с кода.
  • Формат на наградата: Насърчава модела да поставете мисловния процес между и етикети.

Шаблон за обучение: Шаблон, съдържащ и тагове е предназначен да насочете модела, за да изведе първо мисловния процес, а след това окончателния отговор.

  • Самоеволюционен процес: DeepSeek-R1-Zero демонстриран самоеволюционни характеристики по време на обучението и успя автономно да научи по-сложни стратегии за разсъждение, като размисъл и изследване на множество пътища за решаване на проблеми.

DeepSeek-R1: Подсилващо обучение, комбинирано със студен старт

  • Студен старт: За решаване на DeepSeek-R1-Zero's проблем с четливостта, DeepSeek-R1 първо събира малко количество висококачествени CoT данни и фино настройва модела DeepSeek-V3-Base за служат като първоначален актьор за обучение за засилване. Данните за студен старт съдържа обобщени тагове и недружелюбни отговори се филтрират.
    • Метод: 1) Изберете висококачествени дълги COT данни. 2) Добавете и етикети.
    • Предимства: 1) Оптимизирана четимост (решете многоезичния проблем на R1-Zero или проблема с формата на маркиране). 2) Внимателно подбраните предпочитани от хората данни могат да продължат да подобряват производителността на R1-Zero.
    • Въпрос: Защо да решаваме проблема с четливостта? Не е ли възможно да се направи по-добре, без да се решава (напр. намаляване на дължината на изхода и по-ефективно извеждане)?
  • RL, ориентиран към разсъждение: Въз основа на модела на студено стартиране, процес на обучение за укрепване, подобен на Прилага се DeepSeek-R1-Zero, като се фокусира върху подобряване на способността на модела при задачи като кодиране, математика, научни и логически разсъждения. За решаване на проблема със смесените езици (многоезично разсъждение), награди за езикова последователност се въвеждат.
    • Въпрос: Как се обучават задачи за научно и логическо разсъждение и набори от данни?
  • Отхвърляне на проби и SFT: След като обучението за подсилване, управлявано от изводи, се сближи, получената контролна точка се използва за вземане на проби за отхвърляне за генериране на нови SFT данни, които се комбинират с данните от DeepSeek-V3 за подобряване на възможностите на модела при писане, ролеви игри и общи задачи.
    • Цел:
      • Тази фаза започва след процесът на ориентирано към извод обучение с подсилване (RL) се сближава.
      • Основната цел е да събирайте данни за контролирана фина настройка (SFT). за използване в следващите кръгове на обучение.
      • За разлика от първоначалните данни за студен старт, които се фокусират само върху заключение, тази фаза има за цел разширяване на възможностите на модела за покриване на писане, ролеви игри и други задачи с общо предназначение, а не само изводи.
    • Събиране на данни – Данни за изводи:
      • Метод: Използвайте контролни точки, получени от ориентираната към извод RL фаза, за да генерирате траектории на извод чрез вземане на проби за отхвърляне.
      • Разширяване на набор от данни: За разлика от предишната фаза на RL, която използваше само базирани на правила данни за награди, тук се въвеждат данни за награди, които не са базирани на правила. В някои случаи за определяне на отговора се използва генеративен модел на възнаграждение (DeepSeek-V3).
      • Филтриране на данни: За да се гарантира качество и четливост, изходът се филтрира, за да се премахне:
        • мисловни вериги, съдържащи смесени езици
        • дълги параграфи
        • кодови блокове
      • Вземане на проби и селекция: За всяка подкана бяха генерирани множество отговори. За набора от данни беше запазен само „правилният“ отговор.
      • Размер на набора от данни: Приблизително 600 000 проби за обучение, свързани с изводи бяха събрани по този начин.
    • Събиране на данни – данни без изводи:
      • Покритие: Писане, отговаряне на фактически въпроси (QA), самоосъзнаване и превод.
      • Документът споменава използването на Процесът на DeepSeek-V3 и повторно използване на част от набора от SFT данни на DeepSeek-V3 за справяне с тези задачи без изводи. За 200 000 независими от извод проби бяха събрани. (Забележка: Подробностите за събирането на данни без изводи са описани допълнително в Раздел 2.3.4)
    • Използване на събраните данни:
      • Събраните разсъждаващи и неразсъждаващи данни (общо около 800 000 извадки – 600 000 разсъждаващи проби + 200 000 неразсъждаващи проби) след това бяха използвани за фина настройка на модела DeepSeek-V3-Base за две епохи. След това този фино настроен модел беше използван в последната фаза на RL, описана в раздел 2.3.4.
    • Резюме Тази стъпка използва възможностите за извод се научи чрез RL да генерира разнообразен и висококачествен SFT набор от данни. Този набор от данни укрепва възможностите за изводи и също така разширява общите възможности на моделът за обучение във фазата на окончателното привеждане в съответствие и подобряване.
  • Обучение с подсилване за всички сценарии: За по-нататъшно привеждане в съответствие на човешките предпочитания е внедрена втора фаза на обучение с подсилване, за да се подобри полезността и безвредността на модела.
    • Данни за изводи: напр. математика, код, логически изводи или контролирани с методи на основата на правила.
    • Общи данни: моделите за възнаграждение все още се използват за предоставяне на информация за предпочитанията за сложни и фини сценарии. Моделите, обучени с данни по двойки, също се оценяват.
    • Полезност: фокусирайте се само върху крайните обобщени резултати, намалявайки намесата в процеса на извод.
    • Безвредност: наблюдавайте цялата реакция, за да намалите всички рискове.

Моделна дестилация (Дестилация):

  • За да се получи по-ефективен модел за малки изводи, статията дестилира способността за изводи на DeepSeek-R1 в моделите с отворен код от сериите Qwen и Llama. Процесът на дестилация използва само контролирана фина настройка (SFT) и не използва етапа на обучение с подсилване.

Заключение

DeepSeek-R1-Zero: Демонстрира потенциала на чисто обучение за подсилване при мотивиране на способността за изводи на LLM и може да постигне силно представяне без да разчитате на контролирани данни.

  • Аха-момент: Красотата на ученето с подсилване (моментът на просветление на модела, където то отделя повече време за мислене за проблем, като се научава да преоценява първоначалния подход)
  • Дължината на изхода продължава да се увеличава (времето за мислене продължава да се увеличава)
  • Точността продължава да се подобрява (извадка от 16 отговора за изчисляване на точността)
  • DeepSeek-R1: Допълнително подобрява производителността на модела чрез комбиниране на данни от студен старт и фина настройка на итеративно обучение за укрепване, постигане на ниво, сравнимо с OpenAI-01-1217 при различни задачи.
  • Дестилация на знания: Използвайки DeepSeek-R1 като модел на учител, бяха генерирани 800K проби за обучение и няколко малки, плътни модела бяха фино настроени. Резултатите показват, че това методът на дестилация може значително да подобри способността за извод на малки модели.

Ограничение

  • Ограничение 1: Общата способност на DeepSeek-R1 трябва да бъде подобрена. DeepSeek-R1 все още е по-нисък от DeepSeek-V3 в задачи като извикване на функции, многооборотен диалог, сложни ролеви игри и JSON изход.
  • Ограничение 2: Проблем със смесването на езика. DeepSeek-R1 може да срещне проблем със смесването на езици, когато обработва некитайски и неанглийски заявки, например разсъждения и отговаряне на английски.
  • Ограничение 3: Бърза чувствителност. DeepSeek-R1 е чувствителен към подканващи думи и подканите с няколко изстрела ще намалят неговата производителност.
  • Ограничение 4: Ограничено приложение за задачи по софтуерно инженерство. Поради дългото време за оценка, широкомащабното обучение за подсилване не е приложено напълно към задачите на софтуерното инженерство и DeepSeek-R1 има ограничено подобрение спрямо DeepSeek-V3 в бенчмарковете за софтуерно инженерство.

Подобни публикации

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *