Днес ще споделим DeepSeek R1, Заглавие: DeepSeek-R1: Стимулиране на способността за разсъждение в LLM чрез обучение с подсилване: Стимулиране на способността за разсъждение на LLM чрез обучение с подсилване.
Този документ представя първото поколение модели на разсъждение на DeepSeek, DeepSeek-R1-Zero и DeepSeek-R1. Моделът DeepSeek-R1-Zero беше обучен широкомащабно обучение с подсилване (RL) без контролирана фина настройка (SFT) като начална стъпка, демонстрираща потенциала на RL и превъзходните способности за разсъждение носи. Чрез обучение за укрепване, DeepSeek-R1-Zero естествено се появи с много мощни и интересни разсъждения. За допълнително оптимизиране на някои от проблемите с R1-Zero (езикови обърквания, подобрена способност за обобщение), те пуснаха DeepSeek-R1, който съчетава многоетапно обучение и фина настройка на данните при студен старт преди обучение за подсилване. DeepSeek-R1 постигна сравнима производителност върху задачата за разсъждение с OpenAI-01-1217. За да подкрепят изследователската общност, те го направиха DeepSeek-R1-Zero с отворен код, DeepSeek-R1 и шест плътни модела (1.5B, 7B, 8B, 14B, 32B, 70B), дестилирани от DeepSeek-R1, които са базирани на Qwen и Llama.
Характеристиките на метода са обобщени, както следва:
- Обучението с подсилване се прилага директно към базовия модел, без да разчитате на контролирана фина настройка (SFT) като начална стъпка.
- Въвежда се процесът на разработка DeepSeek-R1, който съчетава две фази на обучение за укрепване и две контролирани фази на фина настройка, за да постави основата на възможностите за разсъждение и неразсъждение на модела.
- Ефективността на малките модели при задачи за разсъждение се подобрява чрез прехвърляне на моделите за разсъждение от големи модели към малки модели чрез техники за дестилация.
Преглед
- Заглавие: DeepSeek-R1: Стимулиране на способността за разсъждение в LLMs чрез обучение за укрепване
- автори: DeepSeek-AI
- Github: deepseek R1
Мотивация
- Настоящите големи езикови модели (LLM) са постигнали значителен напредък в задачите за извод, но все още са изправени пред предизвикателства.
- Потенциалът на чистото обучението с подсилване (RL) за подобряване на способността за разсъждение на LLM не е напълно проучено, особено без да разчитате на контролирани данни.
- Модели, обучени чрез RL, като напр DeepSeek-R1-Zero, имат проблеми с четливостта и смесването на езици (напр. говорене на китайски и английски смесено) и се нуждаят от допълнително подобрение за подобряване на удобството за потребителя.
Методи

DeepSeek-R1-Нула: Използва DeepSeek-V3-Base като основен модел и GRPO (оптимизиране на груповата относителна политика) като обучение за укрепване рамка, без контролирани данни за подобряване на производителността на модела при извод.
DeepSeek-R1:
- Студен старт: Събира малко количество висококачествени дълги CoT (Мисловна верига) данни и фино настройва DeepSeek-V3-Базов модел като първоначален актьор за учене с подсилване.
- Обучение за укрепване, ориентирано към разсъждение: същото процес на обучение за подсилване, тъй като се прилага DeepSeek-R1-Zero, но с фокус върху подобряване на способностите за разсъждение на модела в области като кодиране, математика, наука и логически разсъждения. Наградите за езикова последователност се въвеждат, за да се смекчи проблемът с езиковото смесване, което възниква в CoT.
- Отхвърляне на проби и контролирана фина настройка: Използва конвергентната контролна точка на обучение за подсилване събира данни за контролирана фина настройка (SFT). за последващо обучение.
- Обучение за подсилване за всички сценарии: Внедрява фаза на обучение за подсилване от второ ниво, която има за цел да подобри полезност и безвредност на модела, като същевременно оптимизира способността му за разсъждение.
- Дестилация на знания: Настройва фино моделите с отворен код Qwen и Llama директно с помощта на 800k семпли, курирани от DeepSeek-R1.
Подробни методи и процедури:

DeepSeek-R1-Zero: Подсилващо обучение за базови модели
- Алгоритъм за обучение за укрепване: Използва алгоритъма за групова относителна оптимизация на правилата (GRPO), който не изисква a критик модел, оценява базовата линия по групови резултати и намалява разходите за обучение.
- Моделиране на награди: Използва a базирана на правила система за възнаграждение, включително

- награда за точност: Оценява дали отговорът е правилен, като например правилността на крайния резултат на отговор на математически проблем, обратната връзка от компилатора за проблеми с кода.
- Формат на наградата: Насърчава модела да поставете мисловния процес между
и
етикети.
Шаблон за обучение: Шаблон, съдържащ и
тагове е предназначен да насочете модела, за да изведе първо мисловния процес, а след това окончателния отговор.

- Самоеволюционен процес: DeepSeek-R1-Zero демонстриран самоеволюционни характеристики по време на обучението и успя автономно да научи по-сложни стратегии за разсъждение, като размисъл и изследване на множество пътища за решаване на проблеми.

DeepSeek-R1: Подсилващо обучение, комбинирано със студен старт

- Студен старт: За решаване на DeepSeek-R1-Zero's проблем с четливостта, DeepSeek-R1 първо събира малко количество висококачествени CoT данни и фино настройва модела DeepSeek-V3-Base за служат като първоначален актьор за обучение за засилване. Данните за студен старт съдържа обобщени тагове и недружелюбни отговори се филтрират.
- Метод: 1) Изберете висококачествени дълги COT данни. 2) Добавете и етикети.
- Предимства: 1) Оптимизирана четимост (решете многоезичния проблем на R1-Zero или проблема с формата на маркиране). 2) Внимателно подбраните предпочитани от хората данни могат да продължат да подобряват производителността на R1-Zero.
- Въпрос: Защо да решаваме проблема с четливостта? Не е ли възможно да се направи по-добре, без да се решава (напр. намаляване на дължината на изхода и по-ефективно извеждане)?
- RL, ориентиран към разсъждение: Въз основа на модела на студено стартиране, процес на обучение за укрепване, подобен на Прилага се DeepSeek-R1-Zero, като се фокусира върху подобряване на способността на модела при задачи като кодиране, математика, научни и логически разсъждения. За решаване на проблема със смесените езици (многоезично разсъждение), награди за езикова последователност се въвеждат.
- Въпрос: Как се обучават задачи за научно и логическо разсъждение и набори от данни?
- Отхвърляне на проби и SFT: След като обучението за подсилване, управлявано от изводи, се сближи, получената контролна точка се използва за вземане на проби за отхвърляне за генериране на нови SFT данни, които се комбинират с данните от DeepSeek-V3 за подобряване на възможностите на модела при писане, ролеви игри и общи задачи.
- Цел:
- Тази фаза започва след процесът на ориентирано към извод обучение с подсилване (RL) се сближава.
- Основната цел е да събирайте данни за контролирана фина настройка (SFT). за използване в следващите кръгове на обучение.
- За разлика от първоначалните данни за студен старт, които се фокусират само върху заключение, тази фаза има за цел разширяване на възможностите на модела за покриване на писане, ролеви игри и други задачи с общо предназначение, а не само изводи.
- Събиране на данни – Данни за изводи:
- Метод: Използвайте контролни точки, получени от ориентираната към извод RL фаза, за да генерирате траектории на извод чрез вземане на проби за отхвърляне.
- Разширяване на набор от данни: За разлика от предишната фаза на RL, която използваше само базирани на правила данни за награди, тук се въвеждат данни за награди, които не са базирани на правила. В някои случаи за определяне на отговора се използва генеративен модел на възнаграждение (DeepSeek-V3).
- Филтриране на данни: За да се гарантира качество и четливост, изходът се филтрира, за да се премахне:
- мисловни вериги, съдържащи смесени езици
- дълги параграфи
- кодови блокове
- Вземане на проби и селекция: За всяка подкана бяха генерирани множество отговори. За набора от данни беше запазен само „правилният“ отговор.
- Размер на набора от данни: Приблизително 600 000 проби за обучение, свързани с изводи бяха събрани по този начин.
- Събиране на данни – данни без изводи:
- Покритие: Писане, отговаряне на фактически въпроси (QA), самоосъзнаване и превод.
- Документът споменава използването на Процесът на DeepSeek-V3 и повторно използване на част от набора от SFT данни на DeepSeek-V3 за справяне с тези задачи без изводи. За 200 000 независими от извод проби бяха събрани. (Забележка: Подробностите за събирането на данни без изводи са описани допълнително в Раздел 2.3.4)
- Използване на събраните данни:
- Събраните разсъждаващи и неразсъждаващи данни (общо около 800 000 извадки – 600 000 разсъждаващи проби + 200 000 неразсъждаващи проби) след това бяха използвани за фина настройка на модела DeepSeek-V3-Base за две епохи. След това този фино настроен модел беше използван в последната фаза на RL, описана в раздел 2.3.4.
- Резюме Тази стъпка използва възможностите за извод се научи чрез RL да генерира разнообразен и висококачествен SFT набор от данни. Този набор от данни укрепва възможностите за изводи и също така разширява общите възможности на моделът за обучение във фазата на окончателното привеждане в съответствие и подобряване.
- Цел:
- Обучение с подсилване за всички сценарии: За по-нататъшно привеждане в съответствие на човешките предпочитания е внедрена втора фаза на обучение с подсилване, за да се подобри полезността и безвредността на модела.
- Данни за изводи: напр. математика, код, логически изводи или контролирани с методи на основата на правила.
- Общи данни: моделите за възнаграждение все още се използват за предоставяне на информация за предпочитанията за сложни и фини сценарии. Моделите, обучени с данни по двойки, също се оценяват.
- Полезност: фокусирайте се само върху крайните обобщени резултати, намалявайки намесата в процеса на извод.
- Безвредност: наблюдавайте цялата реакция, за да намалите всички рискове.
Моделна дестилация (Дестилация):
- За да се получи по-ефективен модел за малки изводи, статията дестилира способността за изводи на DeepSeek-R1 в моделите с отворен код от сериите Qwen и Llama. Процесът на дестилация използва само контролирана фина настройка (SFT) и не използва етапа на обучение с подсилване.
Заключение
DeepSeek-R1-Zero: Демонстрира потенциала на чисто обучение за подсилване при мотивиране на способността за изводи на LLM и може да постигне силно представяне без да разчитате на контролирани данни.


- Аха-момент: Красотата на ученето с подсилване (моментът на просветление на модела, където то отделя повече време за мислене за проблем, като се научава да преоценява първоначалния подход)
- Дължината на изхода продължава да се увеличава (времето за мислене продължава да се увеличава)
- Точността продължава да се подобрява (извадка от 16 отговора за изчисляване на точността)

- DeepSeek-R1: Допълнително подобрява производителността на модела чрез комбиниране на данни от студен старт и фина настройка на итеративно обучение за укрепване, постигане на ниво, сравнимо с OpenAI-01-1217 при различни задачи.

- Дестилация на знания: Използвайки DeepSeek-R1 като модел на учител, бяха генерирани 800K проби за обучение и няколко малки, плътни модела бяха фино настроени. Резултатите показват, че това методът на дестилация може значително да подобри способността за извод на малки модели.
Ограничение
- Ограничение 1: Общата способност на DeepSeek-R1 трябва да бъде подобрена. DeepSeek-R1 все още е по-нисък от DeepSeek-V3 в задачи като извикване на функции, многооборотен диалог, сложни ролеви игри и JSON изход.
- Ограничение 2: Проблем със смесването на езика. DeepSeek-R1 може да срещне проблем със смесването на езици, когато обработва некитайски и неанглийски заявки, например разсъждения и отговаряне на английски.
- Ограничение 3: Бърза чувствителност. DeepSeek-R1 е чувствителен към подканващи думи и подканите с няколко изстрела ще намалят неговата производителност.
- Ограничение 4: Ограничено приложение за задачи по софтуерно инженерство. Поради дългото време за оценка, широкомащабното обучение за подсилване не е приложено напълно към задачите на софтуерното инженерство и DeepSeek-R1 има ограничено подобрение спрямо DeepSeek-V3 в бенчмарковете за софтуерно инженерство.