DeepSeek R1 тълкуване на хартия и ключови технически точки

Съдържание

1 Фон

По време на Пролетния фестивал, DeepSeek R1 отново привлече широко внимание и дори статията за интерпретация на DeepSeek V3, която написахме по-рано, също беше препредадена и обсъждана много.

Въпреки че има много анализи и репродукции на DeepSeek R1, тук решихме да съставим някои съответни бележки за четене.

Ще използваме три основни схематични диаграми, за да демонстрираме конструкцията на модела и ключови технически точки, дестилирайки същността на серията DeepSeek-R1, за да осигурим по-интуитивно разбиране на нейните дизайнерски идеи.

Съответстващата хартия е [2501.12948] DeepSeek-R1: Стимулиране на способността за разсъждение в LLMs чрез обучение с подсилване

и съответният модел с отворен код е DeepSeek-R1

2 Въведение

2.1 Общи алгоритми за разсъждение

Както е показано на фигура 2 по-долу, авторът обяснява четирите общи алгоритъма за разсъждение. Въпреки че се различават в конкретни подробности, всички те включват две основни операции:

Разширяване: генерирайте жетони за разширяване на пътя на решението.
Агрегиране: интегрирайте резултатите от всеки път, за да получите крайния отговор. Увеличаването на изчислителните ресурси във фазата на разширяване обикновено може да подобри качеството на отговора във фазата на агрегиране.

Самосъгласуваност (SC). Както е показано на фигура 2а, основната идея на SC е да генерира множество различни изходни данни (което може да се постигне чрез промяна на параметрите за вземане на проби и т.н.) и след това да се гласува за всички отговори, за да се избере отговорът с най-висок процент на печалба. Ключовият параметър е броят на кандидат отговорите n.

Алгоритъм за повторно базиране: Както е показано на фигура 2b по-долу, Rebase също генерира множество изходни данни, но те се генерират на няколко стъпки. Всяка стъпка се оценява с помощта на модела за награда и резултатът с най-висок резултат се използва за продължаване на генерирането. Накрая се генерира разсъждаващо дърво с множество разклонения. Отговорът с най-висок резултат (Best-of-N) се избира в етапа на обобщаване.

Търсене в дърво Монте Карло (MCTS): Както е показано на фигура 2c по-долу, MCTS е мощен алгоритъм за разсъждение, който разширява възлите чрез постепенно вземане на проби и конструира дърво на решение, докато достигне листов възел, съдържащ кандидат решение. Всяко решение се оценява чрез модел на възнаграждение или симулация и резултатът се разпространява обратно към неговите предшестващи възли, за да актуализира своите стойности на възнаграждение, като по този начин завършва итерация. Ключовият параметър също е n, а увеличаването на n позволява по-задълбочено и по-широко изследване на потенциални решения.

Интернализирана когнитивна верига (ICoT). Както е показано на фигура 2d по-долу, най-новите LLMs, като OpenAI o1 и Qwen-QWQ, могат да интернализират поведението на разсъждение по време на обучение без необходимост от явен алгоритъм за разсъждение. Основната идея е да се генерира CoT последователност, да се разложат сложни проблеми на множество подпроблеми и след това итеративно да се оптимизират тези отговори чрез отразяване на предишни резултати, за да се стигне в крайна сметка до решение.

2.2 Методи за подравняване на разсъжденията

2.2.1 Преглед на метода Best-of-N

Накратко, Best-of-N е метод за подравняване, широко използван в LLM изводите, който има за цел да осигури високо качество на генерираните резултати чрез генериране на множество отговори на кандидати и избор на най-добрия. Състои се от три основни процеса:

Процес на генериране: За дадена подкана X, методът Best-of-N генерира N IID отговора (Y₁, Y₂, …, Yₙ), където N често се нарича „размер на партидата“.
Механизъм за точкуване: Всеки генериран отговор се оценява от модел на възнаграждение, за да се получи съответен резултат {s(Y₁), s(Y₂), …, s(Yₙ)}.
Избор на най-добрия отговор: Накрая отговорът с най-висок резултат сред всички генерирани отговори се избира като изход, т.е. Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}.

Предимствата на този метод са:

Той може ефективно да избегне сложни стъпки за фина настройка, което улеснява внедряването на езикови модели, които са били предварително обучени или фино настроени с инструкции.
Той е лесен за изпълнение, лесен за разбиране и по същество без хиперпараметри: основният хиперпараметър е N, който може да бъде динамично коригиран по време на извод.
Той е силно конкурентен по отношение на качеството на генериране и дори може да съперничи на някои сложни техники след обучение като RLHF или DPO. Изследванията показват, че методът Best-of-N се представя добре на кривата на компромис между възнаграждението и отклонението на KL, като дори надминава други сложни стратегии за подравняване.

Недостатъците на този метод са

изводът изисква генериране на N последователности, което може да доведе до значителни изчислителни разходи. На практика една разумна стойност за N варира от 4 до 128, но за да се конкурира с най-напредналите методи след обучение, може да са необходими по-високи стойности на N, като например 1000 до 60 000, което може да доведе до почти неприемливи изчислителни разходи.

Методът най-доброто от N често се използва за генериране на висококачествени набори от данни за последваща контролирана фина настройка и играе ключова роля в процеса на подравняване на LLaMA-2 и LLaMA-3.

2.2.2 OpenAI метод най-доброто от N

OpenAI за първи път предложи вземане на проби от Best-of-N в [2009.01325] Да се научим да обобщаваме от човешка обратна връзка . По-конкретно, той се използва за оценка и оптимизиране на ефективността на обобщения модел чрез избиране на най-доброто обобщение, генерирано от множество модели. Този метод помага на изследователите да разберат по-добре връзката между различните показатели за оценка и предпочитанията на човешкия оценител и се използва за насочване на обучението и оптимизирането на модела.

OpenAI също използва семплиране Best-of-N (проба за отхвърляне) в последващите действия [2112.09332] WebGPT: Подпомогнато от браузъра отговаряне на въпроси с човешка обратна връзка. По-конкретно, фиксиран брой отговори (4, 16 или 64) се вземат на извадка от BC модела или RL модела и този с най-висок резултат от модела на възнаграждение се избира като метод за оптимизация за състезателния модел на възнаграждение. Този метод не изисква допълнително обучение, но увеличава изчислителната сложност на етапа на извод, който трябва да се постигне.

2.2.3 Метод на Google BOND

В [2407.14622] BOND: Изравняване на LLM с Best-of-N дестилация, авторите от Google предлагат Best-of-N дестилация (BOND), нов RLHF алгоритъм, предназначен да симулира стратегията за вземане на проби Best-of-N чрез алгоритъм за съпоставяне на разпределение, без значително увеличаване на изчислителните разходи по време на извода.

По-конкретно, авторът първо извежда точното аналитично разпределение на извадката Best-of-N и дава функцията на вероятността за вземането на проби Best-of-N:

Второ, авторите изразяват проблема като проблем за съпоставяне на разпределението;

след това авторите предлагат да се използва дивергенцията на Джефрис като цел за съпоставяне на разпределението:

И накрая, за да се реши проблемът с избора на N, авторите предлагат итеративния метод BOND, който подобрява ефективността на стратегията чрез итеративно дестилиране на разпределението Best-of-N. Конкретните стъпки включват:

Инициализирайте спомагателната стратегия за котва π (котва).

Итеративно изпълнявайте BOND, за да дестилирате Best-of-N π(котва) и актуализирайте π(котва) след всяка стъпка.

2.3 Супервизия на процеса и супервизия на резултатите

Резултатът и процесът се отнасят до двата аспекта на оценката на модела за възнаграждение:

Модел на възнаграждение за резултат: Оценете дали крайният резултат от изхода на модела е правилен или според очакванията.
Модел на възнаграждение на процеса: Оценява дали разсъжденията на модела и стъпките за вземане на решения в процеса на генериране на резултати са разумни и ефективни.

Например OpenAI's Let's Verify Step by Step | OpenAI също споменава:

Надзор на процеса (наблюдаван от резултатите): включва предоставяне на обратна връзка за всяка стъпка от процеса на разсъждение на модела. Моделите за възнаграждение с контролиран процес (PRM) са обучени да предвиждат правилността на всяка стъпка от решението.
Контролиран от резултат: Контролиран от резултат предоставя обратна връзка само въз основа на крайния резултат от разсъжденията на модела. Моделите за възнаграждение с контролиран резултат (ORM) се обучават с помощта на крайния отговор на решението и коректността се определя чрез автоматична проверка.

2.4 Хакване на награди

В RL хакването на наградите се отнася до феномена, при който агент използва недостатък в дизайна на функцията за възнаграждение, за да увеличи максимално кумулативното възнаграждение по начин, който не отговаря на първоначалното намерение на дизайнера. Въпреки че това поведение технически отговаря на целта за оптимизация на функцията за възнаграждение, действителният ефект се отклонява от очакваната цел на задачата и дори може да доведе до отрицателни последици.

Анализ на ключови точки:

Определение и проявление:
1. Агентът намира недостатък във функцията за възнаграждение и получава високо възнаграждение, като използва „преки пътища“, вместо действително да реши проблема.
2. Например, почистващ робот изключва осветлението, за да накара стаята да „изглежда“ чиста, вместо всъщност да я почиства; агент на играта многократно отбелязва точки, без да изпълни целта на ниво; избор да не намалява скоростта, за да се намали броят на спирачните времена, което представлява опасност за безопасността; генериране на безсмислено съдържание, което съвпада с ключови думи, за да измамят високи резултати.
Основни причини:
1. Непълен дизайн на функцията за възнаграждение: прекалено опростяване или непокриване на крайни случаи.
2. Несъответствие между целите и наградите: функцията за възнаграждение не успява да отрази напълно истинската цел, което кара агента да оптимизира за „грешната“ цел.
Решения:
1. Подобрете дизайна на наградите: въведете многоизмерни награди (напр. безопасност, ефективност и т.н.) или динамично коригирайте функцията за награди.
2. Състезателна проверка: открийте дали агентът „мами“ чрез допълнителни механизми.
3. Ръчна намеса и ограничения: задайте поведенчески граници (напр. защитен слой) или ръчна обратна връзка (напр. RLHF).
4. Обучение с обратно подсилване (IRL): научете по-реалистична функция за възнаграждение от експертни демонстрации.
5. Обучение за йерархично укрепване: разбийте задачата на подцели, за да намалите риска от локална оптимизация.
Асоциация с прекомерно оборудване:
1. И двете показват липса на връзка между показателите за обучение и производителността в реалния свят, но Reward Hacking поставя повече акцент върху недостатъците на дизайна на функцията за възнаграждение, отколкото върху способността за обобщаване на модела.
Резюме:
1. Reward Hacking разкрива предизвикателството на подравняването на целите в RL. Решаването на този проблем изисква комбинация от проектиране на по-стабилни механизми за възнаграждение, въвеждане на външни ограничения и включване на човешки предварителни знания, за да се гарантира, че поведението на агента е едновременно ефективно и в съответствие с намерението на дизайна.

3 DeepSeek-R1-Zero & DeepSeek-R1

3.1 Преглед

Предишни изследвания до голяма степен разчитаха на големи количества контролирани данни за подобряване на производителността на модела. Това проучване показва, че дори без SFT като студен старт, широкомащабният RL може значително да подобри способността за разсъждение на модела. В допълнение, въвеждането на малко количество данни за студен старт може допълнително да оптимизира производителността. Следват моделите, свързани с DeepSeek-R1:

DeepSeek-R1-Zero: Този модел прилага RL директно към базовия модел без никакви SFT данни.
DeepSeek-R1: Този модел прилага RL, започвайки от контролна точка, която е фино настроена с хиляди дълги CoT проби.
DeepSeek-R1-Distill-xx: Дестилира способността за разсъждение на DeepSeek-R1 в малък плътен модел.

3.2 DeepSeek-R1-Нула

Следната фигура показва ключовите точки в обучението на модела DeepSeek-R1-Zero:

PS: Трябва да се отбележи, че документът не предоставя много информация за данните, използвани в процеса на RL на DeepSeek-R1-Zero. Въпреки това, има известно обяснение на процеса на генериране на данни и количеството в последващото R1 обучение, въпреки че то не е особено конкретно.

3.2.1 RL алгоритъм

За да намалят разходите за обучение на RL, авторите използват собствения метод на DeepSeek GRPO (оптимизация на относителната групова политика), [2402.03300] DeepSeekMath: Разширяване на границите на математическото разсъждение в моделите на отворен език. Този метод изоставя модела на критиката, който обикновено е сравним по размер с модела на политиката, и вместо това оценява базовата линия с помощта на групов резултат. Съответното обяснение е показано на фигурата по-долу (снимка от Twitter):

3.2.2 Моделиране на възнагражденията

Наградите са източник на сигнали за обучение и определят посоката на оптимизация на RL. За да обучат DeepSeek-R1-Zero, авторите са използвали система за възнаграждение, базирана на правила, която се състои основно от два вида награди:

Награда за точност: Оценете дали отговорът е правилен. Например:
- При математически проблеми с детерминистични резултати, моделът трябва да предостави крайния отговор в специфичен формат (например в кутия), така че неговата коректност да може надеждно да се провери чрез правила.
- По същия начин, за проблеми с LeetCode, обратната връзка може да бъде генерирана с помощта на компилатор, базиран на предварително дефинирани тестови случаи.
Награда за формат: Наградата за формат също се използва, за да принуди модела да постави мисловния си процес между „ " и " ” етикети.

По време на разработването на DeepSeek-R1-Zero, авторът не е използвал модела за невронно възнаграждение за резултат или модела за невронно възнаграждение на процеса, тъй като авторът е открил, че моделът за невронно възнаграждение може да срещне подправяне на възнаграждение (Хакване на възнаграждение) в широкомащабни RL процеси; в допълнение, преобучението на модела на възнаграждение не само изисква допълнителни ресурси за обучение, но и усложнява целия процес на обучение.

3.2.3 Шаблон за обучение

За да обучат DeepSeek-R1-Zero, авторите първо проектират прост шаблон, който да насочва базовия модел да следва зададените инструкции. Както е показано в таблица 1 по-долу, шаблонът изисква DeepSeek-R1-Zero да генерира процес на извод и след това да даде окончателния отговор.

Авторът съзнателно ограничи ограниченията на тази структурна рамка, за да избегне въвеждането на каквито и да било пристрастия към съдържанието – например, принуждаване на рефлексивни разсъждения или насърчаване на конкретни стратегии за решаване на проблеми – за да гарантира, че естествената еволюция на модела може да бъде точно наблюдавана по време на процеса на RL.

3.2.4 Заключение

Стабилни възможности за разсъждение без SFT данни: Чрез стартиране на RL директно от базовия модел, траекторията на развитие на модела може да бъде наблюдавана отблизо без SFT намеса. Както показва Фигура 3 по-долу, времето за мислене на DeepSeek-R1-Zero продължава да се подобрява (дължината на растеж постепенно става по-дълга) по време на процеса на обучение. Това подобрение не идва от външни корекции, а е естествен резултат от вътрешното развитие на модела. DeepSeek-R1-Zero естествено придоби способността да решава все по-сложни задачи за изводи, като способността за отразяване, чрез използване на разширени изчисления на времето за тестване.

DeepSeek-R1-Zero преживя „аха момент“ по време на тренировка. Както е показано в таблица 3 по-долу, този момент настъпи по време на етапа на средната версия на модела. По време на този етап DeepSeek-R1-Zero се научи да отделя повече време за мислене на проблеми чрез преоценка на първоначалния си подход.

Мажоритарно гласуване: Ефективността на DeepSeek-R1-Zero може да бъде допълнително подобрена чрез прилагане на мажоритарно гласуване. Например, както е показано в таблица 2 по-долу, след като се използва мажоритарно гласуване в бенчмарк теста на AIME, неговата производителност скача от 71.0% на 86.7%, надминавайки OpenAI-o1-0912.

Слабости: Въпреки че DeepSeek-R1-Zero демонстрира силни способности за разсъждение и автономно развива неочаквани и мощни поведения за разсъждение, той все още е изправен пред предизвикателства като лоша четливост и смесване на езици.

3.3 DeepSeek-R1

За да направят процеса на разсъждение по-четлив и да го споделят с отворената общност, авторите допълнително изследват метода DeepSeek-R1, който използва удобни за хората данни за студен старт за RL. Вдъхновени от DeepSeek-R1-Zero, следват два естествени въпроса:

Може ли производителността на Reasoning да бъде допълнително подобрена или процесът на конвергенция да бъде ускорен чрез въвеждане на малко количество висококачествени данни като студен старт?
Как можем да обучим удобен за потребителя модел, който не само генерира ясни и последователни CoT, но също така демонстрира силни способности за обобщение?

В отговор на тези въпроси разработихме процес на обучение за DeepSeek-R1. Процесът се състои от няколко етапа, както е описано по-долу:

Етап-1, както е показано на фигурата по-долу, обучава междинното състояние на DeepSeek-R1 чрез SFT + RL:

Следната фигура показва етапи-2, 3 и 4:

Етап-2: горе вляво, конструирайте 200K данни без разсъждение и 600K данни за разсъждение.
Етап-3: горе вдясно, SFT + RL влак DeepSeek-R1.
Етап-4: долна фигура, Distill DeepSeek-R1-Distill-xx.

3.3.1 Студен старт (Етап-1)

За разлика от DeepSeek-R1-Zero, за да предотвратят нестабилната фаза на студен старт на базовия модел в началото на RL обучението, авторите изградиха и събраха малко количество данни за Long CoT за DeepSeek-R1, за да настроят фино модела като първоначален RL актьор. За да съберат тези данни, авторите изследват различни методи:

Използване на подкани за няколко изстрела с примери за дълги CoT
Директно подканване на модела да генерира подробни отговори с размисъл и проверка
Събиране на изход DeepSeek-R1-Zero в четим от човека формат
Прецизиране на резултатите чрез последваща обработка с ръчно етикетиране

Авторите събраха общо хиляди данни от Cold Start, които бяха използвани за фина настройка на DeepSeek-V3-Base като отправна точка за RL. В сравнение с DeepSeek-R1-Zero, предимствата на данните за студен старт включват

Четивност: DeepSeek-R1-Zero Отговорите могат да бъдат смесени на няколко езика или да им липсва форматирането Markdown, използвано за подчертаване на потребителските отговори. За разлика от това, когато създава данни за студен старт за DeepSeek-R1, авторът е проектирал четим формат, който включва резюме в края на всеки отговор и филтрира нечетливите отговори. Тук изходният формат е дефиниран като |special_token| |специален_токен|
, където reasoning_process е верижното мислене на Заявката и резюмето се използва за обобщаване на резултатите от разсъжденията.
Потенциал: Чрез внимателно проектиране на комбинация от човешки априорни модели на данни за студен старт, авторите отбелязаха, че неговата производителност е по-добра от DeepSeek-R1-Zero.

3.3.2 RL, управляван от разсъждения (Етап-1)

След фина настройка на DeepSeek-V3-Base на данни от студен старт се използва същият широкомащабен RL процес на обучение като DeepSeek-R1-Zero. Този етап има за цел да подобри способността на модела при задачи с интензивно разсъждение, особено при проблеми с програмиране, математика, наука и логическо разсъждение с ясни решения.

По време на обучението авторите отбелязват, че CoT често страда от смесване на езици, особено когато подканата RL включва множество езици. За да облекчат проблема със смесването на езика, авторите въведоха награда за езикова последователност в обучението по RL, която се изчислява въз основа на дела на думите в целевия език в CoT. Въпреки че експериментите с аблация показват, че този метод на подравняване води до леко намаляване на производителността на модела, този механизъм за възнаграждение е в съответствие с човешките предпочитания и подобрява четливостта. И накрая, авторите директно добавят точността на задачата Reasoning към наградата за последователност на езика, за да формират крайната награда, и внедряват RL обучение върху фино настроения модел, докато се сближи със задачата Reasoning.

3.3.3 Изграждане на 800 000 избрани данни (Етап-2)

Докато RL for Reasoning се сближава, SFT данните се събират с помощта на получената контролна точка за следващия кръг на обучение. За разлика от първоначалните данни за студен старт, които се фокусират главно върху разсъждението, този етап включва данни от други области, за да подобри способността на модела при писане, ролеви игри и други задачи с общо предназначение. По-конкретно, данните се генерират и моделът се настройва фино, както следва:

Данни за разсъждение: Подканите за разсъждение се избират и траекториите за разсъждение се генерират чрез извършване на вземане на проби за отхвърляне от гореспоменатата контролна точка, обучена по RL (DeepSeek-R1 Етап 1). В предишния етап бяха включени само данни, които могат да бъдат оценени с помощта на награди, базирани на правила. На този етап обаче наборът от данни беше разширен чрез включване на повече данни, някои от които бяха генерирани с помощта на модел на възнаграждение, а истинските отговори бяха оценени чрез подаване на прогнозите на модела в DeepSeek-V3 (DeepSeek V3 като съдия). Освен това, тъй като изходът на модела понякога е объркващ и труден за четене, мисловните вериги със смесени езици, дългите абзаци и кодовите блокове бяха филтрирани. За всяка подкана бяха взети проби от множество отговори и само правилните (Най-доброто от N) бяха запазени. Бяха събрани общо около 600 000 тренировъчни проби, свързани с разсъждение.
Неразсъждаващи данни: като писане, фактологични въпроси, самосъзнание и превод, използваха процеса DeepSeek-V3 и използваха повторно някои от SFT наборите от данни на DeepSeek-V3. За някои задачи, които не са свързани с разсъждение, DeepSeek-V3 се извиква, за да генерира потенциални CoT, преди да отговори на въпроса. Въпреки това, за прости заявки като „Здравей“, в Отговора не е предоставена мисловна верига. В крайна сметка бяха събрани общо около 200 000 тренировъчни проби, които не са свързани с Разсъждението.

3.3.4 SFT & RL за всички сценарии (Етап-3)

Два кръга на фина настройка на общо около 800 000 избрани проби бяха извършени на DeepSeek-V3-Base с помощта на двата гореспоменати набора от данни (разсъждаващи и неразсъждаващи).

За по-нататъшно привеждане на модела в съответствие с човешките предпочитания, авторите внедриха втора фаза на RL, която има за цел да подобри полезността и безвредността на модела, като същевременно прецизира възможностите му за разсъждение. По-конкретно, моделът беше обучен с комбинация от сигнали за възнаграждение и различни бързи разпределения.

За данните за разсъждение се следва методологията, описана в DeepSeek-R1-Zero, като се използва механизъм за възнаграждение, базиран на правила, за насочване на обучението на модела в областите на математиката, програмирането и логическите разсъждения.
За общи данни моделът на наградата се използва за улавяне на човешките предпочитания в сложни и фини ситуации. Подобна стратегия на двойки предпочитания и тренировъчни бързи разпределения се използва въз основа на процеса DeepSeek-V3.
По отношение на полезността се взема предвид само окончателното обобщение, като се гарантира, че оценката се фокусира върху практичността и уместността на Отговора за потребителя, като същевременно минимизира намесата в основния процес на разсъждение.
Що се отнася до безвредността, целият отговор на модела се оценява изчерпателно, включително процеса на разсъждение и обобщението, за да се идентифицират и елиминират всички потенциални рискове, пристрастия или вредно съдържание, които могат да възникнат по време на процеса на генериране.
В крайна сметка, чрез интегриране на сигнали за възнаграждение и разнообразяване на разпространението на данни, може да бъде обучен модел, който дава приоритет както на ползата, така и на безвредността, като същевременно превъзхожда разсъждението.

3.3.5 Дестилация (Етап-4)

За да оборудват по-ефективен малък модел със способността за разсъждение на DeepSeek-R1, авторите директно прецизираха моделите с отворен код Qwen и LLaMA, използвайки 800 000 проби, избрани в DeepSeek-R1-Stage-1. Резултатите показват, че този метод на директна дестилация значително подобрява способността за разсъждение на малките модели. Основните модели, използвани от авторите, включват Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B и Llama-3.3-70B-Instruct. Llama-3.3 беше избран, защото способността му за разсъждение е малко по-добра от Llama-3.1.

За дестилационния модел авторът използва само SFT и не включва RL етапа. Въпреки че въвеждането на RL може значително да подобри работата на модела, основната цел на автора тук е да демонстрира ефективността на дестилационната технология, а изследването на етапа на RL е оставено на последващи изследвания.

PS: В допълнение, всъщност е възможно да се използва окончателният DeepSeek-R1 за генериране на горните данни и реконструиране на 800 000 данни, използвани за дестилация, и дестилираният модел може да има по-добър ефект; но цената е, че данните трябва да бъдат реконструирани.

DeepSeek R1 тълкуване на хартия и ключови технически точки

1 Фон