1 Позадина
За време на пролетниот фестивал, DeepSeek R1 уште еднаш привлече големо внимание, па дури и написот за толкување на DeepSeek V3 што претходно го напишавме исто така беше повторно пренесен и многу дискутиран.
Иако имаше многу анализи и репродукции на DeepSeek R1, овде решивме да составиме некои соодветни белешки за читање.
Ќе користиме три основни шематски дијаграми за да ја демонстрираме конструкцијата на моделот и клучните технички точки, дестилирајќи ја суштината на серијата DeepSeek-R1 за да обезбедиме поинтуитивно разбирање на нејзините дизајнерски идеи.
Соодветната хартија е [2501.12948] DeepSeek-R1: Поттикнување на способноста за расудување кај LLM преку учење за зајакнување
а соодветниот модел со отворен код е DeepSeek-R1
2 Вовед
2.1 Заеднички алгоритми за расудување
Како што е прикажано на Слика 2 подолу, авторот ги објаснува четирите вообичаени алгоритми за расудување. Иако тие се разликуваат во специфични детали, сите тие вклучуваат две основни операции:
- Проширување: генерирајте токени за да ја проширите патеката на решението.
- Агрегација: интегрирајте ги резултатите од секоја патека за да го добиете конечниот одговор. Зголемувањето на пресметковните ресурси во фазата на проширување обично може да го подобри квалитетот на одговорот во фазата на собирање.
Само-конзистентност (SC). Како што е прикажано на Слика 2а, основната идеја на SC е да генерира повеќе различни излези (што може да се постигне со менување на параметрите за земање примероци итн.), а потоа гласајте за сите одговори за да го изберете одговорот со најголема стапка на добивка. Клучниот параметар е бројот на одговори на кандидатот n.
Алгоритам за Rebase: Како што е прикажано на Слика 2б подолу, Rebase исто така генерира повеќе излези, но тие се генерираат во повеќе чекори. Секој чекор се бодува со помош на моделот за награда, а резултатот со највисок резултат се користи за да се продолжи со генерирање. Конечно, се генерира дрво за расудување со повеќе гранки. Одговорот со највисока оценка (Најдобро од N) се избира во фазата на собирање.
Пребарување на дрвото во Монте Карло (MCTS): Како што е прикажано на Слика 2в подолу, MCTS е моќен алгоритам за расудување кој ги проширува јазлите со постепено земање примероци и конструира дрво за решенија сè додека не стигне до лист јазол што содржи кандидатско решение. Секое решение се оценува преку модел на награда или симулација, а резултатот се пропагира назад во јазлите на неговите предци за да се ажурираат нивните вредности за награда, со што се завршува повторувањето. Клучниот параметар е исто така n, а зголемувањето на n овозможува подлабоко и пошироко истражување на потенцијалните решенија.
Интернализиран когнитивен синџир (ICoT). Како што е прикажано на Слика 2г подолу, најновите LLM, како што се OpenAI o1 и Qwen-QWQ, можат да го интернализираат однесувањето на расудувањето за време на обуката без потреба од експлицитен алгоритам за расудување. Основната идеја е да се генерира CoT секвенца, да се разложат сложените проблеми на повеќе подпроблеми, а потоа повторно да се оптимизираат овие одговори со размислување за претходните резултати за на крајот да се дојде до решение.

2.2 Методи за усогласување со резонирање
2.2.1 Преглед на методот Најдобар од N
Накратко, Best-of-N е метод за усогласување широко користен во заклучоците за LLM, кој има за цел да обезбеди висок квалитет на генерираните резултати преку генерирање на повеќе одговори кандидати и избирање на најдобриот. Се состои од три главни процеси:
- Процес на генерирање: За дадена порака X, методот Best-of-N генерира N IID одговори (Y1, Y2, …, Yₙ), каде што N често се нарекува „големина на серија“.
- Механизам за бодување: Секој генериран одговор се бодува со модел на награда за да се добие соодветен резултат {s(Y1), s(Y2), …, s(Yₙ)}.
- Избор на најдобар одговор: Конечно, одговорот со највисок резултат меѓу сите генерирани одговори е избран како излез, т.е., Y_Best-of-N = argmax {s(Y1), s(Y2), …, s(Yₙ)}.
Предностите на овој метод се:
- Може ефективно да избегне сложени чекори за фино подесување, што го олеснува распоредувањето на јазичните модели кои се претходно обучени или фино подесени со инструкции.
- Едноставен е за имплементација, лесен за разбирање и суштински без хиперпараметри: главниот хиперпараметар е N, кој може динамички да се прилагоди за време на заклучувањето.
- Тој е многу конкурентен во однос на квалитетот на генерирањето и може дури и да им парира на некои сложени техники по обуката како што се RLHF или DPO. Истражувањата покажуваат дека методот „Најдобро од N“ добро функционира на кривата на компромиси помеѓу наградата и дивергенцијата на KL, дури и ги надминува другите сложени стратегии за усогласување.
Недостатоците на овој метод се
- заклучокот бара генерирање N секвенци, што може да доведе до значителни пресметковни трошоци. Во пракса, разумна вредност за N се движи од 4 до 128, но за да се натпреварува со најнапредните методи по обуката, може да се бараат повисоки N вредности, како што се 1000 до 60000, што може да доведе до речиси неприфатливи пресметковни трошоци.
Методот најдобро од N често се користи за генерирање на висококвалитетни сетови на податоци за последователно надгледувано дотерување и одигра клучна улога во процесот на усогласување на LLaMA-2 и LLaMA-3.
2.2.2 Најдобар метод на OpenAI
OpenAI прв го предложи земање примероци најдобро од N [2009.01325] Учење да се сумира од човечките повратни информации . Поточно, се користи за евалуација и оптимизирање на перформансите на резимениот модел со избирање на најдоброто резиме генерирано од повеќе модели. Овој метод им помага на истражувачите подобро да ја разберат врската помеѓу различните метрики за евалуација и преференциите на човечкиот оценувач, и се користи за водење на обуката и оптимизацијата на моделот.
OpenAI, исто така, користи земање примероци најдобро од N (примерок за отфрлање) во следењето [2112.09332] WebGPT: Одговарање на прашања со помош на прелистувач со човечки повратни информации. Поточно, фиксен број одговори (4, 16 или 64) се земени од моделот BC или RL моделот, а оној со највисок резултат на моделот на награда е избран како метод за оптимизација за моделот на противничка награда. Овој метод не бара дополнителна обука, но ја зголемува комплексноста на пресметките на фазата на заклучување за да се постигне.
2.2.3 Метод на Google BOND
Во [2407.14622] BOND: Порамнување на LLM со најдобрата дестилација, авторите од Google предлагаат Најдобра дестилација (BOND), нов RLHF алгоритам дизајниран да ја симулира стратегијата за земање примероци Најдобро од N преку алгоритам за совпаѓање на дистрибуција без значително зголемување на пресметковните трошоци за време на заклучувањето.

Поточно, авторот прво ја изведува точната аналитичка дистрибуција на земање примероци Најдобро од N и ја дава функцијата на веројатност на земање примероци Најдобро од N:

Второ, авторите го изразуваат проблемот како проблем за совпаѓање на дистрибуцијата;

потоа, авторите предлагаат да се користи дивергенцијата на Џефрис како цел за совпаѓање на дистрибуцијата:

Конечно, за да се реши проблемот со изборот на N, авторите го предлагаат итеративниот BOND метод, кој ја подобрува изведбата на стратегијата со итеративно дестилирање на Best-of-N дистрибуцијата. Специфичните чекори вклучуваат:
Иницијализирајте ја помошната стратегија Anchor π(anchor).
Итеративно извршете BOND за да го дестилирате најдоброто од N π(сидро) и ажурирајте го π(сидро) по секој чекор.

2.3 Надзор на процесот и надзор над резултатите
Исходот и процесот се однесуваат на двата аспекта на евалуацијата на моделот на награда:
- Модел на награда за исход: оценете дали конечниот резултат од излезот од моделот е точен или како што се очекуваше.
- Процесен модел на награда: Оценува дали резонирањето на моделот и чекорите за донесување одлуки во процесот на генерирање резултати се разумни и ефективни.
На пример, OpenAI's Let's Verify Чекор по чекор | OpenAI исто така споменува:
- Надзор на процесот (надгледуван од исходот): вклучува обезбедување повратни информации за секој чекор од процесот на расудување на моделот. Моделите за наградување надгледувани од процеси (PRM) се обучени да ја предвидат точноста на секој чекор од решението.
- Надгледување на исходот: Надгледувањето на исходот обезбедува повратна информација само врз основа на конечниот резултат од расудувањето на моделот. Моделите за наградување надгледувани од исходот (ORM) се обучуваат со користење на конечниот одговор на решението, а исправноста се одредува со автоматска проверка.
2.4 Хакирање на награди
Во RL, хакирањето на наградата се однесува на феноменот во кој агентот користи пропуст во дизајнот на функцијата за наградување за да ја максимизира кумулативната награда на начин што не ја исполнува првичната намера на дизајнерот. Иако ова однесување технички ја исполнува целта за оптимизација на функцијата за наградување, вистинскиот ефект отстапува од очекуваната цел на задачата и може дури да доведе до негативни последици.
Анализа на клучни точки:
- Дефиниција и манифестација:
- Агентот наоѓа пропуст во функцијата за наградување и добива висока награда со преземање „кратенки“ наместо всушност да го реши проблемот.
- На пример, робот за чистење ги исклучува светлата за да направи просторијата да „изгледа“ чиста, наместо всушност да ја чисти; агент за игра постојано постигнува поени без да ја заврши целта на ниво; избирање да не се забави за да се намали бројот на пати на сопирање, што претставува безбедносна опасност; генерирање бесмислена содржина што се совпаѓа со клучни зборови со цел да се измамат високи оценки.
- Корените причини:
- Нецелосен дизајн на функцијата за наградување: прекумерно поедноставување или неуспех да се покријат рабовите.
- Неусогласеност помеѓу целите и наградите: функцијата за награда не успева целосно да ја одрази вистинската цел, што предизвикува агентот да се оптимизира за „погрешна“ цел.
- Решенија:
- Подобрете го дизајнот на наградите: воведете повеќедимензионални награди (на пр. безбедност, ефикасност, итн.) или динамично приспособете ја функцијата за наградување.
- Проверка на противникот: откријте дали агентот „мами“ преку дополнителни механизми.
- Рачна интервенција и ограничувања: поставете граници на однесување (на пр. безбедносен слој) или рачна повратна информација (на пр. RLHF).
- Учење со инверзно засилување (IRL): научете пореална функција за наградување од демонстрации на експерти.
- Учење со хиерархиско засилување: разложете ја задачата на подцели за да го намалите ризикот од локална оптимизација.
- Асоцијација со прекумерно вклопување:
- И двете покажуваат исклучување помеѓу метриката за обука и перформансите во реалниот свет, но хакерството за награди става поголем акцент на дизајнерските недостатоци на функцијата за наградување отколку на способноста за генерализирање на моделот.
- Резиме:
- Хакирањето на награди го открива предизвикот за усогласување на целите во RL. Решавањето на овој проблем бара комбинација од дизајнирање поцврсти механизми за наградување, воведување надворешни ограничувања и инкорпорирање на човечко претходно знаење за да се осигура дека однесувањето на агентот е и ефикасно и во согласност со намерата на дизајнот.
3 DeepSeek-R1-Нула и DeepSeek-R1
3.1 Преглед
Претходните истражувања во голема мера се потпираа на големи количини на надгледувани податоци за да се подобрат перформансите на моделот. Оваа студија покажува дека дури и без SFT како ладен почеток, RL со големи размери може значително да ја подобри способноста за расудување на моделот. Покрај тоа, воведувањето на мала количина на податоци за ладен старт може дополнително да ги оптимизира перформансите. Следниве се моделите поврзани со DeepSeek-R1:
- DeepSeek-R1-Zero: Овој модел го применува RL директно на основниот модел без никакви SFT податоци.
- DeepSeek-R1: Овој модел го применува RL почнувајќи од контролен пункт кој е фино подесен со илјадници долги CoT примероци.
- DeepSeek-R1-Distill-xx: Ја дестилира способноста за расудување на DeepSeek-R1 во мал густ модел.
3,2 DeepSeek-R1-Нула
Следната слика ги прикажува клучните точки во обуката на моделот DeepSeek-R1-Zero:

PS: Треба да се напомене дека трудот не дава многу информации за податоците користени во процесот на RL на DeepSeek-R1-Zero. Сепак, постои одредено објаснување за процесот и количината на генерирање податоци во последователната обука R1, иако тоа не е особено специфично.
3.2.1 RL алгоритам
За да се намалат трошоците за обука на RL, авторите го користат методот GRPO (Групна релативна политика за оптимизација) на DeepSeek, [2402.03300] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. Овој метод го напушта моделот Critic, кој обично е споредлив по големина со моделот на политика, и наместо тоа ја проценува основната линија користејќи групна оценка. Соодветното објаснување е прикажано на сликата подолу (слика од Твитер):

3.2.2 Моделирање на награди
Наградите се извор на сигнали за обука и ја одредуваат насоката за оптимизација на RL. За да го обучат DeepSeek-R1-Zero, авторите користеле систем за наградување заснован на правила, кој главно се состои од два вида награди:
- Награда за точност: оценете дали одговорот е точен. На пример:
- Во математичките проблеми со детерминистички резултати, моделот треба да го даде конечниот одговор во специфичен формат (како што е внатре во кутија), така што неговата исправност може веродостојно да се потврди со правила.
- Слично на тоа, за проблемите со LeetCode, повратните информации може да се генерираат со помош на компајлер базиран на претходно дефинирани тест случаи.
- Награда за формат: Наградата за формат се користи и за да се принуди моделот да го постави својот процес на размислување помеѓу „ “ и “ ознаки.
За време на развојот на DeepSeek-R1-Zero, авторот не го користел Моделот за невронска награда за исход или Процесен модел на невронска награда бидејќи авторот открил дека Моделот на невронска награда може да наиде на измама на награда (Хакирање на награди) во процесите на RL од големи размери; дополнително, преквалификацијата на моделот на награда не само што бара дополнителни ресурси за обука, туку и го комплицира целиот процес на обука.
3.2.3 Шаблон за обука
За да го обучат DeepSeek-R1-Zero, авторите најпрво дизајнираа едноставен Шаблон за да го водат Основниот модел да ги следи поставените упатства. Како што е прикажано во Табела 1 подолу, Шаблонот бара DeepSeek-R1-Zero да генерира процес на заклучување и потоа да го даде конечниот одговор.

Авторот намерно ги ограничи ограничувањата на оваа структурна рамка за да избегне воведување каква било пристрасност во содржината - на пример, принудување рефлексивно расудување или промовирање специфични стратегии за решавање проблеми - за да се осигура дека природната еволуција на моделот може точно да се набљудува за време на процесот на RL.
3.2.4 Заклучок
Цврсти способности за расудување без SFT податоци: со стартување на RL директно од основниот модел, траекторијата на еволуцијата на моделот може внимателно да се следи без SFT пречки. Како што покажува Слика 3 подолу, времето на размислување на DeepSeek-R1-Zero продолжи да се подобрува (должината на растот постепено стануваше подолга) во текот на процесот на обука. Ова подобрување не дојде од надворешни прилагодувања, туку беше природен резултат на внатрешниот развој на моделот. DeepSeek-R1-Zero природно се здоби со способност да решава сè покомплексни задачи за заклучување, како што е способноста за рефлексија, со користење на продолжени пресметки на времето за тестирање.

DeepSeek-R1-Zero доживеа „аха момент“ за време на тренингот. Како што е прикажано во Табела 3 подолу, овој момент се случи за време на фазата на средната верзија на моделот. Во текот на оваа фаза, DeepSeek-R1-Zero научи да одвои повеќе време за размислување на проблемите со преоценување на неговиот првичен пристап.

Мнозинско гласање: Изведбата на DeepSeek-R1-Zero може дополнително да се подобри со примена на мнозинско гласање. На пример, како што е прикажано во Табела 2 подолу, откако ќе се користи мнозинското гласање во репер тестот AIME, неговите перформанси скокаат од 71,0% на 86,7%, надминувајќи го OpenAI-o1-0912.

Слабости: додека DeepSeek-R1-Zero покажува силни способности за расудување и автономно развива неочекувани и моќни однесувања за расудување, сепак се соочува со предизвици како што се слаба читливост и мешање јазици.
3,3 DeepSeek-R1
За да го направат процесот на расудување почитлив и да го споделат со отворената заедница, авторите дополнително го истражуваат методот DeepSeek-R1, кој користи податоци за ладно стартување погодни за луѓето за RL. Инспирирани од DeepSeek-R1-Zero, следуваат две природни прашања:
- Дали може дополнително да се подобри перформансите на резонирањето или да се забрза процесот на конвергенција со воведување мала количина на висококвалитетни податоци како ладен почеток?
- Како можеме да обучиме модел лесен за корисникот кој не само што генерира јасни и кохерентни CoTs, туку и демонстрира силни способности за генерализација?
Како одговор на овие прашања, дизајниравме процес на обука за DeepSeek-R1. Процесот се состои од повеќе фази, како што е опишано подолу:
Фаза-1, како што е прикажано на сликата подолу, ја тренира средната состојба на DeepSeek-R1 преку SFT + RL:

Следната слика ги прикажува фазите-2, 3 и 4:
- Фаза-2: горе лево, конструирајте 200K податоци без резонирање и 600K податоци за расудување.
- Фаза-3: горен десен, воз SFT + RL DeepSeek-R1.
- Фаза-4: долна фигура, дестилација DeepSeek-R1-Дистил-xx.

3.3.1 Ладен старт (фаза-1)
За разлика од DeepSeek-R1-Zero, за да се спречи нестабилната фаза на ладен почеток на основниот модел на почетокот на обуката за RL, авторите изградија и собраа мала количина Long CoT податоци за DeepSeek-R1 за да го дотераат моделот како почетен RL Actor. За да ги соберат овие податоци, авторите истражувале различни методи:
- Користење на неколку потсетници со примери на Long CoT
- Поттикнување на моделот директно да генерира детални одговори со размислување и верификација
- Собирање на излезот DeepSeek-R1-Zero во формат читлив од луѓе
- Рафинирање на резултатите преку пост-обработка со рачно означување
Авторите собраа вкупно илјадници податоци за Cold Start, кои беа искористени за фино прилагодување на DeepSeek-V3-Base како почетна точка за RL. Во споредба со DeepSeek-R1-Zero, предностите на податоците за Cold Start вклучуваат
- Читливост: DeepSeek-R1-Zero одговорите може да се мешаат на повеќе јазици или немаат форматирање Markdown што се користи за истакнување на одговорите на корисниците. Спротивно на тоа, при креирањето на податоците за ладен почеток за DeepSeek-R1, авторот дизајнирал формат што може да се чита што вклучува резиме на крајот од секој одговор и ги филтрира нечитливите одговори. Овде, излезниот формат е дефиниран како |special_token| |специјален_токен|
, каде резонирањето_процес е синџирно размислување на Барањето и резимето се користи за сумирање на резултатите од расудувањето. - Потенцијал: со внимателно дизајнирање на комбинација на шаблони на податоци за ладен почеток на човекот-а приори, авторите забележале дека неговите перформанси се супериорни во однос на DeepSeek-R1-Zero.
3.3.2 RL управувано од расудување (Фаза-1)
По прецизното прилагодување на DeepSeek-V3-Base на податоците за ладно стартување, се користи истиот процес на обука за RL во големи размери како DeepSeek-R1-Zero. Оваа фаза има за цел да ја подобри способноста на моделот во задачи со интензивно расудување, особено за програмирање, математика, наука и проблеми со логично расудување со јасни решенија.
За време на обуката, авторите забележаа дека CoT често страда од мешање на јазици, особено кога RL известувањето вклучува повеќе јазици. За да се ублажи проблемот со мешањето на јазиците, авторите воведоа награда за јазична конзистентност во обуката за RL, која се пресметува врз основа на процентот на зборови во целниот јазик во CoT. Иако експериментите со аблација покажуваат дека овој метод на усогласување води до мало намалување на перформансите на моделот, овој механизам за наградување е конзистентен со човечките преференци и ја подобрува читливоста. Конечно, авторите директно ја додаваат точноста на задачата Расудување на наградата за конзистентност на јазикот за да ја формираат конечната награда и спроведуваат обука за RL на фино подесениот модел додека не се спои со задачата Расудување.
3.3.3 Изградба на 800.000 избрани податоци (Фаза-2)
Додека RL за расудување се конвергира, податоците за SFT се собираат со помош на добиената контролна точка за следната рунда обука. За разлика од почетните податоци за ладен почеток, кои главно се фокусираат на расудување, оваа фаза вклучува податоци од други домени за да ја подобри способноста на моделот за пишување, играње улоги и други задачи за општа намена. Поточно, податоците се генерираат и моделот е фино подесен на следниов начин:
- Податоци за резонирање: Се избираат потсетници за резонирање и се генерираат траектории за резонирање со изведување на земање примероци за одбивање од гореспоменатиот контролен пункт обучен за RL (DeepSeek-R1 Фаза 1). Во претходната фаза беа вклучени само податоци кои можеа да се проценат со помош на награди засновани на правила. Меѓутоа, во оваа фаза, сетот на податоци беше проширен со вклучување повеќе податоци, од кои некои беа генерирани со помош на модел на награда, а вистинските одговори беа оценети со внесување на предвидувањата на моделот во DeepSeek-V3 (DeepSeek V3 како судија). Дополнително, бидејќи излезот од моделот понекогаш е збунувачки и тежок за читање, мисловните синџири на мешани јазици, долгите параграфи и блоковите на кодови беа филтрирани. За секое барање, беа земени примероци од повеќе одговори и беа задржани само точните (Најдоброто од N). Вкупно беа собрани околу 600.000 примероци за обука поврзани со расудување.
- Податоци без резонирање: како што се пишување, фактички прашања, самосвест и превод, го користеа процесот DeepSeek-V3 и повторно користеа некои од SFT сетови на податоци на DeepSeek-V3. За некои задачи што не се резонираат, DeepSeek-V3 е повикан да генерира потенцијални CoTs пред да одговори на прашањето. Меѓутоа, за едноставни прашања како „Здраво“, во Одговорот не е обезбеден синџир на размислување. На крајот беа собрани вкупно околу 200.000 примероци за обука кои не се резонираат.
3.3.4 SFT & RL за сите сценарија (Фаза-3)
На DeepSeek-V3-Base беа извршени два круга на фино подесување, вкупно околу 800.000 избрани примероци со користење на двата гореспоменати сета податоци (Разонирање и нерасудување).
За понатамошно усогласување на моделот со човечките преференци, авторите имплементираа втора фаза од RL, која има за цел да ја подобри корисноста и безопасноста на моделот, а истовремено да ги усоврши неговите способности за расудување. Поточно, моделот беше обучен со комбинација на наградни сигнали и разновидни брзи дистрибуции.
- За податоците за расудување, методологијата опишана во DeepSeek-R1-Zero се следи, користејќи механизам за наградување базиран на правила за да го води учењето на моделот во областите математика, програмирање и логично расудување.
- За општи податоци, моделот Награда се користи за да се доловат човечките преференции во сложени и суптилни ситуации. Слична стратегија на парови на преференци и дистрибуции на брза обука се користи врз основа на процесот DeepSeek-V3.
- Во однос на корисноста, се зема предвид само конечното резиме, со што се осигурува дека евалуацијата се фокусира на практичноста и релевантноста на Одговорот за корисникот, додека го минимизира мешањето во основниот процес на расудување.
- Што се однесува до безопасноста, целиот Одговор на моделот е сеопфатно оценет, вклучувајќи го и процесот на расудување и резимето, за да се идентификуваат и елиминираат сите потенцијални ризици, предрасуди или штетна содржина што може да се појават во текот на процесот на генерирање.
- На крајот на краиштата, со интегрирање на сигналите за наградување и диверзификација на дистрибуцијата на податоци, може да се обучи модел кој дава приоритет и на користа и на безопасноста, а истовремено се истакнува и во расудувањето.
3.3.5 Дестилација (фаза-4)
Со цел да се опреми поефикасен мал модел со способност за расудување од DeepSeek-R1, авторите директно ги дотераа моделите со отворен код Qwen и LLaMA користејќи 800.000 примероци избрани во DeepSeek-R1-Stage-1. Резултатите покажуваат дека овој метод на директна дестилација значително ја подобрува способноста за расудување на малите модели. Основните модели што ги користат авторите вклучуваат Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B и Llama-3.3-70B-Instruct. Лама-3.3 беше избрана затоа што неговата способност за расудување е малку подобра од Лама-3.1.
За моделот на дестилација, авторот користи само SFT и не ја вклучува фазата RL. Иако воведувањето на RL може многу да ги подобри перформансите на моделот, главната цел на авторот овде е да ја демонстрира ефективноста на технологијата за дестилација, а истражувањето на фазата RL е оставено на последователно истражување.
PS: Покрај тоа, всушност е можно да се користи конечниот DeepSeek-R1 за да се генерираат горенаведените податоци и да се реконструираат 800.000 податоци што се користат за дестилација, а дестилираниот модел може да има подобар ефект; сепак, цената е дека податоците треба да се реконструираат.