1 Tło
Podczas Święta Wiosny, DeepSeek R1 po raz kolejny przyciągnął powszechną uwagę, a nawet artykuł z interpretacją DeepSeek V3, który napisaliśmy wcześniej, został ponownie przesłany i szeroko omawiany.
Pomimo że powstało wiele analiz i reprodukcji DeepSeek R1, zdecydowaliśmy się tutaj zebrać kilka uwag dotyczących lektury tego dokumentu.
Do zaprezentowania konstrukcji modelu i najważniejszych punktów technicznych wykorzystamy trzy podstawowe diagramy schematyczne, wydobywając istotę serii DeepSeek-R1 i umożliwiając bardziej intuicyjne zrozumienie jej założeń konstrukcyjnych.
Odpowiedni dokument to [2501.12948] DeepSeek-R1: Motywowanie zdolności rozumowania w LLM poprzez uczenie się przez wzmacnianie
a odpowiadający mu model open source to DeepSeek-R1
2 Wprowadzenie
2.1 Algorytmy typowego rozumowania
Jak pokazano na poniższym rysunku 2, autor wyjaśnia cztery powszechne algorytmy wnioskowania. Chociaż różnią się one w szczegółach, wszystkie obejmują dwie podstawowe operacje:
- Rozszerzenie: generowanie tokenów rozszerzających ścieżkę rozwiązania.
- Agregacja: integrowanie wyników każdej ścieżki w celu uzyskania ostatecznej odpowiedzi. Zwiększenie zasobów obliczeniowych w fazie ekspansji może zazwyczaj poprawić jakość odpowiedzi w fazie agregacji.
Samospójność (SC). Jak pokazano na rysunku 2a, podstawową ideą SC jest generowanie wielu różnych wyników (co można osiągnąć, zmieniając parametry próbkowania itp.), a następnie głosowanie na wszystkie odpowiedzi, aby wybrać odpowiedź o najwyższym wskaźniku wygranych. Kluczowym parametrem jest liczba odpowiedzi kandydatów n.
Algorytm Rebase: Jak pokazano na poniższym rysunku 2b, Rebase generuje również wiele wyników, ale są one generowane w wielu krokach. Każdy krok jest punktowany przy użyciu modelu Reward, a wynik z najwyższą punktacją jest używany do dalszego generowania. Na koniec generowane jest drzewo rozumowania z wieloma gałęziami. Odpowiedź z najwyższą punktacją (Best-of-N) jest wybierana na etapie agregacji.
Przeszukiwanie drzewa Monte Carlo (MCTS): Jak pokazano na poniższym rysunku 2c, MCTS to potężny algorytm rozumowania, który rozszerza węzły poprzez stopniowe próbkowanie i konstruuje drzewo rozwiązań, aż dotrze do węzła liścia zawierającego rozwiązanie kandydujące. Każde rozwiązanie jest punktowane za pomocą modelu nagrody lub symulacji, a wynik jest propagowany z powrotem do węzłów nadrzędnych w celu aktualizacji ich wartości nagrody, kończąc w ten sposób iterację. Kluczowym parametrem jest również n, a zwiększenie n pozwala na głębszą i szerszą eksplorację potencjalnych rozwiązań.
Zinternalizowany łańcuch poznawczy (ICoT). Jak pokazano na poniższym rysunku 2d, najnowsze LLM, takie jak OpenAI o1 i Qwen-QWQ, mogą internalizować zachowanie rozumowania podczas treningu bez potrzeby jawnego algorytmu rozumowania. Podstawowym pomysłem jest wygenerowanie sekwencji CoT, rozłożenie złożonych problemów na wiele podproblemów, a następnie iteracyjne optymalizowanie tych odpowiedzi poprzez refleksję nad poprzednimi wynikami, aby ostatecznie dojść do rozwiązania.

2.2 Metody dopasowywania wnioskowania
2.2.1 Przegląd metody Best-of-N
Krótko mówiąc, Best-of-N to metoda dopasowania szeroko stosowana w wnioskowaniu LLM, której celem jest zapewnienie wysokiej jakości generowanych wyników poprzez generowanie wielu odpowiedzi kandydatów i wybieranie najlepszej. Składa się ona z trzech głównych procesów:
- Proces generowania: Dla danego monitu X metoda Best-of-N generuje N odpowiedzi IID (Y₁, Y₂, …, Yₙ), gdzie N jest często określane jako „rozmiar partii”.
- Mechanizm punktacji: Każda wygenerowana odpowiedź jest punktowana przez model nagrody w celu uzyskania odpowiadającego jej wyniku {s(Y₁), s(Y₂), …, s(Yₙ)}.
- Wybieranie najlepszej odpowiedzi: Na koniec odpowiedź z najwyższą punktacją spośród wszystkich wygenerowanych odpowiedzi jest wybierana jako wynik, tj. Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}.
Zalety tej metody są następujące:
- Pozwala to skutecznie uniknąć skomplikowanych kroków precyzyjnego dostrajania, ułatwiając wdrażanie modeli językowych, które zostały wstępnie wyszkolone lub dostrojone za pomocą instrukcji.
- Jest on prosty w implementacji, łatwy do zrozumienia i zasadniczo nie zawiera hiperparametrów: głównym hiperparametrem jest N, który można dynamicznie dostosowywać podczas wnioskowania.
- Jest wysoce konkurencyjna pod względem jakości generacji i może nawet konkurować z niektórymi złożonymi technikami posttreningowymi, takimi jak RLHF lub DPO. Badania pokazują, że metoda Best-of-N dobrze sprawdza się na krzywej kompromisu między nagrodą a dywergencją KL, przewyższając nawet inne złożone strategie dopasowania.
Wady tej metody są następujące:
- wnioskowanie wymaga wygenerowania sekwencji N, co może prowadzić do znacznego narzutu obliczeniowego. W praktyce rozsądna wartość N mieści się w zakresie od 4 do 128, ale aby konkurować z najbardziej zaawansowanymi metodami post-treningowymi, mogą być wymagane wyższe wartości N, takie jak 1000 do 60000, co może prowadzić do niemal niedopuszczalnego narzutu obliczeniowego.
Metoda „best-of-N” jest często stosowana w celu generowania wysokiej jakości zestawów danych do późniejszego nadzorowanego dostrajania i odegrała kluczową rolę w procesie dopasowywania LLaMA-2 i LLaMA-3.
2.2.2 Metoda OpenAI best-of-N
OpenAI po raz pierwszy zaproponował próbkowanie Best-of-N w [2009.01325] Nauka podsumowywania na podstawie informacji zwrotnych od człowieka . Konkretnie, jest ona używana do oceny i optymalizacji wydajności modelu podsumowującego poprzez wybór najlepszego podsumowania wygenerowanego z wielu modeli. Ta metoda pomaga badaczom lepiej zrozumieć związek między różnymi metrykami oceny i preferencjami oceniających ludzi, i jest używana do kierowania szkoleniem i optymalizacją modelu.
W procesie follow-up OpenAI stosuje się również próbkowanie Best-of-N (próbkowanie odrzucające) [2112.09332] WebGPT: wspomagane przeglądarką odpowiadanie na pytania z uwzględnieniem opinii człowieka. Dokładniej, ustalona liczba odpowiedzi (4, 16 lub 64) jest próbkowana z modelu BC lub modelu RL, a ta z najwyższym wynikiem modelu nagrody jest wybierana jako metoda optymalizacji dla modelu nagrody przeciwnika. Ta metoda nie wymaga dodatkowego szkolenia, ale zwiększa złożoność obliczeniową etapu wnioskowania, aby ją osiągnąć.
2.2.3 Metoda Google BOND
W [2407.14622] BOND: Dostosowując LLM do destylacji Best-of-N, autorzy z Google proponują destylację Best-of-N (BOND), nowy algorytm RLHF zaprojektowany do symulacji strategii próbkowania Best-of-N za pomocą algorytmu dopasowania rozkładu bez znaczącego zwiększania narzutu obliczeniowego podczas wnioskowania.

Konkretnie, autor najpierw wyprowadził dokładny rozkład analityczny próbkowania Best-of-N i podał funkcję prawdopodobieństwa próbkowania Best-of-N:

Po drugie, autorzy przedstawiają problem jako problem dopasowania rozkładu;

następnie autorzy proponują wykorzystanie dywergencji Jeffreya jako celu dopasowania rozkładu:

Na koniec, aby rozwiązać problem wyboru N, autorzy proponują iteracyjną metodę BOND, która poprawia wydajność strategii poprzez iteracyjne destylowanie rozkładu Best-of-N. Konkretne kroki obejmują:
Zainicjuj pomocniczą strategię kotwiczenia π(kotwica).
Iteracyjne wykonywanie polecenia BOND w celu wyodrębnienia π(kotwicy) Best-of-N i aktualizowanie π(kotwicy) po każdym kroku.

2.3 Nadzór nad procesem i nadzór nad wynikami
Rezultat i proces odnoszą się do dwóch aspektów oceny modelu nagród:
- Model nagradzania wyników: Oceń, czy końcowy wynik modelu jest poprawny lub zgodny z oczekiwaniami.
- Model nagradzania procesów: ocenia, czy rozumowanie modelu i podejmowanie decyzji w procesie generowania wyników są rozsądne i skuteczne.
Na przykład w Let's Verify Step by Step | OpenAI firmy OpenAI wspomniano również o:
- Nadzór nad procesem (nadzorowany przez wynik): obejmuje dostarczanie informacji zwrotnej na każdym etapie procesu rozumowania modelu. Nadzorowane przez proces modele nagród (PRM) są trenowane w celu przewidywania poprawności każdego etapu rozwiązania.
- Nadzorowane przez wynik: Nadzorowane przez wynik zapewnia informacje zwrotne oparte wyłącznie na końcowym wyniku rozumowania modelu. Nadzorowane przez wynik modele nagród (ORM) są trenowane przy użyciu ostatecznej odpowiedzi rozwiązania, a poprawność jest określana przez automatyczne sprawdzanie.
2.4 Hackowanie nagród
W RL, reward hacking odnosi się do zjawiska, w którym agent wykorzystuje wadę w projekcie funkcji nagrody, aby zmaksymalizować skumulowaną nagrodę w sposób, który nie spełnia pierwotnego zamierzenia projektanta. Chociaż to zachowanie technicznie spełnia cel optymalizacji funkcji nagrody, rzeczywisty efekt odbiega od oczekiwanego celu zadania i może nawet prowadzić do negatywnych konsekwencji.
Analiza kluczowych punktów:
- Definicja i manifestacja:
- Agent znajduje błąd w funkcji nagrody i otrzymuje wysoką nagrodę, stosując „skróty”, zamiast faktycznie rozwiązać problem.
- Na przykład robot sprzątający wyłącza światło, aby pokój „wyglądał” na czysty, zamiast faktycznie go posprzątać; agent gry wielokrotnie zdobywa punkty, nie realizując celu poziomu; nie zwalnia, aby zmniejszyć liczbę hamowań, co stwarza zagrożenie dla bezpieczeństwa; generuje bezsensowną treść, która pasuje do słów kluczowych, aby oszukać wysokie wyniki.
- Przyczyny źródłowe:
- Niekompletny projekt funkcji nagrody: nadmierne uproszczenie lub nieuwzględnienie przypadków skrajnych.
- Niezgodność między celami i nagrodami: funkcja nagrody nie odzwierciedla w pełni rzeczywistego celu, co powoduje, że agent optymalizuje działania pod kątem „złego” celu.
- Rozwiązania:
- Ulepsz projekt nagród: wprowadź nagrody wielowymiarowe (np. za bezpieczeństwo, wydajność itp.) lub dynamicznie dostosuj funkcję nagrody.
- Weryfikacja antagonistyczna: wykrywanie, czy agent „oszukuje” za pomocą dodatkowych mechanizmów.
- Ręczna interwencja i ograniczenia: ustal granice behawioralne (np. warstwa bezpieczeństwa) lub ręczną informację zwrotną (np. RLHF).
- Uczenie się przez odwrotne wzmacnianie (IRL): poznaj bardziej realistyczną funkcję nagrody dzięki demonstracjom ekspertów.
- Hierarchiczne uczenie się przez wzmacnianie: rozbicie zadania na podcele w celu zmniejszenia ryzyka lokalnej optymalizacji.
- Związek z nadmiernym dopasowaniem:
- Oba podejścia wykazują rozdźwięk między wskaźnikami szkoleniowymi a rzeczywistą wydajnością, jednak Reward Hacking kładzie większy nacisk na wady konstrukcyjne funkcji nagrody niż na zdolność modelu do generalizacji.
- Streszczenie:
- Reward Hacking ujawnia wyzwanie dopasowania celów w RL. Rozwiązanie tego problemu wymaga połączenia projektowania bardziej solidnych mechanizmów nagród, wprowadzania zewnętrznych ograniczeń i uwzględnienia wcześniejszej wiedzy człowieka, aby zapewnić, że zachowanie agenta jest zarówno wydajne, jak i zgodne z zamierzeniem projektowym.
3 DeepSeek-R1-Zero i DeepSeek-R1
3.1 Przegląd
Poprzednie badania w dużej mierze opierały się na dużych ilościach nadzorowanych danych w celu poprawy wydajności modelu. To badanie pokazuje, że nawet bez SFT jako zimnego startu, RL na dużą skalę może znacznie zwiększyć zdolność wnioskowania modelu. Ponadto wprowadzenie niewielkiej ilości danych zimnego startu może dodatkowo zoptymalizować wydajność. Poniżej przedstawiono modele związane z DeepSeek-R1:
- DeepSeek-R1-Zero: Ten model stosuje RL bezpośrednio do modelu bazowego bez żadnych danych SFT.
- DeepSeek-R1: Ten model stosuje RL, zaczynając od punktu kontrolnego, który został precyzyjnie dostrojony przy użyciu tysięcy długich próbek CoT.
- DeepSeek-R1-Distill-xx: Destyluje możliwości wnioskowania DeepSeek-R1 do małego, gęstego modelu.
3.2 DeepSeek-R1-Zero
Na poniższym rysunku przedstawiono kluczowe punkty szkolenia modelu DeepSeek-R1-Zero:

PS: Należy zauważyć, że artykuł nie dostarcza wielu informacji na temat danych użytych w procesie RL DeepSeek-R1-Zero. Jednakże istnieje pewne wyjaśnienie procesu generowania danych i ich ilości w późniejszym szkoleniu R1, chociaż nie jest to szczególnie szczegółowe.
3.2.1 Algorytm RL
Aby obniżyć koszty szkolenia RL, autorzy wykorzystują własną metodę GRPO (Group Relative Policy Optimization) DeepSeek, [2402.03300] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. Ta metoda porzuca model Critic, który jest zwykle porównywalny pod względem wielkości do modelu Policy, i zamiast tego szacuje linię bazową przy użyciu wyniku grupy. Odpowiednie wyjaśnienie pokazano na poniższym rysunku (zdjęcie z Twittera):

3.2.2 Modelowanie nagród
Nagrody są źródłem sygnałów treningowych i określają kierunek optymalizacji RL. Aby wytrenować DeepSeek-R1-Zero, autorzy zastosowali oparty na regułach system nagród, który składa się głównie z dwóch typów nagród:
- Nagroda za dokładność: Oceń, czy odpowiedź jest poprawna. Na przykład:
- W przypadku problemów matematycznych z deterministycznymi wynikami model musi dostarczać ostateczną odpowiedź w określonym formacie (np. w polu), aby można było wiarygodnie zweryfikować jej poprawność za pomocą reguł.
- Podobnie w przypadku problemów LeetCode informację zwrotną można wygenerować za pomocą kompilatora bazującego na wstępnie zdefiniowanych przypadkach testowych.
- Nagroda za format: Nagroda za format jest również wykorzystywana do zmuszenia modelu do umieszczenia swojego procesu myślowego pomiędzy „ " I " ” tagi.
Podczas opracowywania układu DeepSeek-R1-Zero autor nie korzystał z modelu nagrody neuronowej wyniku ani modelu nagrody neuronowej procesu, ponieważ stwierdził, że model nagrody neuronowej może paść ofiarą podszywania się pod nagrodę (hakowania nagród) w procesach RL na dużą skalę; ponadto ponowne trenowanie modelu nagrody nie tylko wymaga dodatkowych zasobów szkoleniowych, ale także komplikuje cały proces szkoleniowy.
3.2.3 Szablon szkoleniowy
Aby wytrenować DeepSeek-R1-Zero, autorzy najpierw zaprojektowali prosty szablon, który miał poprowadzić model bazowy zgodnie z ustalonymi instrukcjami. Jak pokazano w tabeli 1 poniżej, szablon wymaga, aby DeepSeek-R1-Zero wygenerował proces wnioskowania, a następnie podał ostateczną odpowiedź.

Autor celowo ograniczył ograniczenia tych ram strukturalnych, aby uniknąć wprowadzania jakichkolwiek stronniczych poglądów dotyczących treści – na przykład wymuszania refleksyjnego rozumowania lub promowania określonych strategii rozwiązywania problemów – w celu zapewnienia, że naturalną ewolucję modelu można dokładnie zaobserwować w trakcie procesu uczenia maszynowego.
3.2.4 Wnioski
Solidne możliwości wnioskowania bez danych SFT: Rozpoczynając RL bezpośrednio od modelu bazowego, można ściśle monitorować trajektorię ewolucji modelu bez zakłóceń SFT. Jak pokazuje poniższy rysunek 3, czas myślenia DeepSeek-R1-Zero stale się poprawiał (długość wzrostu stopniowo się wydłużała) w trakcie całego procesu szkolenia. Ta poprawa nie wynikała z zewnętrznych dostosowań, ale była naturalnym rezultatem wewnętrznego rozwoju modelu. DeepSeek-R1-Zero naturalnie zyskał zdolność rozwiązywania coraz bardziej złożonych zadań wnioskowania, takich jak zdolność do refleksji, poprzez wykorzystanie obliczeń rozszerzonego czasu testu.

DeepSeek-R1-Zero doświadczył „momentu aha” podczas treningu. Jak pokazano w Tabeli 3 poniżej, moment ten miał miejsce w środkowej fazie wersji modelu. W tej fazie DeepSeek-R1-Zero nauczył się przeznaczać więcej czasu na myślenie na problemy, ponownie oceniając swoje początkowe podejście.

Głosowanie większościowe: wydajność DeepSeek-R1-Zero można jeszcze bardziej poprawić, stosując głosowanie większościowe. Na przykład, jak pokazano w Tabeli 2 poniżej, po użyciu głosowania większościowego w teście porównawczym AIME, jego wydajność skacze z 71,0% do 86,7%, przewyższając OpenAI-o1-0912.

Słabości: Choć DeepSeek-R1-Zero wykazuje silne zdolności rozumowania i autonomicznie rozwija nieoczekiwane i silne zachowania rozumowania, nadal napotyka na problemy, takie jak słaba czytelność i mieszanie języków.
3.3 DeepSeek-R1
Aby uczynić proces Reasoning bardziej czytelnym i udostępnić go otwartej społeczności, autorzy dalej badają metodę DeepSeek-R1, która wykorzystuje przyjazne dla człowieka dane z zimnego startu dla RL. Zainspirowani DeepSeek-R1-Zero, pojawiają się dwa naturalne pytania:
- Czy można jeszcze bardziej udoskonalić wydajność rozumowania lub przyspieszyć proces konwergencji poprzez wprowadzenie niewielkiej ilości wysokiej jakości danych na zasadzie zimnego startu?
- W jaki sposób możemy wyszkolić przyjazny dla użytkownika model, który nie tylko będzie generował jasne i spójne CoT, ale także będzie wykazywał silne zdolności generalizacyjne?
W odpowiedzi na te pytania zaprojektowaliśmy proces szkoleniowy dla DeepSeek-R1. Proces składa się z wielu etapów, jak opisano poniżej:
Etap 1, jak pokazano na poniższym rysunku, trenuje stan pośredni DeepSeek-R1 poprzez SFT + RL:

Na poniższym rysunku przedstawiono etapy 2, 3 i 4:
- Etap 2: lewy górny róg, skonstruowanie 200 tys. danych niebędących danymi wnioskowania i 600 tys. danych wnioskowania.
- Etap 3: prawy górny róg, pociąg SFT + RL DeepSeek-R1.
- Etap 4: dolna wartość, Distill DeepSeek-R1-Distill-xx.

3.3.1 Zimny start (etap 1)
W przeciwieństwie do DeepSeek-R1-Zero, aby zapobiec niestabilnej fazie Cold Start modelu bazowego na początku treningu RL, autorzy zbudowali i zebrali niewielką ilość danych Long CoT dla DeepSeek-R1, aby dostroić model jako początkowego aktora RL. Aby zebrać te dane, autorzy zbadali różne metody:
- Korzystanie z kilku podpowiedzi z przykładami Long CoT
- Bezpośrednie zachęcanie modelu do generowania szczegółowych odpowiedzi z refleksją i weryfikacją
- Zbieranie danych wyjściowych DeepSeek-R1-Zero w formacie czytelnym dla człowieka
- Udoskonalenie wyników poprzez przetwarzanie końcowe z ręcznym etykietowaniem
Autorzy zebrali w sumie tysiące danych Cold Start, które wykorzystano do dostrojenia DeepSeek-V3-Base jako punktu wyjścia dla RL. W porównaniu z DeepSeek-R1-Zero, zalety danych Cold Start obejmują:
- Czytelność: Odpowiedzi DeepSeek-R1-Zero mogą być mieszane w wielu językach lub nie mieć formatowania Markdown używanego do wyróżniania odpowiedzi użytkowników. Natomiast podczas tworzenia danych Cold Start dla DeepSeek-R1 autor zaprojektował czytelny format, który zawiera podsumowanie na końcu każdej odpowiedzi i filtruje nieczytelne odpowiedzi. Tutaj format wyjściowy jest zdefiniowany jako |special_token| |specjalny_token|
gdzie reasoning_process to proces myślenia łańcuchowego zapytania, a summary służy do podsumowania wyników rozumowania. - Potencjał: Autorzy zaobserwowali, że starannie zaprojektowali kombinację wzorców danych zimnego startu a priori uzyskanych przez człowieka, co przełożyło się na lepszą wydajność niż w przypadku DeepSeek-R1-Zero.
3.3.2 RL oparte na rozumowaniu (etap 1)
Po dostrojeniu DeepSeek-V3-Base na danych Cold Start, używany jest ten sam proces treningu RL na dużą skalę, co w przypadku DeepSeek-R1-Zero. Ten etap ma na celu poprawę zdolności modelu do wykonywania zadań wymagających dużej intensywności rozumowania, zwłaszcza w zakresie programowania, matematyki, nauk ścisłych i problemów z rozumowaniem logicznym z jasnymi rozwiązaniami.
Podczas treningu autorzy zaobserwowali, że CoT często cierpiał na mieszanie języków, zwłaszcza gdy monit RL obejmował wiele języków. Aby złagodzić problem mieszania języków, autorzy wprowadzili nagrodę za spójność językową do treningu RL, która jest obliczana na podstawie proporcji słów w języku docelowym w CoT. Chociaż eksperymenty ablacji pokazują, że ta metoda dopasowania prowadzi do niewielkiego spadku wydajności modelu, ten mechanizm nagrody jest zgodny z ludzkimi preferencjami i zwiększa czytelność. Na koniec autorzy bezpośrednio dodają dokładność zadania Reasoning do nagrody za spójność językową, aby utworzyć ostateczną nagrodę i wdrażają trening RL na dostrojonym modelu, aż zbiegnie się on z zadaniem Reasoning.
3.3.3 Budowa 800 000 wybranych danych (etap 2)
Podczas gdy RL dla Reasoning zbiega się, dane SFT są zbierane przy użyciu wynikowego punktu kontrolnego dla następnej rundy szkoleniowej. W przeciwieństwie do początkowych danych Cold Start, które koncentrują się głównie na Reasoning, ten etap obejmuje dane z innych domen, aby zwiększyć zdolność modelu do pisania, odgrywania ról i innych zadań ogólnego przeznaczenia. Dokładniej rzecz biorąc, dane są generowane, a model jest dostrajany w następujący sposób:
- Dane rozumowania: Monity rozumowania są wybierane, a trajektorie rozumowania są generowane przez wykonywanie próbkowania odrzucenia z wcześniej wytrenowanego punktu kontrolnego RL (DeepSeek-R1 etap 1). Na poprzednim etapie uwzględniono tylko dane, które można było ocenić za pomocą nagród opartych na regułach. Jednak na tym etapie zestaw danych został rozszerzony o więcej danych, z których część została wygenerowana za pomocą modelu nagrody, a rzeczywiste odpowiedzi zostały ocenione przez wprowadzenie przewidywań modelu do DeepSeek-V3 (DeepSeek V3 jako sędzia). Ponadto, ponieważ dane wyjściowe modelu są czasami mylące i trudne do odczytania, odfiltrowano mieszane językowo łańcuchy myśli, długie akapity i bloki kodu. Dla każdego monitu próbkowano wiele odpowiedzi i zachowano tylko te poprawne (Best-of-N). Łącznie zebrano około 600 000 próbek szkoleniowych związanych z rozumowaniem.
- Dane non-Reasoning: takie jak pismo, pytania faktoidalne, samoświadomość i tłumaczenie, wykorzystywały proces DeepSeek-V3 i ponownie wykorzystywały niektóre zestawy danych SFT DeepSeek-V3. W przypadku niektórych zadań non-Reasoning DeepSeek-V3 jest wywoływany w celu wygenerowania potencjalnych CoT przed udzieleniem odpowiedzi na pytanie. Jednak w przypadku prostych zapytań, takich jak „Hello”, w odpowiedzi nie jest podawany żaden łańcuch myślowy. Ostatecznie zebrano łącznie około 200 000 próbek treningowych non-Reasoning.
3.3.4 SFT i RL dla wszystkich scenariuszy (etap 3)
Przeprowadzono dwie rundy dostrajania na bazie DeepSeek-V3-Base, obejmujące łącznie około 800 000 wybranych próbek, wykorzystując dwa wcześniej wymienione zestawy danych (Reasoning i non-Reasoning).
Aby jeszcze bardziej dopasować model do ludzkich preferencji, autorzy wdrożyli drugą fazę RL, której celem jest poprawa użyteczności i nieszkodliwości modelu, a także udoskonalenie jego zdolności rozumowania. Dokładniej rzecz biorąc, model został wytrenowany za pomocą kombinacji sygnałów nagrody i zróżnicowanych dystrybucji podpowiedzi.
- W przypadku danych dotyczących rozumowania stosowana jest metodologia opisana w modelu DeepSeek-R1-Zero, wykorzystująca oparty na regułach mechanizm nagradzania, który ma kierować uczeniem się modelu w obszarach matematyki, programowania i rozumowania logicznego.
- W przypadku danych ogólnych model Reward jest używany do uchwycenia ludzkich preferencji w złożonych i subtelnych sytuacjach. Podobna strategia par preferencji i rozkładów podpowiedzi szkoleniowych jest używana w oparciu o proces DeepSeek-V3.
- Pod kątem przydatności brane jest pod uwagę jedynie podsumowanie końcowe, co zapewnia, że ocena koncentruje się na praktyczności i trafności odpowiedzi dla użytkownika, minimalizując jednocześnie zakłócenia podstawowego procesu rozumowania.
- Jeśli chodzi o bezpieczeństwo, kompleksowo ocenia się całą odpowiedź modelu, włączając w to proces wnioskowania i podsumowanie, aby zidentyfikować i wyeliminować wszelkie potencjalne ryzyka, stronniczości lub szkodliwe treści, które mogą pojawić się w trakcie procesu generowania.
- Ostatecznie, poprzez integrację sygnałów nagrody i dywersyfikację dystrybucji danych, można wytrenować model, który priorytetowo traktuje zarówno korzyści, jak i brak szkodliwości, a jednocześnie wyróżnia się umiejętnością rozumowania.
3.3.5 Destylacja (etap 4)
Aby wyposażyć bardziej wydajny mały model w zdolność rozumowania DeepSeek-R1, autorzy bezpośrednio dostroili modele open source Qwen i LLaMA, korzystając z 800 000 próbek wybranych w DeepSeek-R1-Stage-1. Wyniki pokazują, że ta metoda bezpośredniej destylacji znacząco poprawia zdolność rozumowania małych modeli. Podstawowe modele używane przez autorów obejmują Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B i Llama-3.3-70B-Instruct. Llama-3.3 została wybrana, ponieważ jej zdolność rozumowania jest nieco lepsza niż Llama-3.1.
W przypadku modelu destylacji autor używa wyłącznie SFT i nie uwzględnia etapu RL. Chociaż wprowadzenie RL może znacznie poprawić wydajność modelu, głównym celem autora jest tutaj zademonstrowanie skuteczności technologii destylacji, a eksploracja etapu RL jest pozostawiona do późniejszych badań.
PS: Ponadto, możliwe jest użycie ostatecznego DeepSeek-R1 do wygenerowania powyższych danych i zrekonstruowania 800 000 danych użytych do destylacji, a destylowany model może dawać lepszy efekt; jednak ceną za to jest konieczność zrekonstruowania danych.