1 Hintergrund
Während des Frühlingsfestes DeepSeek R1 erregte erneut große Aufmerksamkeit, und sogar der von uns zuvor verfasste Interpretationsartikel zu DeepSeek V3 wurde erneut gesendet und viel diskutiert.
Obwohl es viele Analysen und Reproduktionen von DeepSeek R1 gibt, haben wir uns entschieden, hier einige entsprechende Lesenotizen zusammenzustellen.
Wir werden drei grundlegende Schaltpläne verwenden, um den Aufbau des Modells und wichtige technische Punkte zu demonstrieren und so die Essenz der DeepSeek-R1-Serie herauszufiltern, um ein intuitiveres Verständnis ihrer Designideen zu ermöglichen.
Das entsprechende Papier ist [2501.12948] DeepSeek-R1: Förderung des folgerichtigen Denkens in LL.M.-Studien durch bestärkendes Lernen
und das entsprechende Open-Source-Modell ist DeepSeek-R1
2 Einleitung
2.1 Allgemeine Reasoning-Algorithmen
Wie in Abbildung 2 unten dargestellt, erklärt der Autor die vier gängigen Schlussfolgerungsalgorithmen. Obwohl sie sich in bestimmten Details unterscheiden, umfassen sie alle zwei Kernoperationen:
- Erweiterung: Generieren Sie Token, um den Lösungspfad zu erweitern.
- Aggregation: Integrieren Sie die Ergebnisse jedes Pfads, um die endgültige Antwort zu erhalten. Eine Erhöhung der Rechenressourcen in der Erweiterungsphase kann normalerweise die Qualität der Antwort in der Aggregationsphase verbessern.
Selbstkonsistenz (SC). Wie in Abbildung 2a dargestellt, besteht die Kernidee von SC darin, mehrere unterschiedliche Ausgaben zu generieren (was durch Ändern der Stichprobenparameter usw. erreicht werden kann) und dann für alle Antworten abzustimmen, um die Antwort mit der höchsten Gewinnrate auszuwählen. Der Schlüsselparameter ist die Anzahl der Kandidatenantworten n.
Rebase-Algorithmus: Wie in Abbildung 2b unten dargestellt, generiert Rebase ebenfalls mehrere Ausgaben, diese werden jedoch in mehreren Schritten generiert. Jeder Schritt wird mithilfe des Belohnungsmodells bewertet, und das Ergebnis mit der höchsten Punktzahl wird für die weitere Generierung verwendet. Schließlich wird ein Argumentationsbaum mit mehreren Zweigen generiert. Die Antwort mit der höchsten Punktzahl (Best-of-N) wird in der Aggregationsphase ausgewählt.
Monte Carlo Tree Search (MCTS): Wie in Abbildung 2c unten dargestellt, ist MCTS ein leistungsstarker Reasoning-Algorithmus, der Knoten durch schrittweises Sampling erweitert und einen Lösungsbaum erstellt, bis er einen Blattknoten erreicht, der eine mögliche Lösung enthält. Jede Lösung wird durch ein Belohnungsmodell oder eine Simulation bewertet, und die Bewertung wird an die Vorgängerknoten weitergegeben, um deren Belohnungswerte zu aktualisieren und so eine Iteration abzuschließen. Der Schlüsselparameter ist ebenfalls n, und eine Erhöhung von n ermöglicht eine tiefere und breitere Untersuchung potenzieller Lösungen.
Internalisierte kognitive Kette (ICoT). Wie in Abbildung 2d unten dargestellt, können die neuesten LLMs, wie OpenAI o1 und Qwen-QWQ, das Denkverhalten während des Trainings internalisieren, ohne dass ein expliziter Denkalgorithmus erforderlich ist. Die Kernidee besteht darin, eine CoT-Sequenz zu generieren, komplexe Probleme in mehrere Unterprobleme zu zerlegen und diese Antworten dann iterativ zu optimieren, indem über vorherige Ergebnisse nachgedacht wird, um schließlich zu einer Lösung zu gelangen.

2.2 Argumentationsausrichtungsmethoden
2.2.1 Übersicht zur Best-of-N-Methode
Kurz gesagt ist Best-of-N eine Ausrichtungsmethode, die in der LLM-Inferenz weit verbreitet ist. Ziel ist es, die hohe Qualität der generierten Ergebnisse sicherzustellen, indem mehrere Kandidatenantworten generiert und die beste ausgewählt wird. Es besteht aus drei Hauptprozessen:
- Generierungsprozess: Für eine gegebene Eingabeaufforderung X generiert die Best-of-N-Methode N IID-Antworten (Y₁, Y₂, …, Yₙ), wobei N oft als „Batchgröße“ bezeichnet wird.
- Bewertungsmechanismus: Jede generierte Antwort wird von einem Belohnungsmodell bewertet, um eine entsprechende Punktzahl {s(Y₁), s(Y₂), …, s(Yₙ)} zu erhalten.
- Auswählen der besten Antwort: Schließlich wird die Antwort mit der höchsten Punktzahl unter allen generierten Antworten als Ausgabe ausgewählt, d. h. Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}.
Die Vorteile dieser Methode sind:
- Dadurch können komplexe Feinabstimmungsschritte effektiv vermieden werden, was die Bereitstellung vorab trainierter oder mit Anweisungen feinabgestimmter Sprachmodelle erleichtert.
- Es ist einfach zu implementieren, leicht zu verstehen und im Wesentlichen frei von Hyperparametern: Der Haupthyperparameter ist N, der während der Inferenz dynamisch angepasst werden kann.
- Es ist in Bezug auf die Generierungsqualität äußerst wettbewerbsfähig und kann sogar mit einigen komplexen Post-Training-Techniken wie RLHF oder DPO mithalten. Untersuchungen zeigen, dass die Best-of-N-Methode auf der Kompromisskurve zwischen Belohnung und KL-Divergenz gut abschneidet und sogar andere komplexe Ausrichtungsstrategien übertrifft.
Die Nachteile dieser Methode sind
- Die Inferenz erfordert die Generierung von N-Sequenzen, was zu einem erheblichen Rechenaufwand führen kann. In der Praxis liegt ein angemessener Wert für N zwischen 4 und 128, aber um mit den fortschrittlichsten Post-Training-Methoden konkurrieren zu können, können höhere N-Werte erforderlich sein, beispielsweise 1000 bis 60000, was zu einem fast inakzeptablen Rechenaufwand führen kann.
Die Best-of-N-Methode wird häufig verwendet, um qualitativ hochwertige Datensätze für die anschließende überwachte Feinabstimmung zu generieren und spielte im Ausrichtungsprozess von LLaMA-2 und LLaMA-3 eine Schlüsselrolle.
2.2.2 OpenAI Best-of-N-Methode
OpenAI schlug Best-of-N-Sampling erstmals vor in [2009.01325] Lernen, aus menschlichem Feedback zusammenzufassen . Insbesondere wird es verwendet, um die Leistung des Zusammenfassungsmodells zu bewerten und zu optimieren, indem die beste aus mehreren Modellen generierte Zusammenfassung ausgewählt wird. Diese Methode hilft Forschern, die Beziehung zwischen verschiedenen Bewertungsmetriken und den Präferenzen menschlicher Gutachter besser zu verstehen, und wird verwendet, um das Modelltraining und die Modelloptimierung zu leiten.
OpenAI verwendet auch Best-of-N-Sampling (Ablehnungs-Sampling) im Anschluss [2112.09332] WebGPT: Browsergestützte Frage-Antwort mit menschlichem Feedback. Konkret wird eine feste Anzahl von Antworten (4, 16 oder 64) aus dem BC-Modell oder RL-Modell entnommen und die Antwort mit der höchsten Belohnungsmodellpunktzahl wird als Optimierungsmethode für das kontradiktorische Belohnungsmodell ausgewählt. Diese Methode erfordert kein zusätzliches Training, erhöht jedoch die Rechenkomplexität der zu erreichenden Inferenzphase.
2.2.3 Google BOND-Methode
Unter [2407.14622] BOND: Die Autoren von Google schlagen Best-of-N Distillation (BOND) vor, um LLMs mit Best-of-N Distillation auszurichten., ein neuer RLHF-Algorithmus, der die Best-of-N-Sampling-Strategie durch einen Distribution-Matching-Algorithmus simulieren soll, ohne den Rechenaufwand während der Inferenz wesentlich zu erhöhen.

Insbesondere leitet der Autor zunächst die genaue analytische Verteilung der Best-of-N-Stichproben ab und gibt die Wahrscheinlichkeitsfunktion der Best-of-N-Stichproben an:

Zweitens drücken die Autoren das Problem als ein Problem der Verteilungsanpassung aus.

Anschließend schlagen die Autoren vor, die Jeffreys-Divergenz als Ziel der Verteilungsanpassung zu verwenden:

Um das Problem der Auswahl von N zu lösen, schlagen die Autoren schließlich die iterative BOND-Methode vor, die die Leistung der Strategie durch iterative Destillation der Best-of-N-Verteilung verbessert. Die spezifischen Schritte umfassen:
Initialisieren Sie die Hilfsankerstrategie π(Anker).
Führen Sie BOND iterativ aus, um das Best-of-N π(Anker) zu destillieren und π(Anker) nach jedem Schritt zu aktualisieren.

2.3 Prozess- und Ergebnisüberwachung
Ergebnis und Prozess beziehen sich auf die beiden Aspekte der Bewertung des Belohnungsmodells:
- Ergebnis-Belohnungsmodell: Bewerten Sie, ob das Endergebnis der Modellausgabe korrekt oder den Erwartungen entspricht.
- Prozess-Belohnungsmodell: Bewertet, ob die Denk- und Entscheidungsschritte des Modells im Prozess der Ergebnisgenerierung sinnvoll und effektiv sind.
Beispielsweise wird in „Let’s Verify Step by Step | OpenAI“ auch Folgendes erwähnt:
- Prozessüberwachung (ergebnisüberwacht): beinhaltet die Bereitstellung von Feedback zu jedem Schritt des Denkprozesses des Modells. Prozessüberwachte Belohnungsmodelle (PRM) werden trainiert, um die Richtigkeit jedes Lösungsschritts vorherzusagen.
- Ergebnisüberwacht: Ergebnisüberwacht liefert Feedback nur basierend auf dem Endergebnis der Modellbegründung. Ergebnisüberwachte Belohnungsmodelle (ORM) werden anhand der endgültigen Antwort der Lösung trainiert und die Richtigkeit wird durch automatische Überprüfung bestimmt.
2.4 Belohnungshacking
Im RL bezeichnet Reward Hacking das Phänomen, dass ein Agent einen Fehler im Design der Belohnungsfunktion ausnutzt, um die kumulative Belohnung auf eine Weise zu maximieren, die nicht der ursprünglichen Absicht des Designers entspricht. Obwohl dieses Verhalten technisch gesehen das Optimierungsziel der Belohnungsfunktion erfüllt, weicht der tatsächliche Effekt vom erwarteten Aufgabenziel ab und kann sogar zu negativen Konsequenzen führen.
Schlüsselpunktanalyse:
- Definition und Erscheinungsform:
- Der Agent findet einen Fehler in der Belohnungsfunktion und erhält eine hohe Belohnung, indem er „Abkürzungen“ nimmt, anstatt das Problem tatsächlich zu lösen.
- Beispielsweise schaltet ein Reinigungsroboter das Licht aus, damit der Raum sauber aussieht, anstatt ihn tatsächlich zu reinigen. Ein Spielagent sammelt wiederholt Punkte, ohne das Levelziel zu erreichen. Er entscheidet sich dafür, nicht langsamer zu werden, um die Anzahl der Bremsvorgänge zu verringern, was ein Sicherheitsrisiko darstellt. Er generiert bedeutungslosen Inhalt, der mit Schlüsselwörtern übereinstimmt, um Highscores zu erzielen.
- Grundursachen:
- Unvollständiges Design der Belohnungsfunktion: Übervereinfachung oder fehlende Abdeckung von Randfällen.
- Fehlausrichtung zwischen Zielen und Belohnungen: Die Belohnungsfunktion spiegelt das tatsächliche Ziel nicht vollständig wider, was dazu führt, dass der Agent auf das „falsche“ Ziel optimiert.
- Lösungen:
- Belohnungsdesign verbessern: mehrdimensionale Belohnungen einführen (z. B. Sicherheit, Effizienz usw.) oder die Belohnungsfunktion dynamisch anpassen.
- Adversarial Verification: Erkennen Sie durch zusätzliche Mechanismen, ob der Agent „betrügt“.
- Manuelle Eingriffe und Einschränkungen: Festlegen von Verhaltensgrenzen (z. B. Sicherheitsebene) oder manuellem Feedback (z. B. RLHF).
- Inverses Verstärkungslernen (IRL): Lernen Sie eine realistischere Belohnungsfunktion anhand von Expertendemonstrationen.
- Hierarchisches Verstärkungslernen: Zerlegen Sie die Aufgabe in Unterziele, um das Risiko einer lokalen Optimierung zu verringern.
- Zusammenhang mit Überanpassung:
- Beide weisen eine Diskrepanz zwischen Trainingsmesswerten und tatsächlicher Leistung auf, doch Reward Hacking legt mehr Wert auf die Designfehler der Belohnungsfunktion als auf die Generalisierungsfähigkeit des Modells.
- Zusammenfassung:
- Reward Hacking offenbart die Herausforderung der Zielausrichtung im RL. Um dieses Problem zu lösen, müssen robustere Belohnungsmechanismen entwickelt, externe Einschränkungen eingeführt und menschliches Vorwissen einbezogen werden, um sicherzustellen, dass das Verhalten des Agenten sowohl effizient als auch im Einklang mit der Designabsicht ist.
3 DeepSeek-R1-Zero und DeepSeek-R1
3.1 Übersicht
Frühere Forschungen stützten sich weitgehend auf große Mengen überwachter Daten, um die Modellleistung zu verbessern. Diese Studie zeigt, dass groß angelegtes RL die Argumentationsfähigkeit des Modells auch ohne SFT als Kaltstart erheblich verbessern kann. Darüber hinaus kann die Einführung einer kleinen Menge Kaltstartdaten die Leistung weiter optimieren. Im Folgenden sind die mit DeepSeek-R1 verbundenen Modelle aufgeführt:
- DeepSeek-R1-Zero: Dieses Modell wendet RL direkt auf das Basismodell an, ohne SFT-Daten.
- DeepSeek-R1: Dieses Modell wendet RL ab einem Prüfpunkt an, der mit Tausenden von langen CoT-Beispielen feinabgestimmt wurde.
- DeepSeek-R1-Distill-xx: Destilliert die Reasoning-Fähigkeit von DeepSeek-R1 in ein kleines, dichtes Modell.
3.2 DeepSeek-R1-Null
Die folgende Abbildung zeigt die wichtigsten Punkte beim Training des Modells DeepSeek-R1-Zero:

PS: Es ist zu beachten, dass das Dokument nicht viele Informationen zu den im RL-Prozess von DeepSeek-R1-Zero verwendeten Daten enthält. Es gibt jedoch einige Erklärungen zum Datengenerierungsprozess und zur Datenmenge im nachfolgenden R1-Training, obwohl diese nicht besonders spezifisch sind.
3.2.1 RL-Algorithmus
Um die Trainingskosten von RL zu reduzieren, verwenden die Autoren DeepSeeks eigene GRPO-Methode (Group Relative Policy Optimization), [2402.03300] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. Diese Methode verzichtet auf das Critic-Modell, das in der Regel in der Größe mit dem Policy-Modell vergleichbar ist, und schätzt stattdessen die Baseline mithilfe eines Gruppen-Scores. Die entsprechende Erklärung ist in der folgenden Abbildung dargestellt (Bild von Twitter):

3.2.2 Belohnungsmodellierung
Belohnungen sind die Quelle von Trainingssignalen und bestimmen die Optimierungsrichtung von RL. Um DeepSeek-R1-Zero zu trainieren, verwendeten die Autoren ein regelbasiertes Belohnungssystem, das hauptsächlich aus zwei Arten von Belohnungen besteht:
- Genauigkeitsbelohnung: Bewerten Sie, ob die Antwort richtig ist. Beispiel:
- Bei mathematischen Problemen mit deterministischen Ergebnissen muss das Modell die endgültige Antwort in einem bestimmten Format (z. B. in einer Box) bereitstellen, damit ihre Richtigkeit zuverlässig anhand von Regeln überprüft werden kann.
- Ebenso kann für LeetCode-Probleme mithilfe eines Compilers auf Grundlage vordefinierter Testfälle Feedback generiert werden.
- Formatbelohnung: Eine Formatbelohnung wird auch verwendet, um das Modell zu zwingen, seinen Denkprozess zwischen den „ " Und " ”-Tags.
Während der Entwicklung von DeepSeek-R1-Zero verwendete der Autor weder das Outcome Neural Reward Model noch das Process Neural Reward Model, da er feststellte, dass es beim Neural Reward Model in groß angelegten RL-Prozessen zu Belohnungsfälschungen (Reward Hacking) kommen kann; außerdem erfordert das erneute Trainieren des Reward Models nicht nur zusätzliche Trainingsressourcen, sondern erschwert auch den gesamten Trainingsprozess.
3.2.3 Trainingsvorlage
Um DeepSeek-R1-Zero zu trainieren, entwarfen die Autoren zunächst eine einfache Vorlage, die das Basismodell anleitet, den festgelegten Anweisungen zu folgen. Wie in Tabelle 1 unten gezeigt, erfordert die Vorlage, dass DeepSeek-R1-Zero einen Inferenzprozess generiert und dann die endgültige Antwort liefert.

Der Autor hat die Einschränkungen dieses strukturellen Rahmens bewusst beschränkt, um jegliche inhaltliche Verzerrung zu vermeiden – beispielsweise das Erzwingen reflektierenden Denkens oder die Förderung bestimmter Problemlösungsstrategien – und um sicherzustellen, dass die natürliche Entwicklung des Modells während des RL-Prozesses genau beobachtet werden kann.
3.2.4 Fazit
Robuste Denkfähigkeiten ohne SFT-Daten: Indem RL direkt vom Basismodell aus gestartet wird, kann die Evolutionskurve des Modells ohne SFT-Interferenz genau überwacht werden. Wie Abbildung 3 unten zeigt, verbesserte sich die Denkzeit von DeepSeek-R1-Zero während des gesamten Trainingsprozesses kontinuierlich (die Wachstumslänge wurde allmählich länger). Diese Verbesserung resultierte nicht aus externen Anpassungen, sondern war ein natürliches Ergebnis der internen Entwicklung des Modells. DeepSeek-R1-Zero erlangte auf natürliche Weise die Fähigkeit, zunehmend komplexere Inferenzaufgaben zu lösen, wie z. B. die Fähigkeit zur Reflexion, indem erweiterte Testzeitberechnungen verwendet wurden.

DeepSeek-R1-Zero erlebte während des Trainings einen „Aha-Moment“. Wie in Tabelle 3 unten gezeigt, ereignete sich dieser Moment während der mittleren Versionsphase des Modells. Während dieser Phase lernte DeepSeek-R1-Zero, Problemen mehr Zeit zum Nachdenken zu widmen, indem er seinen anfänglichen Ansatz neu bewertete.

Mehrheitswahl: Die Leistung von DeepSeek-R1-Zero kann durch Mehrheitswahl weiter verbessert werden. Wie in Tabelle 2 unten gezeigt, steigt die Leistung beispielsweise nach Verwendung der Mehrheitswahl im AIME-Benchmark-Test von 71,0% auf 86,7% und übertrifft damit OpenAI-o1-0912.

Schwächen: Obwohl DeepSeek-R1-Zero starke Denkfähigkeiten zeigt und selbstständig unerwartete und leistungsfähige Denkverhaltensweisen entwickelt, gibt es immer noch Herausforderungen wie schlechte Lesbarkeit und Sprachmischung.
3.3 DeepSeek-R1
Um den Reasoning-Prozess lesbarer zu machen und ihn mit der offenen Community zu teilen, untersuchen die Autoren die DeepSeek-R1-Methode weiter, die benutzerfreundliche Kaltstartdaten für RL verwendet. Inspiriert von DeepSeek-R1-Zero ergeben sich zwei natürliche Fragen:
- Kann die Reasoning-Leistung weiter verbessert oder der Konvergenzprozess beschleunigt werden, indem als Kaltstart eine kleine Menge qualitativ hochwertiger Daten eingeführt wird?
- Wie können wir ein benutzerfreundliches Modell trainieren, das nicht nur klare und kohärente CoTs generiert, sondern auch starke Generalisierungsfähigkeiten aufweist?
Als Antwort auf diese Fragen haben wir einen Trainingsprozess für DeepSeek-R1 entwickelt. Der Prozess besteht aus mehreren Phasen, die im Folgenden beschrieben werden:
Stufe 1 trainiert, wie in der folgenden Abbildung dargestellt, den Zwischenzustand von DeepSeek-R1 durch SFT + RL:

Die folgende Abbildung zeigt die Phasen 2, 3 und 4:
- Stufe 2: oben links, 200.000 Nicht-Reasoning-Daten und 600.000 Reasoning-Daten erstellen.
- Etappe 3: oben rechts, SFT + RL-Zug DeepSeek-R1.
- Stufe 4: untere Zahl, Distill DeepSeek-R1-Distill-xx.

3.3.1 Kaltstart (Stufe 1)
Anders als bei DeepSeek-R1-Zero haben die Autoren eine kleine Menge an Long-CoT-Daten für DeepSeek-R1 erstellt und gesammelt, um die instabile Kaltstartphase des Basismodells zu Beginn des RL-Trainings zu verhindern und so das Modell als anfänglichen RL-Akteur zu optimieren. Um diese Daten zu sammeln, haben die Autoren verschiedene Methoden untersucht:
- Verwenden von Few-Shot-Prompts mit langen CoT-Beispielen
- Direkte Aufforderung an das Modell, detaillierte Antworten mit Reflexion und Verifizierung zu generieren
- Sammeln der DeepSeek-R1-Zero-Ausgabe in einem für Menschen lesbaren Format
- Verfeinerung der Ergebnisse durch Nachbearbeitung mit manueller Beschriftung
Die Autoren sammelten insgesamt Tausende von Kaltstartdaten, die zur Feinabstimmung von DeepSeek-V3-Base als Ausgangspunkt für RL verwendet wurden. Im Vergleich zu DeepSeek-R1-Zero umfassen die Vorteile der Kaltstartdaten
- Lesbarkeit: DeepSeek-R1-Zero-Antworten können in mehreren Sprachen gemischt sein oder es fehlt die Markdown-Formatierung, die zum Hervorheben von Benutzerantworten verwendet wird. Im Gegensatz dazu hat der Autor beim Erstellen von Cold Start-Daten für DeepSeek-R1 ein lesbares Format entworfen, das am Ende jeder Antwort eine Zusammenfassung enthält und unlesbare Antworten herausfiltert. Hier wird das Ausgabeformat als |special_token| definiert. |spezielles_Token|
, wobei reasoning_process die verkettete Denkweise der Abfrage ist und summary zum Zusammenfassen der Argumentationsergebnisse verwendet wird. - Potenzial: Durch sorgfältige Entwicklung einer Kombination von a priori vom Menschen ermittelten Kaltstart-Datenmustern stellten die Autoren fest, dass die Leistung der von DeepSeek-R1-Zero überlegen ist.
3.3.2 Argumentationsbasiertes RL (Stufe 1)
Nach der Feinabstimmung von DeepSeek-V3-Base anhand von Cold Start-Daten wird derselbe groß angelegte RL-Trainingsprozess wie bei DeepSeek-R1-Zero verwendet. Diese Phase zielt darauf ab, die Fähigkeiten des Modells bei ergebnisintensiven Aufgaben zu verbessern, insbesondere bei Programmier-, Mathematik-, Naturwissenschafts- und logischen Denkproblemen mit klaren Lösungen.
Während des Trainings stellten die Autoren fest, dass CoT häufig unter Sprachmischung litt, insbesondere wenn die RL-Eingabeaufforderung mehrere Sprachen umfasste. Um das Problem der Sprachmischung zu lindern, führten die Autoren eine Sprachkonsistenzbelohnung in das RL-Training ein, die basierend auf dem Anteil der Wörter in der Zielsprache in CoT berechnet wird. Obwohl Ablationsexperimente zeigen, dass diese Ausrichtungsmethode zu einer leichten Verringerung der Modellleistung führt, entspricht dieser Belohnungsmechanismus den menschlichen Vorlieben und verbessert die Lesbarkeit. Schließlich addieren die Autoren die Genauigkeit der Reasoning-Aufgabe direkt zur Sprachkonsistenzbelohnung, um die endgültige Belohnung zu bilden, und implementieren das RL-Training auf dem fein abgestimmten Modell, bis es auf die Reasoning-Aufgabe konvergiert.
3.3.3 Aufbau von 800.000 ausgewählten Daten (Phase 2)
Während RL für Reasoning konvergiert, werden SFT-Daten mithilfe des resultierenden Kontrollpunkts für die nächste Trainingsrunde gesammelt. Im Gegensatz zu den anfänglichen Cold Start-Daten, die sich hauptsächlich auf Reasoning konzentrieren, werden in dieser Phase Daten aus anderen Bereichen einbezogen, um die Fähigkeiten des Modells beim Schreiben, Rollenspielen und anderen allgemeinen Aufgaben zu verbessern. Insbesondere werden die Daten generiert und das Modell wie folgt feinabgestimmt:
- Daten zum Schlussfolgerungsverhalten: Schlussfolgerungsaufforderungen werden ausgewählt und Schlussfolgerungsverläufe werden generiert, indem eine Ablehnungsstichprobe vom oben genannten RL-trainierten Checkpoint (DeepSeek-R1 Stufe 1) durchgeführt wird. In der vorherigen Stufe wurden nur Daten aufgenommen, die mithilfe regelbasierter Belohnungen ausgewertet werden konnten. In dieser Stufe wurde der Datensatz jedoch durch die Aufnahme weiterer Daten erweitert, von denen einige mithilfe eines Belohnungsmodells generiert wurden, und die tatsächlichen Antworten wurden beurteilt, indem die Modellvorhersagen in DeepSeek-V3 eingespeist wurden (DeepSeek V3 als Richter). Da die Modellausgabe manchmal verwirrend und schwer zu lesen ist, wurden außerdem Gedankenketten in verschiedenen Sprachen, lange Absätze und Codeblöcke herausgefiltert. Für jede Aufforderung wurden mehrere Antworten abgetastet und nur die richtigen (Best-of-N) beibehalten. Insgesamt wurden etwa 600.000 Schlussfolgerungsbezogene Trainingsproben gesammelt.
- Nicht-Reasoning-Daten: wie Schreiben, faktoide Fragen, Selbstbewusstsein und Übersetzung, verwendeten den DeepSeek-V3-Prozess und verwendeten einige der SFT-Datensätze von DeepSeek-V3 wieder. Für einige Nicht-Reasoning-Aufgaben wird DeepSeek-V3 aufgerufen, um potenzielle CoTs zu generieren, bevor die Frage beantwortet wird. Für einfache Abfragen wie „Hallo“ wird jedoch keine Gedankenkette in der Antwort bereitgestellt. Am Ende wurden insgesamt etwa 200.000 Nicht-Reasoning-Trainingsproben gesammelt.
3.3.4 SFT & RL für alle Szenarien (Stufe 3)
Unter Verwendung der beiden oben genannten Datensätze (Reasoning und Non-Reasoning) wurden zwei Runden zur Feinabstimmung von insgesamt etwa 800.000 ausgewählten Proben auf DeepSeek-V3-Base durchgeführt.
Um das Modell noch besser an menschliche Vorlieben anzupassen, führten die Autoren eine zweite Phase des RL durch, die darauf abzielt, die Nützlichkeit und Harmlosigkeit des Modells zu verbessern und gleichzeitig seine Reasoning-Fähigkeiten zu verfeinern. Konkret wurde das Modell mit einer Kombination aus Belohnungssignalen und verschiedenen Eingabeaufforderungsverteilungen trainiert.
- Für Reasoning-Daten wird die in DeepSeek-R1-Zero beschriebene Methodik befolgt, wobei ein regelbasierter Belohnungsmechanismus verwendet wird, um das Lernen des Modells in den Bereichen Mathematik, Programmierung und logisches Denken zu steuern.
- Für allgemeine Daten wird das Belohnungsmodell verwendet, um menschliche Präferenzen in komplexen und subtilen Situationen zu erfassen. Eine ähnliche Strategie von Präferenzpaaren und Trainingspromptverteilungen wird basierend auf dem DeepSeek-V3-Prozess verwendet.
- Im Hinblick auf die Nützlichkeit wird nur die abschließende Zusammenfassung berücksichtigt. Dadurch wird sichergestellt, dass sich die Bewertung auf die Praktikabilität und Relevanz der Antwort für den Benutzer konzentriert und gleichzeitig die Beeinträchtigung des zugrunde liegenden Denkprozesses minimiert wird.
- Was die Unbedenklichkeit betrifft, wird die gesamte Antwort des Modells umfassend ausgewertet, einschließlich des Argumentationsprozesses und der Zusammenfassung, um mögliche Risiken, Verzerrungen oder schädliche Inhalte zu identifizieren und zu beseitigen, die während des Generierungsprozesses auftreten können.
- Letztendlich kann durch die Integration von Belohnungssignalen und die Diversifizierung der Datenverteilung ein Modell trainiert werden, das sowohl Nutzen als auch Harmlosigkeit priorisiert und gleichzeitig beim logischen Denken herausragend ist.
3.3.5 Destillation (Stufe 4)
Um ein effizienteres kleines Modell mit der Denkfähigkeit von DeepSeek-R1 auszustatten, haben die Autoren die Open-Source-Modelle Qwen und LLaMA mithilfe der 800.000 in DeepSeek-R1-Stage-1 ausgewählten Beispiele direkt feinabgestimmt. Die Ergebnisse zeigen, dass diese direkte Destillationsmethode die Denkfähigkeit kleiner Modelle erheblich verbessert. Die von den Autoren verwendeten Basismodelle umfassen Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B und Llama-3.3-70B-Instruct. Llama-3.3 wurde ausgewählt, weil seine Denkfähigkeit etwas besser ist als die von Llama-3.1.
Für das Destillationsmodell verwendet der Autor nur SFT und schließt die RL-Phase nicht ein. Obwohl die Einführung von RL die Leistung des Modells erheblich verbessern kann, besteht das Hauptziel des Autors hier darin, die Wirksamkeit der Destillationstechnologie zu demonstrieren, und die Erforschung der RL-Phase bleibt späterer Forschung überlassen.
PS: Darüber hinaus ist es tatsächlich möglich, das endgültige DeepSeek-R1 zu verwenden, um die obigen Daten zu generieren und die 800.000 zur Destillation verwendeten Daten zu rekonstruieren. Das destillierte Modell hat möglicherweise eine bessere Wirkung. Der Preis dafür ist jedoch, dass die Daten rekonstruiert werden müssen.