Heute teilen wir DeepSeek R1, Titel: DeepSeek-R1: Anreiz für das logische Denken in LLMs durch bestärkendes Lernen: Anreiz für das logische Denken von LLMs durch bestärkendes Lernen.

Dieses Dokument stellt die erste Generation von Reasoning-Modellen von DeepSeek vor. DeepSeek-R1-Null und DeepSeek-R1Das Modell DeepSeek-R1-Zero wurde trainiert durch groß angelegtes Reinforcement Learning (RL) ohne überwachte Feinabstimmung (SFT) als erster Schritt, um das Potenzial von RL und die überlegenen Denkfähigkeiten zu demonstrieren es bringt. Durch Verstärkungslernen, DeepSeek-R1-Zero entstand auf natürliche Weise mit vielen leistungsstarken und interessanten DenkverhaltenUm einige der Probleme mit R1-Zero (sprachliche Verwirrungen, verbesserte Generalisierungsfähigkeit) weiter zu optimieren, veröffentlichten sie DeepSeek-R1 kombiniert mehrstufiges Training und Kaltstart-Datenfeinabstimmung vor dem Verstärkungslernen. DeepSeek-R1 erreichte eine vergleichbare Leistung bei der Reasoning-Aufgabe mit OpenAI-01-1217. Um die Forschungsgemeinschaft zu unterstützen, haben sie Open-Source-Modelle DeepSeek-R1-Zero, DeepSeek-R1 und sechs dichte Modelle (1,5B, 7B, 8B, 14B, 32B, 70B), destilliert aus DeepSeek-R1, die auf Qwen und Llama basieren.

Die Merkmale der Methode lassen sich wie folgt zusammenfassen:

  1. Reinforcement Learning wird direkt auf das Basismodell angewendet, ohne sich dabei als ersten Schritt auf eine überwachte Feinabstimmung (SFT) zu verlassen.
  2. Der Entwicklungsprozess DeepSeek-R1 wird eingeführt, der kombiniert zwei Phasen des bestärkenden Lernens und zwei überwachte Feinabstimmungsphasen, um die Grundlage für die Denk- und Nicht-Denkfähigkeiten des Modells zu legen.
  3. Die Leistung kleiner Modelle bei Denkaufgaben wird verbessert, indem die Denkmuster großer Modelle auf kleine Modelle übertragen werden durch Destillationstechniken.

Überblick

Motivation

  • Aktuelle große Sprachmodelle (LLMs) haben bei Inferenzaufgaben deutliche Fortschritte gemacht, stehen aber immer noch vor Herausforderungen.
  • Das Potenzial von reinem Verstärkungslernen (RL) zur Verbesserung der Denkfähigkeit von LLMs ist noch nicht vollständig erforscht, insbesondere ohne sich auf überwachte Daten zu verlassen.
  • Durch RL trainierte Modelle, wie DeepSeek-R1-Zero, haben Probleme mit der Lesbarkeit und der Sprachenmischung (z. B. gemischtes Sprechen von Chinesisch und Englisch) und müssen weiter verbessert werden, um die Benutzerfreundlichkeit zu verbessern.

Methoden

DeepSeek-R1-Zero: Verwendet DeepSeek-V3-Base als Basismodell und GRPO (Group Relative Policy Optimization) als Verstärkungslernmethode Rahmen, ohne überwachte Daten, um die Leistung des Modells bei der Inferenz zu verbessern.

DeepSeek-R1:

  • Kaltstart: Sammelt eine kleine Menge hochwertiger langer CoT-Daten (Chain-of-Thought-Daten) und optimiert die DeepSeek-V3-Basismodell als erster Akteur für bestärkendes Lernen.
  • Argumentationsorientiertes Verstärkungslernen: Das gleiche Es wird ein Reinforcement-Learning-Trainingsprozess wie DeepSeek-R1-Zero angewendet, wobei der Schwerpunkt auf der Verbesserung der Denkfähigkeiten des Modells liegt in Bereichen wie Codierung, Mathematik, Naturwissenschaften und logisches Denken. Belohnungen für sprachliche Konsistenz werden eingeführt, um das Problem der sprachlichen Vermischung, das in CoT auftritt, zu mildern.
  • Ablehnungsstichproben und überwachte Feinabstimmung: Verwendet den konvergenten Checkpoint des Reinforcement Learning, um Sammeln Sie Supervised Fine-Tuning (SFT)-Daten für die anschließende Ausbildung.
  • Reinforcement Learning für alle Szenarien: Führt eine zweite Stufe des Reinforcement Learnings durch, die auf die Verbesserung der Nützlichkeit und Harmlosigkeit des Modells bei gleichzeitiger Optimierung seiner Denkfähigkeit.
  • Wissensdestillation: Optimiert die Open-Source-Modelle Qwen und Llama direkt mithilfe der 800.000 von DeepSeek-R1 kuratierten Samples.

Detaillierte Methoden und Verfahren:

DeepSeek-R1-Zero: Reinforcement Learning für Basismodelle

  • Algorithmus für bestärkendes Lernen: Verwendet den Group Relative Policy Optimization (GRPO)-Algorithmus, der erfordert keinen Kritiker Modell, schätzt die Baseline anhand von Gruppenwerten und reduziert die Trainingskosten.
  • Belohnungsmodellierung: Verwendet ein regelbasiertes Belohnungssystem, einschließlich
  • Genauigkeitsbelohnung: Bewertet, ob die Antwort richtig ist, wie etwa die Richtigkeit des Endergebnisses der Antwort auf mathematische Probleme, das Feedback des Compilers bei Codeproblemen.
  • Formatbelohnung: Ermutigt das Modell dazu, Platzieren Sie den Denkprozess zwischen und Schlagworte.

Trainingsvorlage: Eine Vorlage mit und Tags sind dazu gedacht, Leiten Sie das Modell, um zuerst den Denkprozess und dann die endgültige Antwort auszugeben.

  • Selbstevolutionärer Prozess: DeepSeek-R1-Zero demonstriert selbstevolutionäre Eigenschaften während des Trainings und war in der Lage, selbstständig komplexere Denkstrategien zu erlernen, wie z. B. Reflexion und Erkundung mehrerer Problemlösungspfade.

DeepSeek-R1: Reinforcement Learning kombiniert mit Kaltstart

  • Kaltstart: Zur Lösung von DeepSeek-R1-Zero's Lesbarkeitsproblem, DeepSeek-R1 sammelt zunächst eine kleine Menge an Hochwertige CoT-Daten und optimiert das Modell DeepSeek-V3-Base auf dienen als erster Akteur für bestärkendes LernenDie Kaltstartdaten enthält zusammenfassende Tags und unfreundliche Antworten werden herausgefiltert.
    • Methode: 1) Wählen Sie hochwertige Long-COT-Daten aus. 2) Fügen Sie Tags hinzu.
    • Vorteile: 1) Optimierte Lesbarkeit (löst das Mehrsprachigkeitsproblem von R1-Zero oder das Markdown-Formatproblem). 2) Sorgfältig ausgewählte, vom Menschen bevorzugte Daten können die Leistung von R1-Zero weiter verbessern.
    • Frage: Warum das Lesbarkeitsproblem lösen? Ist es nicht möglich, es besser zu machen, ohne es zu lösen (z. B. die Länge der Ausgabe zu reduzieren und effizienter zu schlussfolgern)?
  • Argumentationsorientiertes RL: Basierend auf dem Kaltstartmodell wird ein Verstärkungslernprozess ähnlich wie DeepSeek-R1-Zero wird angewendet und konzentriert sich auf die Verbesserung der Fähigkeiten des Modells bei Aufgaben wie Codierung, Mathematik, wissenschaftlichem und logischem DenkenUm das Problem der gemischten Sprachen zu lösen (Mehrsprachiges Denken), Belohnungen für Sprachkonsistenz werden eingeführt.
    • Frage: Wie werden wissenschaftliche und logische Denkaufgaben und Datensätze trainiert?
  • Ablehnungsstichproben und SFT: Nachdem das inferenzgesteuerte Verstärkungslernen konvergiert, wird der erhaltene Kontrollpunkt verwendet für Ablehnungsstichproben werden verwendet, um neue SFT-Daten zu generieren, die mit den Daten von DeepSeek-V3 kombiniert werden, um die Fähigkeiten des Modells beim Schreiben, bei Rollenspielen und bei allgemeinen Aufgaben zu verbessern.
    • Zweck:
      • Diese Phase wird eingeleitet, nachdem Der inferenzorientierte Reinforcement-Learning-Prozess (RL) konvergiert.
      • Das Hauptziel besteht darin, Sammeln Sie Daten zur überwachten Feinabstimmung (SFT) zur Verwendung in nachfolgenden Trainingsrunden.
      • Im Gegensatz zu den anfänglichen Kaltstartdaten, die sich nur auf Schlussfolgerungen konzentrieren, zielt diese Phase darauf ab, Erweitern Sie die Fähigkeiten des Modells um das Schreiben, Rollenspiele und andere allgemeine Aufgaben abzudecken, nicht nur das Schlussfolgern.
    • Datensammlung – Inferenzdaten:
      • Verfahren: Verwenden Sie Kontrollpunkte, die Sie aus der inferenzorientierten RL-Phase erhalten haben, um Inferenztrajektorien durch Ablehnungsstichproben zu generieren.
      • Datensatzerweiterung: Im Gegensatz zur vorherigen RL-Phase, in der nur regelbasierte Belohnungsdaten verwendet wurden, werden hier nicht-regelbasierte Belohnungsdaten eingeführt. In einigen Fällen wird ein generatives Belohnungsmodell (DeepSeek-V3) verwendet, um die Antwort zu bestimmen.
      • Datenfilterung: Um Qualität und Lesbarkeit sicherzustellen, wird die Ausgabe gefiltert, um Folgendes zu entfernen:
        • Gedankenketten mit gemischten Sprachen
        • lange Absätze
        • Codeblöcke
      • Probenahme und Auswahl: Für jede Eingabeaufforderung wurden mehrere Antworten generiert. Nur die „richtige“ Antwort wurde für den Datensatz gespeichert.
      • Datensatzgröße: Etwa 600.000 inferenzbezogene Trainingsbeispiele wurden auf diese Weise gesammelt.
    • Datenerhebung – Nicht-Inferenzdaten:
      • Abdeckung: Schreiben, Beantwortung sachlicher Fragen (QA), Selbsterkenntnis und Übersetzung.
      • Das Papier erwähnt die Verwendung von DeepSeek-V3-Prozess und verwendet einen Teil des DeepSeek-V3 SFT-Datensatzes wieder um diese Nicht-Inferenzaufgaben zu bewältigen. Über 200.000 inferenzunabhängige Proben wurden gesammelt. (Hinweis: Die Einzelheiten zur Erfassung nichtinferenter Daten werden in Abschnitt 2.3.4 näher beschrieben.)
    • Verwendung der erfassten Daten:
      • Die gesammelten Daten zum logischen Denken und Nicht-logischen Denken (insgesamt etwa 800.000 Beispiele – 600.000 Beispiele zum logischen Denken + 200.000 Beispiele zum nicht-logischen Denken) wurden dann verwendet, um Feinabstimmung des DeepSeek-V3-Base-Modells für zwei Epochen. Dieses feinabgestimmte Modell wurde dann in der letzten RL-Phase verwendet, die in Abschnitt 2.3.4 beschrieben wird.
    • Zusammenfassung Dieser Schritt nutzt die Inferenzfähigkeiten durch RL gelernt, um einen vielfältigen und hochwertigen SFT-Datensatz zu generieren. Dieser Datensatz stärkt die Inferenzfähigkeiten und erweitert auch die allgemeinen Fähigkeiten von das Modell für das Training in der abschließenden Ausrichtungs- und Verbesserungsphase.
  • Bestärkendes Lernen für alle Szenarien: Um die menschlichen Präferenzen noch weiter anzugleichen, wird eine zweite Phase des bestärkenden Lernens durchgeführt, um die Nützlichkeit und Harmlosigkeit des Modells zu verbessern.
    • Inferenzdaten: z. B. Mathematik, Code, logische Inferenz oder überwacht mit regelbasierten Methoden.
    • Allgemeine Daten: Belohnungsmodelle werden weiterhin verwendet, um Präferenzinformationen für komplexe und subtile Szenarien bereitzustellen. Mit paarweisen Daten trainierte Modelle werden ebenfalls geschätzt.
    • Nützlichkeit: Konzentrieren Sie sich nur auf die abschließenden Zusammenfassungsergebnisse, um Störungen des Inferenzprozesses zu reduzieren.
    • Harmlosigkeit: Überwachen Sie die gesamte Reaktion, um etwaige Risiken zu reduzieren.

Modell Destillation (Destillation):

  • Um ein effizienteres kleines Inferenzmodell zu erhalten, destilliert das Papier die Inferenzfähigkeit von DeepSeek-R1 in die Open-Source-Modelle der Qwen- und Llama-Serie. Der Destillationsprozess verwendet nur überwachtes Feintuning (SFT) und verwendet nicht die Phase des bestärkenden Lernens.

Schlussfolgerung

DeepSeek-R1-Null: Demonstriert das Potenzial von reines Verstärkungslernen zur Motivation der LLM-Inferenzfähigkeit und kann eine starke Leistung erzielen ohne sich auf überwachte Daten zu verlassen.

  • Aha-Moment: Die Schönheit des bestärkenden Lernens (der Moment der Erleuchtung des Modells, in dem es widmet einem Problem mehr Zeit zum Nachdenken, indem es lernt, es neu zu bewerten der erste Ansatz)
  • Die Ausgabelänge nimmt weiter zu (die Denkzeit nimmt weiter zu)
  • Die Genauigkeit verbessert sich weiter (zur Berechnung der Genauigkeit werden 16 Antworten abgefragt)
  • DeepSeek-R1: Verbessert die Modellleistung weiter durch die Kombination von Kaltstartdaten und iterativer Feinabstimmung durch bestärkendes Lernen. Erreichen eines mit OpenAI-01-1217 vergleichbaren Niveaus bei verschiedenen Aufgaben.
  • Wissensdestillation: Mit DeepSeek-R1 als Lehrermodell wurden 800.000 Trainingsbeispiele generiert und mehrere kleine, dichte Modelle feinabgestimmt. Die Ergebnisse zeigen, dass dies Destillationsverfahren kann die Inferenzfähigkeit von kleine Modelle.

Einschränkung

  • Einschränkung 1: Die allgemeine Fähigkeit von DeepSeek-R1 muss verbessert werden. DeepSeek-R1 ist DeepSeek-V3 bei Aufgaben wie Funktionsaufrufen, Multiturn-Dialogen, komplexen Rollenspielen und JSON-Ausgabe immer noch unterlegen.
  • Einschränkung 2: Problem der Sprachenmischung. Bei DeepSeek-R1 kann es bei der Verarbeitung nicht-chinesischer und nicht-englischer Anfragen zu einem Problem mit der Sprachenmischung kommen, z. B. bei Argumentationen und Antworten auf Englisch.
  • Einschränkung 3: Schnelle Empfindlichkeit. DeepSeek-R1 reagiert empfindlich auf Eingabeaufforderungswörter, und die Verwendung von wenigen Eingabeaufforderungen verringert die Leistung.
  • Einschränkung 4: Eingeschränkte Anwendung auf Softwareentwicklungsaufgaben. Aufgrund der langen Evaluierungszeit wurde das bestärkende Lernen im großen Maßstab nicht in vollem Umfang auf Softwareentwicklungsaufgaben angewendet, und DeepSeek-R1 weist in Softwareentwicklungs-Benchmarks nur begrenzte Verbesserungen gegenüber DeepSeek-V3 auf.

Ähnliche Beiträge

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert