Abstrakt

In diesem Papier werden die DeepSeek-Schlussfolgermodelle der ersten Generation vorgestellt: DeepSeek-R1-Zero und DeepSeek-R1. DeepSeek-R1-Zero, das durch großangelegtes Reinforcement Learning (RL) ohne überwachte Feinabstimmung (SFT) trainiert wurde, zeigt bemerkenswerte Argumentationsfähigkeiten. Durch RL entwickelt es auf natürliche Weise ein leistungsfähiges Denkverhalten. Es steht jedoch vor Herausforderungen wie schlechter Lesbarkeit und Sprachmischung. Um diese Probleme zu lösen und die Schlussfolgerungsleistung zu verbessern, wurde DeepSeek-R1 entwickelt, das ein mehrstufiges Training und Kaltstartdaten vor RL beinhaltet. DeepSeek-R1 erreicht eine mit OpenAI-o1-1217 vergleichbare Leistung bei schlussfolgernden Aufgaben. Um die Forschung zu unterstützen, stellt DeepSeek beide Modelle und sechs dichte Modelle (1.5B, 7B, 8B, 14B, 32B, 70B), die aus DeepSeek-R1 auf der Grundlage von Qwen und Llama destilliert wurden, als Open Source zur Verfügung.

Wichtige Beiträge

Nach-Training: Großangelegtes Verstärkungslernen

  • Erfolgreiche Anwendung von RL direkt auf das Basismodell ohne SFT
  • Entwicklung von DeepSeek-R1-Zero, das Fähigkeiten wie Selbstüberprüfung und Reflexion demonstriert
  • Erste offene Forschung, die bestätigt, dass logisches Denken allein durch RL angeregt werden kann
  • Einführung einer Pipeline für DeepSeek-R1 mit zwei RL-Stufen und zwei SFT-Stufen

Destillation: Die Stärkung kleinerer Modelle

  • Demonstriert, dass Denkmuster aus größeren Modellen effektiv in kleinere Modelle destilliert werden können
  • DeepSeek-R1 und seine API werden für die Forschung freigegeben
  • Feinabstimmung mehrerer dichter Modelle mit außergewöhnlicher Benchmark-Leistung
  • Die destillierten Modelle übertreffen die bisherigen Open-Source-Modelle deutlich

Ergebnisse der Bewertung

Reasoning-Aufgaben

  • DeepSeek-R1 erreicht 79,8% Pass@1 auf AIME 2024 und übertrifft OpenAI-o1-1217
  • 97,3% Punkte auf MATH-500, gleichauf mit OpenAI-o1-1217
  • Leistung auf Expertenniveau bei Codewettbewerbsaufgaben mit 2.029 Elo-Bewertungen auf Codeforces

Wissen Aufgaben

  • Herausragende Ergebnisse bei MMLU (90,8%), MMLU-Pro (84,0%) und GPQA Diamond (71,5%)
  • Übertrifft andere Closed-Source-Modelle bei Bildungsaufgaben
  • Starke Leistung bei faktischen Benchmarks wie SimpleQA

Allgemeine Fähigkeiten

  • Hervorragende Fähigkeiten in den Bereichen kreatives Schreiben, Beantwortung von Fragen, Bearbeitung und Zusammenfassung
  • 87,6% Gewinnrate auf AlpacaEval 2.0 und 92,3% auf ArenaHard
  • Starke Leistung bei Aufgaben zum Verständnis langer Zusammenhänge

Künftige Arbeit

Das Team plant, sich auf folgende Themen zu konzentrieren:

  1. Verbesserung der allgemeinen Fähigkeiten in Bereichen wie Funktionsaufrufe und komplexe Rollenspiele
  2. Behandlung von Fragen der Sprachenmischung
  3. Verbesserung der Souffleurtechnik
  4. Verbesserung der Leistung bei Softwareentwicklungsaufgaben

Schlussfolgerung

DeepSeek-R1 stellt einen bedeutenden Fortschritt bei den KI-Schlussfolgerungsfähigkeiten durch verstärkendes Lernen dar. Der Erfolg sowohl des Hauptmodells als auch seiner destillierten Versionen zeigt das Potenzial dieses Ansatzes für die Entwicklung leistungsfähigerer KI-Systeme. Die Open-Source-Veröffentlichung dieser Modelle wird zur weiteren Forschung und Entwicklung auf diesem Gebiet beitragen.

Ähnliche Beiträge

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert