Abstrakt
In diesem Papier werden die DeepSeek-Schlussfolgermodelle der ersten Generation vorgestellt: DeepSeek-R1-Zero und DeepSeek-R1. DeepSeek-R1-Zero, das durch großangelegtes Reinforcement Learning (RL) ohne überwachte Feinabstimmung (SFT) trainiert wurde, zeigt bemerkenswerte Argumentationsfähigkeiten. Durch RL entwickelt es auf natürliche Weise ein leistungsfähiges Denkverhalten. Es steht jedoch vor Herausforderungen wie schlechter Lesbarkeit und Sprachmischung. Um diese Probleme zu lösen und die Schlussfolgerungsleistung zu verbessern, wurde DeepSeek-R1 entwickelt, das ein mehrstufiges Training und Kaltstartdaten vor RL beinhaltet. DeepSeek-R1 erreicht eine mit OpenAI-o1-1217 vergleichbare Leistung bei schlussfolgernden Aufgaben. Um die Forschung zu unterstützen, stellt DeepSeek beide Modelle und sechs dichte Modelle (1.5B, 7B, 8B, 14B, 32B, 70B), die aus DeepSeek-R1 auf der Grundlage von Qwen und Llama destilliert wurden, als Open Source zur Verfügung.
Wichtige Beiträge
Nach-Training: Großangelegtes Verstärkungslernen
- Erfolgreiche Anwendung von RL direkt auf das Basismodell ohne SFT
- Entwicklung von DeepSeek-R1-Zero, das Fähigkeiten wie Selbstüberprüfung und Reflexion demonstriert
- Erste offene Forschung, die bestätigt, dass logisches Denken allein durch RL angeregt werden kann
- Einführung einer Pipeline für DeepSeek-R1 mit zwei RL-Stufen und zwei SFT-Stufen
Destillation: Die Stärkung kleinerer Modelle
- Demonstriert, dass Denkmuster aus größeren Modellen effektiv in kleinere Modelle destilliert werden können
- DeepSeek-R1 und seine API werden für die Forschung freigegeben
- Feinabstimmung mehrerer dichter Modelle mit außergewöhnlicher Benchmark-Leistung
- Die destillierten Modelle übertreffen die bisherigen Open-Source-Modelle deutlich
Ergebnisse der Bewertung
Reasoning-Aufgaben
- DeepSeek-R1 erreicht 79,8% Pass@1 auf AIME 2024 und übertrifft OpenAI-o1-1217
- 97,3% Punkte auf MATH-500, gleichauf mit OpenAI-o1-1217
- Leistung auf Expertenniveau bei Codewettbewerbsaufgaben mit 2.029 Elo-Bewertungen auf Codeforces
Wissen Aufgaben
- Herausragende Ergebnisse bei MMLU (90,8%), MMLU-Pro (84,0%) und GPQA Diamond (71,5%)
- Übertrifft andere Closed-Source-Modelle bei Bildungsaufgaben
- Starke Leistung bei faktischen Benchmarks wie SimpleQA
Allgemeine Fähigkeiten
- Hervorragende Fähigkeiten in den Bereichen kreatives Schreiben, Beantwortung von Fragen, Bearbeitung und Zusammenfassung
- 87,6% Gewinnrate auf AlpacaEval 2.0 und 92,3% auf ArenaHard
- Starke Leistung bei Aufgaben zum Verständnis langer Zusammenhänge
Künftige Arbeit
Das Team plant, sich auf folgende Themen zu konzentrieren:
- Verbesserung der allgemeinen Fähigkeiten in Bereichen wie Funktionsaufrufe und komplexe Rollenspiele
- Behandlung von Fragen der Sprachenmischung
- Verbesserung der Souffleurtechnik
- Verbesserung der Leistung bei Softwareentwicklungsaufgaben
Schlussfolgerung
DeepSeek-R1 stellt einen bedeutenden Fortschritt bei den KI-Schlussfolgerungsfähigkeiten durch verstärkendes Lernen dar. Der Erfolg sowohl des Hauptmodells als auch seiner destillierten Versionen zeigt das Potenzial dieses Ansatzes für die Entwicklung leistungsfähigerer KI-Systeme. Die Open-Source-Veröffentlichung dieser Modelle wird zur weiteren Forschung und Entwicklung auf diesem Gebiet beitragen.