Paper-DeepSeek-R1: Anreize für logisches Denken in LLMs durch Reinforcement Learning

Inhaltsübersicht

Abstrakt

In diesem Papier werden die DeepSeek-Schlussfolgermodelle der ersten Generation vorgestellt: DeepSeek-R1-Zero und DeepSeek-R1. DeepSeek-R1-Zero, das durch großangelegtes Reinforcement Learning (RL) ohne überwachte Feinabstimmung (SFT) trainiert wurde, zeigt bemerkenswerte Argumentationsfähigkeiten. Durch RL entwickelt es auf natürliche Weise ein leistungsfähiges Denkverhalten. Es steht jedoch vor Herausforderungen wie schlechter Lesbarkeit und Sprachmischung. Um diese Probleme zu lösen und die Schlussfolgerungsleistung zu verbessern, wurde DeepSeek-R1 entwickelt, das ein mehrstufiges Training und Kaltstartdaten vor RL beinhaltet. DeepSeek-R1 erreicht eine mit OpenAI-o1-1217 vergleichbare Leistung bei schlussfolgernden Aufgaben. Um die Forschung zu unterstützen, stellt DeepSeek beide Modelle und sechs dichte Modelle (1.5B, 7B, 8B, 14B, 32B, 70B), die aus DeepSeek-R1 auf der Grundlage von Qwen und Llama destilliert wurden, als Open Source zur Verfügung.

Wichtige Beiträge

Nach-Training: Großangelegtes Verstärkungslernen

Erfolgreiche Anwendung von RL direkt auf das Basismodell ohne SFT
Entwicklung von DeepSeek-R1-Zero, das Fähigkeiten wie Selbstüberprüfung und Reflexion demonstriert
Erste offene Forschung, die bestätigt, dass logisches Denken allein durch RL angeregt werden kann
Einführung einer Pipeline für DeepSeek-R1 mit zwei RL-Stufen und zwei SFT-Stufen

Destillation: Die Stärkung kleinerer Modelle

Demonstriert, dass Denkmuster aus größeren Modellen effektiv in kleinere Modelle destilliert werden können
DeepSeek-R1 und seine API werden für die Forschung freigegeben
Feinabstimmung mehrerer dichter Modelle mit außergewöhnlicher Benchmark-Leistung
Die destillierten Modelle übertreffen die bisherigen Open-Source-Modelle deutlich

Ergebnisse der Bewertung

Reasoning-Aufgaben

DeepSeek-R1 erreicht 79,8% Pass@1 auf AIME 2024 und übertrifft OpenAI-o1-1217
97,3% Punkte auf MATH-500, gleichauf mit OpenAI-o1-1217
Leistung auf Expertenniveau bei Codewettbewerbsaufgaben mit 2.029 Elo-Bewertungen auf Codeforces

Wissen Aufgaben

Herausragende Ergebnisse bei MMLU (90,8%), MMLU-Pro (84,0%) und GPQA Diamond (71,5%)
Übertrifft andere Closed-Source-Modelle bei Bildungsaufgaben
Starke Leistung bei faktischen Benchmarks wie SimpleQA

Allgemeine Fähigkeiten

Hervorragende Fähigkeiten in den Bereichen kreatives Schreiben, Beantwortung von Fragen, Bearbeitung und Zusammenfassung
87,6% Gewinnrate auf AlpacaEval 2.0 und 92,3% auf ArenaHard
Starke Leistung bei Aufgaben zum Verständnis langer Zusammenhänge

Künftige Arbeit

Das Team plant, sich auf folgende Themen zu konzentrieren:

Verbesserung der allgemeinen Fähigkeiten in Bereichen wie Funktionsaufrufe und komplexe Rollenspiele
Behandlung von Fragen der Sprachenmischung
Verbesserung der Souffleurtechnik
Verbesserung der Leistung bei Softwareentwicklungsaufgaben

Schlussfolgerung

DeepSeek-R1 stellt einen bedeutenden Fortschritt bei den KI-Schlussfolgerungsfähigkeiten durch verstärkendes Lernen dar. Der Erfolg sowohl des Hauptmodells als auch seiner destillierten Versionen zeigt das Potenzial dieses Ansatzes für die Entwicklung leistungsfähigerer KI-Systeme. Die Open-Source-Veröffentlichung dieser Modelle wird zur weiteren Forschung und Entwicklung auf diesem Gebiet beitragen.

DeepSeek_R1 Herunterladen

Uncategorized

Wie wurde DeepSeek gegründet? Eine Analyse der Wachstumsgeschichte von DeepSeek

Vonzddeepseeker 3. Februar 20253. Februar 2025

In der Zukunft wird es mehr und mehr Hardcore-Innovationen geben. Das mag jetzt noch nicht leicht zu verstehen sein, weil die gesamte gesellschaftliche Gruppe erst durch Fakten aufgeklärt werden muss. Wenn diese Gesellschaft es zulässt, dass Menschen, die wirklich innovativ sind, Erfolg haben, wird sich die kollektive Denkweise ändern. Wir brauchen nur eine Reihe von Fakten und einen Prozess....

Uncategorized

Aktuelle Nachrichten! DeepSeek-Forscher enthüllt online: Das R1-Training dauerte nur zwei bis drei Wochen, und während der chinesischen Neujahrsfeiertage wurde eine starke Entwicklung von R1 Null beobachtet

Vonzddeepseeker 4. Februar 20254. Februar 2025

Eilmeldung! DeepSeek-Forscher enthüllt online: Das R1-Training dauerte nur zwei bis drei Wochen, und während der chinesischen Neujahrsfeiertage wurde eine starke Entwicklung von R1 Zero beobachtet. Gerade eben haben wir bemerkt, dass DeepSeek-Forscher Daya Guo auf Fragen von Internetnutzern zu DeepSeek R1 und den Zukunftsplänen des Unternehmens geantwortet hat. Wir können nur sagen …

Uncategorized

Altman: Wir hatten Unrecht mit Open Source AI! DeepSeek hat OpenAI weniger vorteilhaft gemacht, und der nächste ist GPT-5

Vonzddeepseeker 1. Februar 20251. Februar 2025

o3-mini kam spät in der Nacht, und OpenAI enthüllte endlich seinen neuesten Trumpf. Während eines Reddit AMA Q&A gestand Altman ein, dass er auf der falschen Seite der Open-Source-KI gestanden hatte. Er sagte, dass die interne Strategie von Open Source in Betracht gezogen wird, und das Modell wird weiter entwickelt werden, aber...

Uncategorized

DeepSeek-R1-Technologie enthüllt: Die Kernprinzipien des Papiers werden aufgeschlüsselt und der Schlüssel zur bahnbrechenden Modellleistung wird enthüllt

Vonzddeepseeker 9. Februar 20259. Februar 2025

Heute teilen wir DeepSeek R1, Titel: DeepSeek-R1: Förderung der Denkfähigkeit in LLMs durch bestärkendes Lernen: Förderung der Denkfähigkeit von LLMs durch bestärkendes Lernen. Dieses Dokument stellt die erste Generation von Denkmodellen von DeepSeek vor, DeepSeek-R1-Zero und DeepSeek-R1. Das Modell DeepSeek-R1-Zero wurde als erster Schritt durch groß angelegtes bestärkendes Lernen (RL) ohne überwachte Feinabstimmung (SFT) trainiert, …

Uncategorized

Googles Low-Cost-Modell Gemini 2.0-Serie greift an: Der Kampf um die Kosteneffizienz bei großen Modellen verschärft sich

Vonzddeepseeker 8. Februar 20258. Februar 2025

Die hohen Kosten für die Verwendung großer KI-Modelle sind ein Hauptgrund dafür, dass viele KI-Anwendungen noch nicht implementiert und gefördert wurden. Die Wahl extremer Leistung bedeutet enorme Kosten für die Rechenleistung, was zu hohen Nutzungskosten führt, die normale Benutzer nicht akzeptieren können. Der Wettbewerb um große KI-Modelle ist wie ein Krieg ohne Rauch. Nach…

Uncategorized

DeepSeek hat seinen Quellcode veröffentlicht, detaillierte Erklärung von FlashMLA

Vonzddeepseeker 24. Februar 202524. Februar 2025

Letzte Woche kündigte DeepSeek an, nächste Woche fünf Projekte als Open Source freizugeben: Internetnutzer sagten: „Dieses Mal ist OpenAI wirklich da.“ Gerade eben kam das erste Open-Source-Projekt, das sich auf die Inferenzbeschleunigung bezieht, FlashMLA: Adresse des Open-Source-Projekts: DeepSeek FlashMLA Es ist seit zwei Stunden Open Source und Github hat bereits über 2,7.000 Sterne: Das…

Abstrakt

Wichtige Beiträge

Nach-Training: Großangelegtes Verstärkungslernen

Destillation: Die Stärkung kleinerer Modelle

Ergebnisse der Bewertung

Reasoning-Aufgaben

Wissen Aufgaben

Allgemeine Fähigkeiten

Künftige Arbeit

Schlussfolgerung

Ähnliche Beiträge

Schreibe einen Kommentar Antworten abbrechen