Das Geheimnis hinter DeepSeek 1 | DeepSeekMath und GRPO-Details

Heute möchte ich einen Artikel von DeepSeek mit dem Titel „DeepSeekMath: Die Grenzen des mathematischen Denkens in offenen Sprachmodellen erweitern“ teilen.

Dieser Artikel stellt DeepSeekMath 7B vor, das vorab trainiert ist auf DeepSeek-Coder-Base-v1.5 7B basierend auf eine Sammlung von 120 Milliarden mathematikbezogenen Token, natürlicher Sprache und Codedaten.

Das Modell erreichte in MATH-Benchmarks auf Wettbewerbsniveau einen erstaunlichen Wert von 51,7%, ohne auf externe Toolkits und Abstimmungstechniken zurückzugreifen, und näherte sich damit dem Leistungsniveau von Gemini-Ultra und GPT-4.

DeepSeekMath 7Bs mathematische Denkfähigkeit wird auf zwei Schlüsselfaktoren zurückgeführt: Erstens durch eine sorgfältig konzipierte Datenauswahl-Pipelinewerden hochwertige mathematikbezogene Daten iterativ aus öffentlich verfügbaren Webdaten gewonnen.

Zweitens ist die Group Relative Policy Optimization (GRPO) eingeführt, eine Variante der Proximal Policy Optimization (PPO), die das mathematische Denkvermögen verbessern und gleichzeitig die Speichernutzung von PPO optimieren kann.

Die Merkmale der Methode lassen sich wie folgt zusammenfassen:Ein hochwertiges mathematisches Vortrainingskorpus wurde erstellt und eine sorgfältig entworfene Pipeline wurde verwendet, um hochwertige mathematische Daten aus Common Crawl zu extrahieren.
Der GRPO-Algorithmus vorgeschlagen, wodurch der Trainingsaufwand verringert und die mathematische Denkfähigkeit des Modells verbessert wird. 3) Leistung auf dem neuesten Stand der Technik War in mehreren Benchmarktests für mathematisches Denkvermögen erreicht.

Inhaltsübersicht

Überblick

Titel: DeepSeekMath: Die Grenzen des mathematischen Denkens in offenen Sprachmodellen erweitern

URL: klicken Sie hier

Autoren: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y. Wu, Daya Guo

Code: klicken Sie hier

Motivation

Mathematisches Denken stellt aufgrund der Komplexität und der strukturierten Natur der Mathematik eine große Herausforderung für Sprachmodelle dar. Die fortschrittlichsten Modelle wie GPT-4 und Gemini-Ultra sind leistungsstark, aber nicht öffentlich verfügbar. Daher besteht erheblicher Verbesserungsbedarf bei der Leistung von Open-Source-Modelle.

Komplexität und Struktur: Aufgrund der Komplexität und Struktur der Mathematik stellt das mathematische Denken eine große Herausforderung für Sprachmodelle dar.

Potenzial öffentlicher Daten: Öffentlich verfügbare Webdaten enthalten möglicherweise umfangreiche mathematische Informationen, die noch erforscht und genutzt werden müssen.

Methoden

Datenerhebung: Ein DeepSeekMath-Korpus mit 120 Milliarden Token wurde durch das Sammeln hochwertiger mathematikbezogener Webdaten von Common Crawl über eine iterative Pipeline erstellt.

Modelltraining: Das Korpus wurde für das Vortraining auf Basis von DeepSeek-Coder-Base-v1.5 7B verwendet und es wurden der Algorithmus zur Feinabstimmung mathematischer Anweisungen und zur gruppenrelativen Richtlinienoptimierung (GRPO) angewendet.

GRPO-Algorithmus: GRPO ist ein verbesserter Algorithmus für bestärkendes Lernen, der das Critic-Modell in PPO entfernt und den Basiswert aus der Gruppenpunktzahl schätzt, wodurch die Trainingsressourcen erheblich reduziert werden.

Detaillierte Methoden und Verfahren:

Datenerhebung und -verarbeitung:

Erstellen Sie das DeepSeekMath-Korpus: Mithilfe eines auf FastText basierenden Klassifikators Extrahieren Sie 120B mathematikbezogene Token von Common Crawl, um ein umfangreiches, hochwertiges vortrainiertes Korpus, DeepSeekMath Corpus, zu erstellen.

Iterative Datenfilterung: Es wird eine iterative Strategie verwendet, Verwendung von OpenWebMath als Startdaten zum Trainieren eines ersten Klassifikators und anschließende Verwendung dieses Klassifikators zum Ermitteln weiterer positiver Beispiele von Common Crawl, die manuell annotiert werden, um die Leistung des Klassifikators kontinuierlich zu optimieren.

Mehrsprachige Funktionen: DeepSeekMath Corpus enthält mehrsprachige Daten, wodurch die Leistung des Modells bei chinesischen Mathematik-Benchmarks verbessert wird.

Schadstoffbeseitigung: Ent-Die Trainingsdaten werden einer Verschmutzungsverarbeitung unterzogen, um eine Überschneidung mit dem Test-Benchmark zu vermeiden.

Vortraining:

Codebasierte Modellinitialisierung: Initialisierung mit dem DeepSeek-Coder-Base-v1.5 7B Das Modell erwies sich als effektiver als die Initialisierung von einem allgemeinen LLM.

Zusammensetzung der Vortrainingsdaten: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% Github-Code, 10% Common Crawl-Daten in natürlicher Sprache.

Vortrainingsparameter: Es wird der AdamW-Optimierer mit einer Lernrate von 4,2e-4, einer Batch-Größe von 10 Millionen Token und einem Training von 500 Milliarden Token verwendet.

Anleitung Feintuning:

Erstellen Sie einen Datensatz zur Feinabstimmung der Anweisungen: Erstellen Sie einen Datensatz zur Feinabstimmung mathematischer Anweisungen, der enthält 776.000 Beispiele, das eine Vielzahl mathematischer Felder und Schwierigkeitsgrade abdeckt, einschließlich CoT, PoT und toolintegrierter Inferenzformate zum Lösen von Schritten.

Trainingsparameter: Batchgröße 256, Lernrate 5e-5, Training für 500 Schritte.

Verstärkendes Lernen – Group Relative Policy Optimization (GRPO):

GRPO-Algorithmus vorschlagen: Schlagen Sie vor PPO-Variantenalgorithmus GRPO, der die Notwendigkeit eines Critic-Modells vermeidet, indem er gruppenweise Werte zur Schätzung der Baseline verwendet und so den Trainingsaufwand reduziert.

Zielfunktion: GRPO optimiert das Politikmodell durch Maximierung einer Zielfunktion, die berücksichtigt den relativen Vorteil der In-Group-Ausgaben und fügt die KL-Divergenz direkt als Regularisierungsterm hinzu.

Vorteilsrechnung: GRPO berechnet den Vorteil durch relative Belohnungen innerhalb der Gruppe, Vermeidung von Vergleichen zwischen Gruppen und bessere Anpassung an die vergleichende Natur des Belohnungsmodells.

Unterstützt sowohl die Ergebnis- als auch die Prozessüberwachung: GRPO kann sowohl die Ergebnis- als auch die Prozessüberwachung unterstützen und die Politik effektiver überwachen indem am Ende jedes Inferenzschritts Belohnungen bereitgestellt werden.

Iteratives RL: Verwendet ein iterative RL-Strategie um einen neuen Trainingssatz basierend auf den Stichprobenergebnissen des Richtlinienmodells zu generieren, das alte Belohnungsmodell kontinuierlich zu trainieren und das neue Belohnungsmodell zum Aktualisieren des Richtlinienmodells zu verwenden.

Trainingsdaten: Verwendet die mit GSM8K und MATH verbundenen CoT-Formatprobleme in den SFT-Daten, ungefähr 144.000 Probleme.

Trainingsparameter: Die Lernrate des Richtlinienmodells beträgt 1e-6, der KL-Koeffizient beträgt 0,04, für jedes Problem werden 64 Ausgaben abgetastet, die maximale Länge beträgt 1024 und die Trainings-Batchgröße beträgt 1024.

Schlussfolgerung

Schlussfolgerung 1:DeepSeekMath 7B übertrifft alle Open-Source-Modelle in Bezug auf die mathematische Denkfähigkeit. Im wettbewerbsorientierten MATH-Benchmark-Test erreichte DeepSeekMath 7B eine Genauigkeit von 51,7%, was nahe am Leistungsniveau von Gemini-Ultra und GPT-4 liegt.

Schlussfolgerung 2:Gut konzipierte Vortrainingsdaten und GRPO-Algorithmen sind der Schlüssel zum Erfolg des Modells. Durch die Kombination eines hochwertigen mathematischen Korpus und GRPO-Algorithmen kann das Modell bei mathematischen Denkaufgaben erhebliche Leistungssteigerungen erzielen.

Schlussfolgerung 3:Code-Training trägt dazu bei, das mathematische Denkvermögen zu verbessern. Das Hinzufügen von Codedaten zur Vortrainingsphase kann die Fähigkeit des Modells verbessern, mathematische Probleme sowohl mit als auch ohne Tools zu lösen.

Schlussfolgerung 4: Eingeschränkter Nutzen der arXiv-Daten: Entgegen früheren Annahmen halfen die arXiv-Daten offenbar nur bedingt dabei, das mathematische Denken zu verbessern.

Einschränkung

Geometrie und Beweisfähigkeiten sind relativ schwach: Obwohl DeepSeekMath beim quantitativen Denken herausragend ist, sind seine Fähigkeiten in Geometrie und Beweisführung immer noch schlechter als bei Closed-Source-Modellen. Dies kann an der verzerrten Datenauswahl in den Phasen des Vortrainings und der Feinabstimmung liegen.

Schwäche bei geringer Probenkapazität: DeepSeekMath ist GPT-4 beim Lernen kleiner Stichproben unterlegen, was an der Beschränkung der Modellgröße liegen kann.

Es bedarf effizienterer Methoden des bestärkenden Lernens: Obwohl die in der Arbeit vorgeschlagenen Methoden des bestärkenden Lernens wirksam sind, besteht weiterhin Verbesserungsbedarf, beispielsweise hinsichtlich der effektiveren Nutzung des Feedbacks vom Belohnungsmodell und des Umgangs mit verrauschten Belohnungssignalen.

Details

Erkundung und Analyse von bestärkendem Lernen

Überblick:

Einführung der Group Relative Policy Optimization (GRPO): Das Papier schlägt einen neuen Reinforcement-Learning-Algorithmus vor, GRPO, als Variante der Proximal Policy Optimization (PPO). Das Hauptmerkmal von GRPO ist, dass es verzichtet auf das im PPO häufig verwendete Critic-Modell und schätzt den Ausgangswert durch Gruppenwerte, wodurch der für das Training erforderliche Rechenaufwand erheblich reduziert wird.

GRPO-Wirksamkeitsnachweis: Das Papier zeigt experimentell, dass GRPO die Leistung von Befehlsfeinabstimmungsmodellen effektiv zu verbessern, einschließlich sowohl domäneninterner als auch domänenexterner mathematischer Aufgaben.

Einheitlicher Rahmen für Methoden des bestärkenden Lernens: Das Papier schlägt einen einheitlichen Rahmen für das Verständnis verschiedener Methoden des bestärkenden Lernens vor, wie zum Beispiel Feinabstimmung der Ablehnungsstichproben (RFT), Direktpräferenzoptimierung (DPO), PPO und GRPO. Das Framework behandelt diese Methoden als direkte oder vereinfachte Verstärkungslerntechniken.

Detaillierte Untersuchung der Elemente des bestärkenden Lernens: Das Papier untersucht eingehend Schlüsselelemente des bestärkenden Lernens, wie Online-Training und Offline-Training, Ergebnisüberwachung und Prozessüberwachung, einrundes bestärkendes Lernen und iteratives bestärkendes Lernen, durch detaillierte Experimente, und fasst mögliche Richtungen zur Verbesserung der Effektivität des bestärkenden Lernens zusammen.

GRPO-Algorithmus (Group Relative Policy Optimization)

Einschränkungen von PPO: PPO ist ein häufig verwendeter Reinforcement-Learning-Algorithmus, erfordert aber das Training eines zusätzliches Kritikermodell zur Schätzung der Wertfunktion, die eine zusätzliche Rechen- und Speicherbelastung. Darüber hinaus im LLM-Szenario Das Training des Kritikermodells kann kompliziert sein, da es eine Evaluierung erfordert die Ausgabe jedes Tokens.

GRPO Kernidee: Die Kernidee von GRPO ist es, Verzichten Sie auf das Critic-Modell und verwenden Sie stattdessen den Durchschnittswert einer Reihe von Ergebnissen für dasselbe Problem als Basislinie. Diese Basislinie kann zur Schätzung der Vorteilsfunktion und zur Optimierung der Richtlinien verwendet werden.Durch diesen Ansatz wird die Komplexität des Trainings erheblich reduziert.

Vorteilsfunktion Berechnung: GRPO berechnet die Vorteilsfunktion durch Berechnen der relativen Rangfolge der einzelnen Ausgaben im gleichen Satz von Ausgaben, anstatt sich auf eine separate Wertfunktion zu verlassen wie bei PPO.

KL-Divergenzstrafe: GRPO fügt der Belohnung keine KL-Divergenzstrafe hinzu wie PPO, sondern fügt die KL-Divergenz zwischen dem Richtlinienmodell und dem Referenzmodell direkt zur Verlustfunktion hinzu. Dadurch wird die komplexe Berechnung der Vorteilsfunktion vermieden..

Die Kernidee von GRPO

erfordert keinen Kritiker (Wertfunktion): GRPO vermeidet die Notwendigkeit einer Wertfunktion und verwendet den Wert innerhalb der Gruppe zur Schätzung des Ausgangswerts, wodurch die Schulungsressourcen reduziert werden.

Relativer Vorteil innerhalb der Gruppe: Für jedes Problem q wählt GRPO eine Reihe von Ausgaben {o(1), o(2), …, o(G)} aus der alten Richtlinie π(θold) aus und optimiert dann das Richtlinienmodell, indem es die folgende Gleichung als Zielfunktion maximiert.

Speziell:

Der Schlüssel hier ist Â(i,t), das den Vorteil darstellt und berechnet wird durch die relative Belohnung der gruppeninternen Leistung, anstatt sich wie in PPO auf eine separate Wertfunktion zu verlassen.

Die Zielfunktion fügt außerdem direkt hinzu KL-Divergenz als Regularisierungsterm zur Kontrolle der Größe von Richtlinienaktualisierungen

und sich an der Vergleichsnatur des Belohnungsmodells orientieren: GRPO berechnet den Vorteil anhand der relativen gruppeninternen Belohnung. Dies entspricht eher der Art des Belohnungsmodells, das normalerweise auf der Grundlage von paarweisen Vergleichen trainiert wird.

Wie kann das Belohnungsmodell von GRPO gestaltet werden (siehe DeepSeek R1)?

Merkmale:

Formatbelohnung: erzwingt die Erzeugung von langen Kinderbett Ergebnisse, die das Modell dazu bringen können, Inferenzprozesse zu generieren und die Inferenzwirkung des Modells zu verbessern.

Genauigkeitsbelohnung: Die Mathematik kann das Endergebnis verwenden und der Code kann das Compiler-Feedback nutzen.

Vorteile von GRPO

Geringerer Speicherbedarf: Kein Critic-Modell erforderlich, wodurch der Speicherbedarf reduziert wird.

Effizienteres Training: Die Berechnung unter Verwendung des relativen Vorteils innerhalb der Gruppe vereinfacht den Trainingsprozess.

Besser mit der Natur von Belohnungsmodellen vereinbar: verbessert die Trainingsstabilität und -effizienz.

Zusammenfassung des einheitlichen RL-Paradigmas

Einheitliches Paradigma vorgeschlagen

Die Autoren schlagen ein einheitliches Paradigma zum Verständnis verschiedener Trainingsmethoden wie SFT (Supervised Fine-tuning), RFT (Rejection Sampling Fine-tuning), DPO (Direct Preference Optimization), PPO, GRPO usw. vor. RL-Schlüsselelemente: Zu den Schlüsselelementen des einheitlichen Frameworks gehören: Datenquellen, Belohnungsfunktionen und Algorithmen.

Datenquelle: Dies bezieht sich auf die für das Training verwendeten Daten, die aus manueller Kennzeichnung, SFT-Modellen oder Echtzeit-Richtlinienmodellen abgeleitet werden können.
Belohnungsfunktion: Dies bezieht sich auf die Funktion, die zur Bewertung der Qualität der Ausgabe verwendet wird. Dabei kann es sich um eine Regel oder ein Modell handeln.
Algorithmus: Dies bezieht sich auf die Methode, die zum Verarbeiten der Daten und des Belohnungssignals sowie zum Aktualisieren der Modellparameter verwendet wird.

Analyse unterschiedlicher Methoden anhand eines einheitlichen Paradigmas

Tabelle 10 fasst die Ähnlichkeiten und Unterschiede zwischen SFT, RFT, DPO, Online RFT, PPO und GRPO in Bezug auf Datenquellen, Belohnungsfunktionen und Gradientenkoeffizienten zusammen.

Verfahren	Trainingsdaten	Belohnungsfunktion	Steigungskoeffizient	Trainingsmethode	Vorteile/Merkmale	Anwendbare Szenarien
SFT	Manuell gekennzeichnete SFT-Daten	Manuell ausgewählt (implizite Belohnung)	Festgelegt auf 1	Überwachtes Lernen	Einfach und stabil, abhängig von qualitativ hochwertigen gekennzeichneten Daten	Grundlegendes Modelltraining, anfängliche Ausrichtungsaufgabe
RFT	SFT-Datensatzproblem + Beispielausgabe des SFT-Modells	Basierend auf der Richtigkeit der Antwort (Regelbeurteilung)	0 (falsch) oder 1 (richtig)	Optimierung der Offline-Richtlinien	Effiziente Kalkulation, direkte Nutzung von Regelfeedback	Mathematisch-logische Aufgaben mit klaren Regeln
Datenschutzbeauftragter	SFT-Datensatzproblem + Modellausgabe zu	Kennzeichnung menschlicher Präferenzen oder Regelvergleich	Basierend auf der Berechnung der Präferenzwahrscheinlichkeit (z. B. Bradley-Terry-Modell)	Vergleichendes Lernen	Vermeidet explizite Belohnungsmodellierung und optimiert direkt Präferenzen	Aufgaben zur Anpassung menschlicher Präferenzen (z. B. Dialoggenerierung)
Online RFT	Stichprobenziehung von Richtlinienmodellen in Echtzeit Problem-Ausgabe-Paare	Basierend auf der Richtigkeit der Antwort (Regelbeurteilung)	0 (falsch) oder 1 (richtig)	Optimierung der Online-Richtlinien	Dynamische Aktualisierung von Richtlinien mit Echtzeit-Feedback-Optimierung	Szenarien, die Online-Interaktion erfordern (z. B. Spiel-KI)
PPO	SFT-Datensatzproblem + Ergebnisse der Stichprobenziehung im Richtlinienmodell	Belohnungsmodell (RM) trainiert	Dominanzfunktion (basierend auf der Belohnungsschätzung)	Policy-Gradient-Methode	Effizient und stabil, unterstützt mehrstufige Optimierung	Komplexe Aufgaben (zB Textgenerierung, Robotersteuerung)
GRPO	SFT-Datensatzproblem + Ausgabe der Richtlinienmodellstichprobe	Belohnungsmodell (RM) trainiert	Relative Belohnung innerhalb der Gruppe (normalisierter Vergleich)	Gruppenrichtlinienoptimierung	Reduzieren Sie die Belohnungsvarianz und verbessern Sie den Vergleich innerhalb der Gruppe	Aufgaben mit hoher Varianz (zB Langtextgenerierung)

Anmerkungen zu den Datenquellen

Online- vs. Offline-Schulung: Beim Online-Training wird die Ausgabe des Echtzeit-Richtlinienmodells als Trainingsdaten verwendet, während beim Offline-Training die Ausgabe eines festen Modells (wie des SFT-Modells) als Trainingsdaten verwendet wird. Experimentelle Ergebnisse zeigen, dass Online-Schulungen sind grundsätzlich besser als Offline-Schulungen.

Ergebnisüberwachung vs. Prozessüberwachung: Bei der Ergebnisüberwachung wird nur der letzte Schritt des Ergebnisses belohnt, während bei der Prozessüberwachung jeder Schritt des Denkprozesses belohnt wird. Experimentelle Ergebnisse zeigen, dass Die Prozessüberwachung ist bei komplexen Aufgaben effektiver.

Einzelepisoden- vs. iteratives Verstärkungslernen: Beim einstufigen Verstärkungslernen handelt es sich um eine einzelne Strategieoptimierung, während beim iterativen Verstärkungslernen die kontinuierliche Aktualisierung des Belohnungsmodells nach mehreren Strategieoptimierungen gemeint ist. Experimentelle Ergebnisse zeigen, dass iteratives Verstärkungslernen kann die Leistung erheblich verbessern, insbesondere in der ersten Iteration.

Beobachtung von Gradientenkoeffizienten

Regelbasiert vs. modellbasiert: Mit „Regel“ wird die Belohnung auf Grundlage der Richtigkeit der Antwort bestimmt, und mit „Modell“ wird ein Belohnungsmodell zur Punktevergabe trainiert.

Unterschied der Gradientenkoeffizienten: Der Hauptunterschied zwischen GRPO und Der Unterschied bei Online-RFT besteht darin, dass GRPO seine Gradientenkoeffizienten basierend auf den vom Belohnungsmodell bereitgestellten Belohnungswerten anpasst, während dies bei Online-RFT nicht der Fall ist.

GRPO-Vorteile: Experimente zeigen, dass GRPO ist Online RFT überlegen und demonstriert die Wirksamkeit der Änderung des Vorzeichens der Gradientenkoeffizienten. GRPO+PS ist GRPO+OS überlegen und demonstriert die Vorteile der Verwendung feinkörniger, schrittbewusster Gradientenkoeffizienten..

RL-Effektivität und Verbesserungsvorschläge

Warum ist RL effektiv?

Versuchsergebnisse: RL verbessert die Maj@K-Leistung, aber nicht die Pass@K-Leistung.

Erläuterung: RL verbessert die Gesamtleistung des Modells, indem es die Ausgabeverteilung robuster macht, d. h. es verbessert die Wahrscheinlichkeit richtiger Antworten in TopK, anstatt die zugrunde liegende Fähigkeit des Modells zu verbessern.

Wie kann ein effektiveres RL erreicht werden?

Basierend auf dem einheitlichen Paradigma schlagen die Autoren zukünftige Richtungen zur Verbesserung des RL in drei Aspekten vor: Datenquellen, Algorithmen und Belohnungsfunktionen.

Datenquellen:
- Erkunden Sie Probleme über die SFT-Phase hinaus.
- Verwenden Sie fortgeschrittenere Sampling- (Dekodier-)Strategien, beispielsweise auf Baumsuche basierende Methoden.
- Verwenden Sie effiziente Inferenztechniken, um die Explorationseffizienz des Richtlinienmodells zu verbessern.
Algorithmus:
- Entdecken Sie bestärkende Lernalgorithmen, die gegenüber verrauschten Belohnungssignalen robuster sind.
- Studieren Sie Methoden zur Typausrichtung von „Weak-to-Strong“.
Belohnungsfunktion:
- Verbessern Sie die Generalisierungsfähigkeit des Belohnungsmodells, um mit Out-of-Distribution-Problemen und erweiterten dekodierten Ausgaben umzugehen.
- Berücksichtigen Sie die Unsicherheit des Belohnungsmodells und nutzen Sie es als Brücke, um schwache Belohnungsmodelle und SCHWACH-ZU-STARK-Lernalgorithmen zu verbinden.
- Erstellen Sie effizient hochwertige Prozessbelohnungsmodelle, um feinkörnige Trainingssignale für den Inferenzprozess bereitzustellen.

Zusammenfassung

DeepSeekMath hat die Fähigkeit von Open-Source-Sprachmodellen im mathematischen Denken deutlich verbessert, indem es ein umfangreiches mathematisches Korpus erstellt und einen neuen Algorithmus für bestärkendes Lernen vorgeschlagen hat. Die Highlights dieses Papiers sind

die Erstellung und Validierung des DeepSeekMath Corpus, eines umfangreichen, hochwertigen und mehrsprachigen mathematischen Korpus.
Um den Speicherbedarf zu reduzieren und gleichzeitig die mathematische Denkfähigkeit des Modells zu verbessern, wird ein effizienter Verstärkungslernalgorithmus, GRPO, vorgeschlagen.
Die Auswirkungen des Codetrainings auf die mathematische Denkfähigkeit werden ausführlich diskutiert und es wird festgestellt, dass die arXiv-Daten nur einen begrenzten Effekt haben. Der Wert von DeepSeekMath:
Es bietet der Open-Source-Community ein leistungsfähiges mathematisches Denkmodell und fördert die Entwicklung mathematischer KI.
Es bietet wertvolle Erfahrungen und Methoden zum Aufbau mathematischer Korpora und zum Trainieren mathematischer Denkmodelle.
Der vorgeschlagene GRPO-Algorithmus bietet neue Ideen für das Reinforcement-Learning-Training in anderen Bereichen.

Das Geheimnis hinter DeepSeek 1 | DeepSeekMath und GRPO Details