Das 32B-Inferenzmodell verwendet nur 1/8 der Daten und ist mit dem gleich großen DeepSeek-R1 gleichauf!

Gerade jetzt haben Institutionen wie Stanford, UC Berkeley und die University of Washington gemeinsam ein Inferenzmodell auf SOTA-Ebene veröffentlicht, OpenThinker-32B, und haben außerdem bis zu 114.000 Trainingsdaten als Open Source bereitgestellt.

Homepage des OpenThinker-Projekts:

OpenThinker umarmendes Gesicht:

Datensatz „Offene Gedanken“:

Team-Entdeckung: Mithilfe eines umfangreichen, hochwertigen Datensatzes mit verifizierten DeepSeek-R1-Anmerkungen (basierend auf R1-Destillation) kann ein SOTA-Inferenzmodell trainiert werden.

Die spezifische Methode besteht darin, die Daten zu skalieren, den Inferenzprozess zu überprüfen und das Modell zu skalieren.

Das daraus resultierende OpenThinker-32B übertraf die Modelle s1 und s1.1 von Li Fei-Fei in mehreren Benchmarktests in Mathematik, Codierung und Naturwissenschaften und lag nahe an R1-Distill-32B.

Erwähnenswert ist, dass OpenThinker-32B im Vergleich zu R1-Distill-32B, das 800.000 Daten (einschließlich 600.000 Inferenzproben) verwendete, nur 114.000 Daten verwendete, um fast dieselben hervorragenden Ergebnisse zu erzielen.

Darüber hinaus hat OpenThinker-32 auch alle Modellgewichte, Datensätze, den Datengenerierungscode und den Trainingscode veröffentlicht!

Datenkuratierung

Die Forscher trainierten OpenThinker-32B mit demselben OpenThoughts-114k-Datensatz, mit dem sie zuvor OpenThinker-7B trainiert hatten.

Sie verwendeten das Modell DeepSeek-R1, um die Denkprozesse und Antwortversuche für einen sorgfältig ausgewählten Satz von 173.000 Fragen zu sammeln. Diese Rohdaten wurden dann als OpenThoughts-Unverified-173k-Datensatz veröffentlicht.

Der letzte Schritt des Prozesses besteht darin, die entsprechenden Datenproben herauszufiltern, wenn der Schlussfolgerungsprozess die Überprüfung nicht besteht.

Die folgende Abbildung zeigt visuell den gesamten Prozess.

Das Forschungsteam gibt zunächst Quelldaten oder Fragestellungen ein, die aus verschiedenen Bereichen und Plattformen stammen können, wie etwa BAAI/TACO, DeepMind, Python-Einreichungen usw., und verschiedene Aspekte wie Code, Rätsel, Wissenschaft und Mathematik abdecken.

Diese unterschiedlichen Eingaben werden dann an das Kernverarbeitungsmodul DeepSeek-R1 weitergeleitet, wo die Daten analysiert und verarbeitet werden. Die Fragen sind in drei Kategorien unterteilt: wissenschaftliche Fragen, Mathematik und Rätsel sowie Code.

Einige Ergebnisse müssen nicht überprüft werden und können einfache Analysen oder direkte Ausgaben sein. Bei einigen Inhalten, die einer eingehenden Überprüfung bedürfen, wird ein großes Sprachmodell (LLM) verwendet, um sie auf eine mit GT (Ground Truth) vergleichbare Weise zu beurteilen. Handelt es sich um Code, wird dieser ausgeführt und es werden Unit-Tests durchgeführt, um seine Richtigkeit und Wirksamkeit sicherzustellen.

Schließlich können die Ergebnisse aus verschiedenen Richtungen kombiniert werden, um unvoreingenommenes Denken und umfassendere Lösungen hervorzubringen.

Das Forschungsteam hat den endgültigen OpenThoughts-114k-Datensatz mit einer Konfiguration namens „Metadaten“ aktualisiert, die einige zusätzliche Spalten enthält, die zum Erstellen des Datensatzes verwendet werden:

  • Problem
  • Grundwahrheitslösung
  • Testfälle (nur Code)
  • starter_code (nur Code)
  • DeepSeek_Begründung
  • DeepSeek_Lösung
  • Domain
  • Quelle

Diese zusätzlichen Metadaten erleichtern die Verwendung dieses Datensatzes in neuen Szenarien, etwa bei der Datenfilterung, dem Domänenwechsel, Überprüfungen und dem Ändern der Vorlage für den Inferenzprozess.

Diese zusätzlichen Metadaten erleichtern die Verwendung dieses Datensatzes und können mit nur einer Codezeile ausgeführt werden, z. B. zum Filtern, Ändern der Domäne, Überprüfen der Verifizierung und Ändern der Vorlage für die Inferenzverfolgung.

load_dataset("open-thoughts/OpenThoughts-114k", "Metadaten", split="train")

Das Forschungsteam freut sich darauf, zu sehen, wie die Community diese Fragen und Standardantworten für die Forschung zum bestärkenden Lernen (RL) am OpenThinker-Modell nutzt. DeepScaleR hat bereits gezeigt, dass dieser Ansatz besonders gut in kleineren Maßstäben funktioniert.

Überprüfung

Um zum endgültigen OpenThoughts-114k-Datensatz zu gelangen, überprüfte das Forschungsteam die Antworten und eliminierte falsche Antworten.

Wie in der folgenden Tabelle gezeigt, kann das Beibehalten von Inferenzen, die die Überprüfung nicht bestehen, die Leistung beeinträchtigen, obwohl das nicht überprüfte Modell im Vergleich zu den anderen 32B-Inferenzmodellen immer noch eine gute Leistung erbringt.

Die Rolle der Verifizierung besteht darin, die Qualität der R1-Anmerkungen aufrechtzuerhalten und gleichzeitig die Vielfalt und Größe des Trainings-Prompt-Sets zu erweitern. Andererseits können nicht verifizierte Daten leichter erweitert werden und sind daher auch eine weitere Untersuchung wert.

Bei Codeproblemen vervollständigen wir die Verifizierung des Inferenzprozesses durch die Überprüfung der Antwortversuche anhand vorhandener Testfälle.

Inspiriert von den Herausforderungen bei der Codeausführung haben wir in Curator ein Codeausführungsframework implementiert, das es Benutzern ermöglicht, Code in großem Umfang sicher auszuführen und anhand der erwarteten Ausgabe zu überprüfen.

Bei mathematischen Problemen nutzte das Forschungsteam zur Verifizierung einen LLM (Large Language Model)-Richter, der sowohl die Standardantwort als auch den DeepSeek-R1-Lösungsversuch entgegennimmt.

Es wurde festgestellt, dass die Verwendung des LLM-Evaluators zur Datengenerierung anstelle der strengeren Parsing-Engine (Math-Verify) zu einer höheren effektiven Datenrate führte und das Training nachgelagerter Modelle mit besserer Leistung ermöglichte.

Ausbildung

Das Forschungsteam verwendete LLaMa-Factory, um Qwen2.5-32B-Instruct dreimal auf dem OpenThoughts-114k-Datensatz mit einer Kontextlänge von 16k zu optimieren. Die vollständige Trainingskonfiguration finden Sie auf GitHub.

OpenThinker-32B wurde 90 Stunden lang mit vier 8xH100 P5-Knoten auf einem AWS SageMaker-Cluster trainiert, insgesamt also 2.880 H100-Stunden.

In der Zwischenzeit wurde OpenThinker-32B-Unverified 30 Stunden lang auf dem Leonardo-Supercomputer mit 96 4xA100-Knoten (64 GB pro GPU) trainiert, wodurch insgesamt 11.520 A100-Stunden erreicht wurden.

Auswertung

Zur Bewertung aller Modelle verwendete das Forschungsteam die Open-Source-Bewertungsbibliothek Evalchemy.

Für AIME24 und AIME25 berechneten sie die Genauigkeit, indem sie die Ergebnisse von fünf Durchläufen mittelten. Die Evaluierungskonfiguration verwendete einen Temperaturparameter von 0,7, beschränkte die Modellantwort auf 32.768 Token, fügte keine zusätzlichen System- oder Benutzereingabewörter hinzu und verwendete keine speziellen Dekodierungsstrategien (wie z. B. Budget Forcing).

Als das OpenThoughts-Projekt gestartet wurde, setzte es sich das Ziel, ein offenes Datenmodell zu erstellen, dessen Leistung mit der von DeepSeek-R1-Distill-Qwen-32B mithalten konnte.

Mittlerweile ist diese Lücke fast geschlossen.

Abschließend ist das Forschungsteam begeistert über die schnellen Fortschritte, die die Community in den letzten Wochen beim Aufbau von Open-Data-Inferenzmodellen gemacht hat, und freut sich darauf, auf Grundlage der Erkenntnisse der anderen weiter voranzukommen.

Die Open-Source-Version von OpenThinker-32B zeigt, dass Synergien zwischen Daten, Validierung und Modellgröße der Schlüssel zur Verbesserung der Inferenzfähigkeiten sind.

Dieses Ergebnis fördert nicht nur die Entwicklung von Open-Source-Inferenzmodellen, sondern bietet auch wertvolle Ressourcen und Inspiration für die gesamte KI-Community.

Ähnliche Beiträge

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert