Het 32B-inferentiemodel gebruikt slechts 1/8 van de gegevens en is daarmee gelijk aan DeepSeek-R1 van dezelfde grootte!
Onlangs hebben instellingen als Stanford, UC Berkeley en de Universiteit van Washington gezamenlijk een SOTA-niveau-inferentiemodel gepubliceerd, OpenThinker-32Ben hebben ook tot 114.000 trainingsgegevens open source gemaakt.

Startpagina van het OpenThinker-project:
OpenThinker Knuffelend Gezicht:
Teamontdekking: Met behulp van een grootschalige, hoogwaardige dataset met DeepSeek-R1-geverifieerde annotaties (gebaseerd op R1-destillatie) kan een SOTA-inferentiemodel worden getraind.
De specifieke methode is om de gegevens te schalen, het inferentieproces te verifiëren en het model te schalen.
De resulterende OpenThinker-32B overtrof de s1- en s1.1-modellen van Li Fei-Fei in meerdere benchmarktests in wiskunde, programmeren en wetenschap en kwam dicht in de buurt van R1-Distill-32B.
Het is de moeite waard om te vermelden dat OpenThinker-32B, vergeleken met R1-Distill-32B, dat 800.000 data gebruikte (inclusief 600.000 inferentiemonsters), slechts 114.000 data gebruikte om bijna dezelfde uitstekende resultaten te behalen.

Bovendien heeft OpenThinker-32 ook alle modelgewichten, datasets, datageneratiecode en trainingscode openbaar gemaakt!

Gegevensbeheer
De onderzoekers trainden OpenThinker-32B met dezelfde OpenThoughts-114k-dataset als waarmee ze eerder OpenThinker-7B hadden getraind.
Ze gebruikten het DeepSeek-R1-model om de redeneerprocessen en antwoordpogingen te verzamelen voor een zorgvuldig geselecteerde set van 173.000 vragen. Deze ruwe data werd vervolgens gepubliceerd als de OpenThoughts-Unverified-173k-dataset.
De laatste stap in het proces is het filteren van de bijbehorende datamonsters als het redeneringsproces de verificatie niet doorstaat.
De onderstaande afbeelding geeft het volledige proces visueel weer.
Het onderzoeksteam voert eerst brongegevens of vragen in. Deze kunnen afkomstig zijn uit verschillende vakgebieden en platforms, zoals BAAI/TACO, DeepMind, Python-inzendingen, enz. en bestrijken verschillende aspecten, zoals code, puzzels, wetenschap en wiskunde.
Deze diverse inputs worden vervolgens doorgegeven aan de kernverwerkingsmodule, DeepSeek-R1, waar de data wordt geanalyseerd en verwerkt. De vragen zijn verdeeld in drie categorieën: wetenschappelijke vragen, wiskunde en puzzels, en code.
Sommige resultaten hoeven niet te worden geverifieerd en kunnen eenvoudige analyses of directe outputs zijn. Voor sommige content die diepgaande verificatie vereist, wordt een groot taalmodel (LLM) gebruikt om het te beoordelen op een manier die vergelijkbaar is met GT (Ground Truth). Als het code is, wordt de code uitgevoerd en worden er unittests uitgevoerd om de correctheid en effectiviteit ervan te garanderen.
Ten slotte kunnen de resultaten uit verschillende richtingen worden gecombineerd om een open-minded denkproces en meer omvattende oplossingen te genereren.

Het onderzoeksteam heeft de definitieve OpenThoughts-114k-dataset bijgewerkt met een configuratie genaamd 'metadata' die een aantal extra kolommen bevat die worden gebruikt om de dataset samen te stellen:
- probleem
- grond_waarheid_oplossing
- test_cases (alleen code)
- starter_code (alleen code)
- DeepSeek_redenering
- DeepSeek_oplossing
- domein
- bron
Dankzij deze aanvullende metagegevens kunt u deze dataset eenvoudiger gebruiken in nieuwe scenario's, zoals gegevensfiltering, domeinwisseling, verificatiecontroles en het wijzigen van de sjabloon voor het inferentieproces.
Deze extra metagegevens maken het gebruik van deze dataset eenvoudiger en kunnen met slechts één regel code worden uitgevoerd. Denk bijvoorbeeld aan het filteren, wijzigen van het domein, controleren van de verificatie en wijzigen van de sjabloon voor het bijhouden van gevolgtrekkingen.
load_dataset("open-gedachten/OpenThoughts-114k", "metadata", split="train")
Het onderzoeksteam zegt dat ze ernaar uitkijken dat de community deze vragen en standaardantwoorden inzet voor onderzoek naar reinforcement learning (RL) op het OpenThinker-model. DeepScaleR heeft al aangetoond dat deze aanpak bijzonder goed werkt op kleinere schaal.
Verificatie
Om tot de uiteindelijke OpenThoughts-114k-dataset te komen, verifieerde het onderzoeksteam de antwoorden en elimineerde onjuiste antwoorden.
Zoals in de onderstaande tabel wordt weergegeven, kan het behouden van gevolgtrekkingen die niet door de verificatie komen, de prestaties negatief beïnvloeden. Het niet-geverifieerde model presteert echter nog steeds goed in vergelijking met de andere 32B-inferentiemodellen.
De rol van verificatie is om de kwaliteit van R1-annotaties te behouden en tegelijkertijd de diversiteit en omvang van de set trainingsprompts uit te breiden. Aan de andere kant kunnen ongeverifieerde gegevens gemakkelijker worden uitgebreid en zijn daarom ook de moeite waard om verder te onderzoeken.

Bij codeproblemen voltooien we de verificatie van het afleidingsproces door antwoordpogingen te vergelijken met bestaande testcases.
Geïnspireerd door de uitdagingen tijdens de uitvoering van code, hebben we een code-uitvoeringsframework geïmplementeerd in Curator waarmee gebruikers code op grote schaal en veilig kunnen uitvoeren en deze kunnen verifiëren aan de hand van de verwachte output.
Voor wiskundige problemen maakte het onderzoeksteam gebruik van een LLM (Large Language Model) beoordelaar ter verificatie, die zowel het standaardantwoord als de DeepSeek-R1 oplossingspoging ontving.
Uit onderzoek is gebleken dat het gebruik van de LLM-evaluator voor het genereren van gegevens in plaats van de strengere parsing-engine (Math-Verify) resulteerde in een hogere effectieve gegevenssnelheid en het mogelijk maakte om downstream-modellen met betere prestaties te trainen.

Opleiding
Het onderzoeksteam gebruikte LLaMa-Factory om Qwen2.5-32B-Instruct drie keer te verfijnen op de OpenThoughts-114k dataset met een contextlengte van 16k. De volledige trainingsconfiguratie is te vinden op GitHub.
OpenThinker-32B werd 90 uur lang getraind met behulp van vier 8xH100 P5-knooppunten op een AWS SageMaker-cluster, voor een totaal van 2.880 H100-uren.
Ondertussen trainde OpenThinker-32B-Unverified 30 uur lang op de Leonardo-supercomputer met 96 4xA100-knooppunten (64 GB per GPU), goed voor 11.520 A100-uren.
Evaluatie
Het onderzoeksteam gebruikte de open source evaluatiebibliotheek Evalchemy om alle modellen te evalueren.
Voor AIME24 en AIME25 berekenden ze de nauwkeurigheid door de resultaten van vijf runs te middelen. De evaluatieconfiguratie gebruikte een temperatuurparameter van 0,7, beperkte de modelrespons tot 32.768 tokens, voegde geen extra systeem- of gebruikerspromptwoorden toe en gebruikte geen speciale decoderingsstrategieën (zoals budgetforcing).
Toen het OpenThoughts-project werd gelanceerd, stelden ze zich als doel om een open datamodel te creëren met prestaties die vergelijkbaar waren met die van DeepSeek-R1-Distill-Qwen-32B.
Inmiddels is die kloof bijna gedicht.
Tot slot is het onderzoeksteam enthousiast over de snelle vooruitgang die de community de afgelopen weken heeft geboekt bij het bouwen van open data-inferentiemodellen. Ze kijken ernaar uit om verder te gaan op basis van elkaars inzichten.
De open source-versie van OpenThinker-32B laat zien dat synergieën tussen data, validatie en modelgrootte essentieel zijn voor het verbeteren van de inferentiemogelijkheden.
Deze uitkomst bevordert niet alleen de ontwikkeling van open source-inferentiemodellen, maar biedt ook waardevolle bronnen en inspiratie voor de gehele AI-gemeenschap.