32B inferensmodellen använder bara 1/8 av data och är knuten till DeepSeek-R1 av samma storlek!
Just nu har institutioner som Stanford, UC Berkeley och University of Washington tillsammans släppt en slutledningsmodell på SOTA-nivå, OpenThinker-32B, och har även öppnat upp till 114k träningsdata.

Hemsida för OpenThinker Project:
Lagupptäckt: Genom att använda en storskalig högkvalitativ datauppsättning med DeepSeek-R1-verifierade kommentarer (baserat på R1-destillation), kan en SOTA-inferensmodell tränas.
Den specifika metoden är att skala data, verifiera slutledningsprocessen och skala modellen.
Den resulterande OpenThinker-32B överträffade Li Fei-Feis s1- och s1.1-modeller i flera benchmark-tester inom matematik, kodning och naturvetenskap, och var nära R1-Distill-32B.
Det är värt att nämna att jämfört med R1-Distill-32B, som använde 800 000 data (inklusive 600 000 slutledningsprov), använde OpenThinker-32B endast 114 000 data för att uppnå nästan samma utmärkta resultat.

Dessutom offentliggjorde OpenThinker-32 också alla modellvikter, datauppsättningar, datagenereringskod och träningskod!

Datakurering
Forskarna tränade OpenThinker-32B med samma OpenThinker-114k-datauppsättning som de tidigare hade tränat OpenThinker-7B.
De använde DeepSeek-R1-modellen för att samla in resonemangsprocesserna och svara på försök för en noggrant utvald uppsättning av 173 000 frågor. Dessa rådata publicerades sedan som OpenThoughts-Unverified-173k dataset.
Det sista steget i processen är att filtrera bort motsvarande dataprover om resonemangsprocessen inte klarar verifieringen.
Följande bild visar visuellt hela processen.
Forskargruppen anger först källdata eller frågeuppmaningar, som kan komma från olika områden och plattformar, såsom BAAI/TACO, DeepMind, Python-inlämningar, etc., som täcker olika aspekter som kod, pussel, vetenskap och matematik.
Dessa olika indata skickas sedan till kärnbehandlingsmodulen, DeepSeek-R1, där data analyseras och bearbetas. Frågorna är indelade i tre kategorier: naturvetenskapliga frågor, matematik och pussel samt kod.
Vissa resultat kräver inte verifiering och kan vara enkla analyser eller direkta utdata. För en del innehåll som kräver djupgående verifiering används en stor språkmodell (LLM) för att bedöma det på ett sätt som är jämförbart med GT (Ground Truth). Om det är kod exekveras koden och enhetstester utförs för att säkerställa dess korrekthet och effektivitet.
Slutligen kan resultaten från olika håll kombineras för att skapa ett fördomsfritt tänkande och mer övergripande lösningar.

Forskargruppen har uppdaterat den slutliga OpenThoughts-114k-datauppsättningen med en konfiguration som kallas "metadata" som innehåller några ytterligare kolumner som används för att konstruera datamängden:
- problem
- ground_truth_solution
- test_cases (endast kod)
- startkod (endast kod)
- DeepSeek_reasoning
- DeepSeek_lösning
- domän
- källa
Dessa ytterligare metadata kommer att göra det enklare att använda denna datauppsättning i nya scenarier, såsom datafiltrering, domänbyte, verifieringskontroller och ändring av inferensprocessmallen.
Dessa ytterligare metadata kommer att göra det enklare att använda denna datamängd, och det kan göras med bara en rad kod, såsom filtrering, ändra domän, kontrollera verifieringen och ändra mall för inferensspårning.
load_dataset("open-thoughts/OpenThoughts-114k", "metadata", split="train")
Forskargruppen säger att de ser fram emot att se samhället utnyttja dessa frågor och standardsvar för forskning om förstärkningsinlärning (RL) på OpenThinker-modellen. DeepScaleR har redan visat att detta tillvägagångssätt fungerar särskilt bra i mindre skalor.
Kontroll
För att komma fram till den slutliga OpenThoughts-114k-datauppsättningen verifierade forskargruppen svaren och eliminerade felaktiga svar.
Som visas i tabellen nedan kan det skada prestandan att behålla slutsatser som inte klarar verifieringen, även om den overifierade modellen fortfarande presterar bra jämfört med de andra 32B-inferensmodellerna.
Verifieringens roll är att upprätthålla kvaliteten på R1-kommentarer samtidigt som man utökar mångfalden och storleken på utbildningsuppmaningen. Å andra sidan kan overifierade data enklare utökas och är därför också värt att utforska vidare.

För kodproblem slutför vi verifieringen av slutledningsprocessen genom att verifiera svarsförsök mot befintliga testfall.
Inspirerade av utmaningarna under kodexekveringen, implementerade vi ett kodexekveringsramverk i Curator som gör det möjligt för användare att exekvera kod i skala, säkert och verifiera den mot förväntad utdata.
För matematiska problem använde forskargruppen en LLM-domare (Large Language Model) för verifiering, som får både standardsvaret och DeepSeek-R1-lösningsförsöket.
Det visade sig att användningen av LLM-utvärderaren för datagenerering istället för den mer stringenta analysmotorn (Math-Verify) resulterade i en högre effektiv datahastighet och möjliggjorde träning av nedströmsmodeller med bättre prestanda.

Utbildning
Forskargruppen använde LLaMa-Factory för att finjustera Qwen2.5-32B-Instruct tre gånger på datamängden OpenThoughts-114k med en kontextlängd på 16k. Den fullständiga träningskonfigurationen finns på GitHub.
OpenThinker-32B tränades i 90 timmar med fyra 8xH100 P5-noder på ett AWS SageMaker-kluster, totalt 2 880 H100-timmar.
Under tiden tränade OpenThinker-32B-Unverified i 30 timmar på Leonardos superdator med 96 4xA100-noder (64 GB per GPU), och samlade 11 520 A100 timmar.
Utvärdering
Forskargruppen använde utvärderingsbiblioteket Evalchemy med öppen källkod för att utvärdera alla modeller.
För AIME24 och AIME25 beräknade de noggrannheten genom att beräkna ett genomsnitt av resultaten från fem körningar. Utvärderingskonfigurationen använde en temperaturparameter på 0,7, begränsade modellsvaret till 32 768 tokens, lade inte till några ytterligare system- eller användarpromptord och använde inga speciella avkodningsstrategier (som budgettvingande).
När OpenThoughts-projektet lanserades satte de som mål att skapa en öppen datamodell med prestanda som kunde matcha DeepSeek-R1-Distill-Qwen-32B.
Nu har den luckan nästan eliminerats.
Slutligen är forskargruppen entusiastiska över de snabba framstegen som samhället har gjort med att bygga modeller för öppna datainferenser under de senaste veckorna, och ser fram emot att fortsätta gå framåt baserat på varandras insikter.
Utgåvan med öppen källkod av OpenThinker-32B visar att synergier mellan data, validering och modellstorlek är nyckeln till att förbättra slutledningsförmågan.
Detta resultat främjar inte bara utvecklingen av inferensmodeller med öppen källkod, utan ger också värdefulla resurser och inspiration för hela AI-gemenskapen.