32B-inferensmodellen bruger kun 1/8 af dataene og er bundet med DeepSeek-R1 af samme størrelse!
Lige nu har institutioner som Stanford, UC Berkeley og University of Washington i fællesskab frigivet en inferensmodel på SOTA-niveau, OpenThinker-32B, og har også open source op til 114k træningsdata.

OpenThinker Projects hjemmeside:
Teamopdagelse: Ved at bruge et datasæt af høj kvalitet i stor skala med DeepSeek-R1-verificerede annoteringer (baseret på R1-destillation), kan en SOTA-inferensmodel trænes.
Den specifikke metode er at skalere dataene, verificere slutningsprocessen og skalere modellen.
Den resulterende OpenThinker-32B overgik Li Fei-Feis s1- og s1.1-modeller i flere benchmark-tests inden for matematik, kodning og naturvidenskab og var tæt på R1-Distill-32B.
Det er værd at nævne, at sammenlignet med R1-Distill-32B, som brugte 800.000 data (inklusive 600.000 slutningsprøver), brugte OpenThinker-32B kun 114.000 data for at opnå næsten de samme fremragende resultater.

Derudover offentliggjorde OpenThinker-32 også alle modelvægte, datasæt, datagenereringskode og træningskode!

Datakurering
Forskerne trænede OpenThinker-32B ved hjælp af det samme OpenThoughts-114k-datasæt, som de tidligere havde trænet OpenThinker-7B.
De brugte DeepSeek-R1-modellen til at indsamle begrundelsesprocesserne og besvare forsøg på et nøje udvalgt sæt af 173.000 spørgsmål. Disse rådata blev derefter offentliggjort som OpenThoughts-Unverified-173k-datasættet.
Det sidste trin i processen er at filtrere de tilsvarende dataeksempler fra, hvis ræsonnementsprocessen ikke består verifikationen.
Følgende figur viser visuelt hele processen.
Forskerholdet indtaster først kildedata eller spørgsmålsspørgsmål, som kan komme fra forskellige felter og platforme, såsom BAAI/TACO, DeepMind, Python-indsendelser osv., der dækker forskellige aspekter såsom kode, gåder, videnskab og matematik.
Disse forskellige input sendes derefter til kernebehandlingsmodulet, DeepSeek-R1, hvor dataene analyseres og behandles. Spørgsmålene er opdelt i tre kategorier: naturvidenskabelige spørgsmål, matematik og puslespil og kode.
Nogle resultater kræver ikke verifikation og kan være simple analyser eller direkte output. For noget indhold, der kræver dybdegående verifikation, bruges en stor sprogmodel (LLM) til at bedømme det på en måde, der kan sammenlignes med GT (Ground Truth). Hvis det er kode, udføres koden, og enhedstests udføres for at sikre dens korrekthed og effektivitet.
Endelig kan resultaterne fra forskellige retninger kombineres for at skabe fordomsfri tænkning og mere omfattende løsninger.

Forskerholdet har opdateret det endelige OpenThoughts-114k-datasæt med en konfiguration kaldet "metadata", der indeholder nogle ekstra kolonner, der bruges til at konstruere datasættet:
- problem
- ground_truth_solution
- test_cases (kun kode)
- starter_code (kun kode)
- DeepSeek_reasoning
- DeepSeek_løsning
- domæne
- kilde
Disse yderligere metadata vil gøre det lettere at bruge dette datasæt i nye scenarier, såsom datafiltrering, domæneskift, verifikationstjek og ændring af inferensprocesskabelonen.
Disse yderligere metadata vil gøre det lettere at bruge dette datasæt, og det kan gøres med kun én linje kode, såsom filtrering, ændring af domæne, kontrol af verifikationen og ændring af inferenssporingsskabelonen.
load_dataset("open-thoughts/OpenThoughts-114k", "metadata", split="train")
Forskerholdet siger, at de ser frem til at se samfundet udnytte disse spørgsmål og standardsvar til forskning i forstærkende læring (RL) på OpenThinker-modellen. DeepScaleR har allerede vist, at denne tilgang fungerer særligt godt i mindre skalaer.
Verifikation
For at nå frem til det endelige OpenThoughts-114k-datasæt, bekræftede forskerholdet svarene og eliminerede forkerte svar.
Som vist i nedenstående tabel kan fastholdelse af slutninger, der ikke består verifikation, skade ydeevnen, selvom den ikke-verificerede model stadig klarer sig godt sammenlignet med de andre 32B-inferensmodeller.
Verifikationens rolle er at opretholde kvaliteten af R1-annoteringer og samtidig udvide mangfoldigheden og størrelsen af uddannelsespromptsættet. På den anden side kan uverificerede data nemmere udvides og er derfor også værd at undersøge nærmere.

For kodeproblemer afslutter vi verifikationen af slutningsprocessen ved at verificere svarforsøg mod eksisterende testcases.
Inspireret af de udfordringer, vi står over for under kodeeksekvering, implementerede vi et kodeeksekveringsramme i Curator, der gør det muligt for brugere at eksekvere kode i skala, sikkert og verificere den mod det forventede output.
Til matematiske problemer brugte forskerholdet en LLM-dommer (Large Language Model) til verifikation, som modtager både standardsvaret og DeepSeek-R1-løsningsforsøget.
Det viste sig, at brugen af LLM-evaluatoren til datagenerering i stedet for den mere stringente parsing-motor (Math-Verify) resulterede i en højere effektiv datahastighed og gav mulighed for træning af downstream-modeller med bedre ydeevne.

Uddannelse
Forskerholdet brugte LLaMa-Factory til at finjustere Qwen2.5-32B-Instruct tre gange på OpenThoughts-114k-datasættet med en kontekstlængde på 16k. Den komplette træningskonfiguration kan findes på GitHub.
OpenThinker-32B blev trænet i 90 timer ved hjælp af fire 8xH100 P5-knuder på en AWS SageMaker-klynge i i alt 2.880 H100-timer.
I mellemtiden trænede OpenThinker-32B-Unverified i 30 timer på Leonardo-supercomputeren ved hjælp af 96 4xA100-noder (64GB pr. GPU), og akkumulerede 11.520 A100-timer.
Evaluering
Forskerholdet brugte open source-evalueringsbiblioteket Evalchemy til at evaluere alle modeller.
For AIME24 og AIME25 beregnede de nøjagtigheden ved at tage et gennemsnit af resultaterne af fem kørsler. Evalueringskonfigurationen brugte en temperaturparameter på 0,7, begrænsede modelresponsen til 32.768 tokens, tilføjede ingen yderligere system- eller brugerpromptord og brugte ingen specielle afkodningsstrategier (såsom budgettvingning).
Da OpenThoughts-projektet blev lanceret, satte de sig et mål om at skabe en åben datamodel med ydeevne, der kunne matche DeepSeek-R1-Distill-Qwen-32B.
Nu er det hul næsten elimineret.
Endelig er forskerholdet begejstret over de hurtige fremskridt, fællesskabet har gjort med at opbygge åbne datainferensmodeller i løbet af de sidste par uger, og ser frem til at fortsætte med at komme videre baseret på hinandens indsigt.
Open source-udgivelsen af OpenThinker-32B demonstrerer, at synergier mellem data, validering og modelstørrelse er nøglen til at forbedre slutningsevnerne.
Dette resultat fremmer ikke kun udviklingen af open source-inferensmodeller, men giver også værdifulde ressourcer og inspiration til hele AI-fællesskabet.