32B järeldusmudel kasutab ainult 1/8 andmetest ja on seotud sama suurusega DeepSeek-R1-ga!
Just praegu on sellised institutsioonid nagu Stanford, UC Berkeley ja Washingtoni ülikool ühiselt välja andnud SOTA-taseme järeldusmudeli, OpenThinker-32Bja neil on ka avatud lähtekoodiga kuni 114 000 treeningandmeid.

OpenThinker Projecti koduleht:
Meeskonna avastus: DeepSeek-R1 kontrollitud annotatsioonidega (põhineb R1 destilleerimisel) suuremahulist kvaliteetset andmekogumit kasutades saab treenida SOTA järeldusmudelit.
Spetsiifiline meetod on andmete skaleerimine, järeldusprotsessi kontrollimine ja mudeli skaleerimine.
Saadud OpenThinker-32B edestas Li Fei-Fei s1 ja s1.1 mudeleid mitmes matemaatika, kodeerimise ja loodusteaduste võrdlustestis ning oli lähedal R1-Distill-32B-le.
Tasub mainida, et võrreldes R1-Distill-32B-ga, mis kasutas 800 000 andmeid (sh 600 000 järeldusnäidised), kasutas OpenThinker-32B peaaegu sama suurepäraste tulemuste saavutamiseks ainult 114 000 andmeid.

Lisaks avalikustas OpenThinker-32 ka kõik mudelite kaalud, andmekogumid, andmete genereerimise koodi ja treeningkoodi!

Andmete kureerimine
Teadlased koolitasid OpenThinker-32B-d, kasutades sama OpenThoughts-114k andmekogumit, nagu nad olid varem välja õpetanud OpenThinker-7B.
Nad kasutasid DeepSeek-R1 mudelit, et koguda arutlusprotsessid ja vastata hoolikalt valitud 173 000 küsimusest koosneva komplekti jaoks. Seejärel avaldati need algandmed OpenThoughts-Unverified-173k andmestikuna.
Protsessi viimane etapp on vastavate andmenäidiste välja filtreerimine, kui arutlusprotsess ei läbi kontrolli.
Järgmine joonis näitab visuaalselt kogu protsessi.
Uurimisrühm sisestab esmalt lähteandmed või küsimused, mis võivad pärineda erinevatest valdkondadest ja platvormidest, näiteks BAAI/TACO, DeepMind, Pythoni esildised jne, hõlmates erinevaid aspekte, nagu kood, mõistatused, teadus ja matemaatika.
Need erinevad sisendid edastatakse seejärel põhitöötlusmoodulisse DeepSeek-R1, kus andmeid analüüsitakse ja töödeldakse. Küsimused on jagatud kolme kategooriasse: loodusteaduslikud küsimused, matemaatika ja mõistatused ning kood.
Mõned tulemused ei vaja kontrollimist ja võivad olla lihtsad analüüsid või otsesed väljundid. Mõne sisu puhul, mis nõuab põhjalikku kontrolli, kasutatakse suurt keelemudelit (LLM), et hinnata seda viisil, mis on võrreldav GT-ga (Ground Truth). Kui tegemist on koodiga, siis kood käivitatakse ja selle õigsuse ja tõhususe tagamiseks tehakse ühikutestid.
Lõpuks saab erinevate suundade tulemusi kombineerida, et luua avatud mõtlemist ja terviklikumaid lahendusi.

Uurimisrühm on värskendanud lõplikku OpenThoughts-114k andmekogumit konfiguratsiooniga, mida nimetatakse metaandmeteks, mis sisaldab mõningaid täiendavaid veerge, mida kasutatakse andmestiku koostamiseks:
- probleem
- maa_tõe_lahendus
- test_cases (ainult kood)
- stardikood (ainult kood)
- DeepSeek_arutluskäik
- DeepSeek_lahendus
- domeeni
- allikas
Need täiendavad metaandmed muudavad selle andmestiku kasutamise uutes stsenaariumides lihtsamaks, nagu andmete filtreerimine, domeeni vahetamine, kinnituskontrollid ja järeldusprotsessi malli muutmine.
Need täiendavad metaandmed muudavad selle andmestiku kasutamise lihtsamaks ja seda saab teha vaid ühe koodireaga, nagu filtreerimine, domeeni muutmine, kinnituse kontrollimine ja järelduste jälgimismalli muutmine.
load_dataset("open-thoughts/OpenThoughts-114k", "metadata", split="train")
Uurimisrühm ütleb, et nad ootavad huviga, et kogukond neid küsimusi ja standardseid vastuseid OpenThinkeri mudelil tugevdava õppe (RL) uurimiseks kasutaks. DeepScaleR on juba näidanud, et see lähenemine töötab eriti hästi väiksemates mastaapides.
Kontrollimine
Lõpliku OpenThoughts-114k andmekogumini jõudmiseks kontrollis uurimisrühm vastuseid ja kõrvaldas valed vastused.
Nagu on näidatud allolevas tabelis, võib kontrollimist mitteläbivate järelduste säilitamine jõudlust kahjustada, kuigi kontrollimata mudel toimib teiste 32B järeldusmudelitega võrreldes endiselt hästi.
Kontrollimise ülesanne on säilitada R1 annotatsioonide kvaliteet, suurendades samal ajal koolitusviibade komplekti mitmekesisust ja suurust. Teisest küljest saab kontrollimata andmeid hõlpsamini laiendada ja seetõttu tasub neid ka lähemalt uurida.

Koodiprobleemide korral lõpetame järeldusprotsessi kontrollimise, kontrollides vastusekatseid olemasolevate testjuhtumite suhtes.
Koodi täitmisel tekkinud väljakutsetest inspireerituna rakendasime rakenduses Curator koodikäivitusraamistiku, mis võimaldab kasutajatel koodi mastaapselt, turvaliselt käivitada ja seda oodatava väljundi suhtes kontrollida.
Matemaatiliste probleemide puhul kasutas uurimisrühm kontrollimiseks LLM-i (Large Language Model) kohtunikku, kes saab nii standardvastuse kui ka DeepSeek-R1 lahenduskatse.
Leiti, et LLM-i hindaja kasutamine andmete genereerimiseks rangema sõelumismootori (Math-Verify) asemel andis tulemuseks suurema efektiivse andmeedastuskiiruse ja võimaldas treenida parema jõudlusega allavoolu mudeleid.

Koolitus
Uurimisrühm kasutas LLaMa-Factory'i Qwen2.5-32B-Instructi peenhäälestamiseks kolm korda OpenThoughts-114k andmekogumis kontekstipikkusega 16 k. Täieliku treeningu konfiguratsiooni leiate GitHubist.
OpenThinker-32B-d treeniti 90 tundi, kasutades nelja 8xH100 P5 sõlme AWS SageMakeri klastris, kokku 2880 H100 tundi.
Samal ajal treenis OpenThinker-32B-Unverified 30 tundi Leonardo superarvutis, kasutades 96 4xA100 sõlme (64 GB GPU kohta), kogudes 11 520 A100 tundi.
Hindamine
Uurimisrühm kasutas kõigi mudelite hindamiseks avatud lähtekoodiga hindamisraamatukogu Evalchemy.
AIME24 ja AIME25 puhul arvutasid nad täpsuse viie jooksu tulemuste keskmistamisega. Hindamiskonfiguratsioonis kasutati temperatuuri parameetrit 0,7, mudeli reaktsioon piiras 32 768 märgiga, ei lisanud täiendavaid süsteemi- ega kasutajajuhiseid ega kasutanud mingeid spetsiaalseid dekodeerimisstrateegiaid (nt eelarve sundimist).
Kui OpenThoughtsi projekt käivitati, seadsid nad eesmärgiks luua avatud andmemudel, mille jõudlus võiks ühtida mudeliga DeepSeek-R1-Distill-Qwen-32B.
Nüüd on see lõhe peaaegu kõrvaldatud.
Lõpuks on uurimisrühm põnevil kiirete edusammude üle, mida kogukond on viimaste nädalate jooksul avaandmete järeldusmudelite loomisel teinud, ja ootab üksteise arusaamade põhjal edasiliikumist.
OpenThinker-32B avatud lähtekoodiga väljalase näitab, et andmete, valideerimise ja mudeli suuruse vaheline sünergia on järeldusvõimaluste parandamise võtmeks.
See tulemus mitte ainult ei soodusta avatud lähtekoodiga järeldusmudelite väljatöötamist, vaid pakub ka väärtuslikke ressursse ja inspiratsiooni kogu AI kogukonnale.