Inferenčni model 32B uporablja le 1/8 podatkov in je povezan z DeepSeek-R1 enake velikosti!
Pravkar so ustanove, kot so Stanford, UC Berkeley in Univerza v Washingtonu, skupaj izdale model sklepanja na ravni SOTA, OpenThinker-32B, in imajo tudi odprtokodne podatke za vadbo do 114k.

Domača stran projekta OpenThinker:
Skupinsko odkritje: Z uporabo obsežnega nabora visokokakovostnih podatkov s preverjenimi opombami DeepSeek-R1 (na podlagi destilacije R1) je mogoče usposobiti model sklepanja SOTA.
Posebna metoda je skaliranje podatkov, preverjanje postopka sklepanja in skaliranje modela.
Nastali OpenThinker-32B je presegel modela Li Fei-Fei s1 in s1.1 v številnih primerjalnih testih v matematiki, kodiranju in znanosti ter bil blizu R1-Distill-32B.
Omeniti velja, da je v primerjavi z R1-Distill-32B, ki je uporabil 800k podatkov (vključno s 600k vzorci sklepanja), OpenThinker-32B uporabil le 114k podatkov, da je dosegel skoraj enake odlične rezultate.

Poleg tega je OpenThinker-32 objavil tudi vse uteži modelov, nabore podatkov, kodo za generiranje podatkov in kodo za usposabljanje!

Urejanje podatkov
Raziskovalci so usposobili OpenThinker-32B z uporabo istega nabora podatkov OpenThoughts-114k, kot so prej usposobili OpenThinker-7B.
Uporabili so model DeepSeek-R1 za zbiranje procesov razmišljanja in poskuse odgovorov za skrbno izbran niz 173.000 vprašanj. Ti neobdelani podatki so bili nato objavljeni kot nabor podatkov OpenThoughts-Unverified-173k.
Zadnji korak v procesu je filtriranje ustreznih vzorcev podatkov, če postopek sklepanja ne uspe opraviti preverjanja.
Naslednja slika vizualno prikazuje celoten postopek.
Raziskovalna skupina najprej vnese izvorne podatke ali pozive za vprašanja, ki lahko izvirajo iz različnih področij in platform, kot so BAAI/TACO, DeepMind, predložitve Pythona itd., ki zajemajo različne vidike, kot so koda, uganke, znanost in matematika.
Ti različni vhodi se nato prenesejo v osrednji procesorski modul, DeepSeek-R1, kjer se podatki analizirajo in obdelajo. Vprašanja so razdeljena v tri kategorije: naravoslovna vprašanja, matematika in uganke ter koda.
Nekateri rezultati ne zahtevajo preverjanja in so lahko preproste analize ali neposredni rezultati. Za nekatere vsebine, ki zahtevajo poglobljeno preverjanje, se za presojo uporabi veliki jezikovni model (LLM) na način, ki je primerljiv z GT (Ground Truth). Če je koda, se koda izvede in izvedejo se testi enote, da se zagotovi njena pravilnost in učinkovitost.
Končno je mogoče združiti rezultate iz različnih smeri, da ustvarijo odprto razmišljanje in bolj celovite rešitve.

Raziskovalna skupina je posodobila končni nabor podatkov OpenThoughts-114k s konfiguracijo, imenovano »metapodatki«, ki vsebuje nekaj dodatnih stolpcev, uporabljenih za izdelavo nabora podatkov:
- problem
- temeljna_resnica_rešitev
- testni_primeri (samo koda)
- starter_code (samo koda)
- DeepSeek_razumevanje
- DeepSeek_rešitev
- domena
- vir
Ti dodatni metapodatki bodo olajšali uporabo tega nabora podatkov v novih scenarijih, kot so filtriranje podatkov, preklapljanje domen, preverjanja preverjanja in spreminjanje predloge postopka sklepanja.
Ti dodatni metapodatki bodo olajšali uporabo tega nabora podatkov in to je mogoče storiti s samo eno vrstico kode, kot je filtriranje, spreminjanje domene, preverjanje preverjanja in spreminjanje predloge za sledenje sklepanja.
load_dataset("open-thoughts/OpenThoughts-114k", "metapodatki", split="train")
Raziskovalna skupina pravi, da se veseli, da bo skupnost uporabila ta vprašanja in standardne odgovore za raziskave učenja s krepitvijo (RL) na modelu OpenThinker. DeepScaleR je že dokazal, da ta pristop še posebej dobro deluje v manjših merilih.
Preverjanje
Da bi prišli do končnega nabora podatkov OpenThoughts-114k, je raziskovalna skupina preverila odgovore in izločila nepravilne odgovore.
Kot je prikazano v spodnji tabeli, lahko ohranjanje sklepov, ki ne prestanejo preverjanja, škodi zmogljivosti, čeprav nepreverjeni model še vedno deluje dobro v primerjavi z drugimi modeli sklepanja 32B.
Vloga preverjanja je ohraniti kakovost opomb R1, hkrati pa razširiti raznolikost in velikost nabora pozivov za usposabljanje. Po drugi strani pa je nepreverjene podatke mogoče lažje razširiti in jih je zato vredno nadalje raziskati.

Pri težavah s kodo zaključimo preverjanje postopka sklepanja s preverjanjem poskusov odgovorov glede na obstoječe testne primere.
Po navdihu izzivov, s katerimi se srečujejo med izvajanjem kode, smo v Curator implementirali ogrodje za izvajanje kode, ki uporabnikom omogoča varno izvajanje kode v velikem obsegu in njeno preverjanje glede na pričakovani rezultat.
Za matematične probleme je raziskovalna skupina za preverjanje uporabila sodnika LLM (Large Language Model), ki prejme tako standardni odgovor kot poskus rešitve DeepSeek-R1.
Ugotovljeno je bilo, da je uporaba ocenjevalnika LLM za ustvarjanje podatkov namesto strožjega mehanizma za razčlenjevanje (Math-Verify) povzročila višjo efektivno hitrost prenosa podatkov in omogočila usposabljanje nadaljnjih modelov z boljšo zmogljivostjo.

Usposabljanje
Raziskovalna skupina je uporabila LLaMa-Factory za trikratno natančno nastavitev Qwen2.5-32B-Instruct na naboru podatkov OpenThoughts-114k z dolžino konteksta 16k. Celotno konfiguracijo usposabljanja lahko najdete na GitHubu.
OpenThinker-32B se je usposabljal 90 ur z uporabo štirih vozlišč 8xH100 P5 v gruči AWS SageMaker, kar je skupno 2880 ur H100.
Medtem se je OpenThinker-32B-Unverified 30 ur usposabljal na superračunalniku Leonardo z uporabo 96 vozlišč 4xA100 (64 GB na GPE) in zbral 11.520 A100 ur.
Evalvacija
Raziskovalna skupina je za oceno vseh modelov uporabila odprtokodno ocenjevalno knjižnico Evalchemy.
Za AIME24 in AIME25 so izračunali natančnost s povprečenjem rezultatov petih voženj. Konfiguracija vrednotenja je uporabila temperaturni parameter 0,7, omejila je odziv modela na 32.768 žetonov, ni dodala nobenih dodatnih sistemskih ali uporabniških pozivnih besed in ni uporabila nobenih posebnih strategij dekodiranja (kot je prisiljevanje proračuna).
Ko so zagnali projekt OpenThoughts, so si zastavili cilj ustvariti model odprtih podatkov z zmogljivostjo, ki bi se lahko ujemala z DeepSeek-R1-Distill-Qwen-32B.
Zdaj je ta vrzel skoraj odpravljena.
Nazadnje, raziskovalna skupina je navdušena nad hitrim napredkom, ki ga je skupnost dosegla pri izgradnji modelov sklepanja o odprtih podatkih v zadnjih nekaj tednih, in se veseli nadaljnjega napredka na podlagi vpogledov drug drugega.
Odprtokodna izdaja OpenThinker-32B dokazuje, da so sinergije med podatki, validacijo in velikostjo modela ključne za izboljšanje zmožnosti sklepanja.
Ta rezultat ne le spodbuja razvoj odprtokodnih modelov sklepanja, ampak tudi zagotavlja dragocene vire in navdih za celotno skupnost AI.