Modelul de inferență 32B folosește doar 1/8 din date și este legat cu DeepSeek-R1 de aceeași dimensiune!
Chiar acum, instituții precum Stanford, UC Berkeley și Universitatea din Washington au lansat împreună un model de inferență la nivel SOTA, OpenThinker-32Bși au, de asemenea, open source până la 114k date de antrenament.

Pagina principală a proiectului OpenThinker:
OpenThinker Îmbrățișarea față:
Descoperirea echipei: folosind un set de date la scară mare de înaltă calitate cu adnotări verificate DeepSeek-R1 (bazat pe distilare R1), se poate antrena un model de inferență SOTA.
Metoda specifică este de a scala datele, de a verifica procesul de inferență și de a scala modelul.
OpenThinker-32B rezultat a depășit modelele s1 și s1.1 ale lui Li Fei-Fei în mai multe teste de referință în matematică, codificare și știință și a fost aproape de R1-Distill-32B.
Merită menționat că, în comparație cu R1-Distill-32B, care a folosit date de 800k (inclusiv mostre de inferență de 600k), OpenThinker-32B a folosit doar date de 114k pentru a obține aproape aceleași rezultate excelente.

În plus, OpenThinker-32 a făcut publice și toate greutățile modelului, seturile de date, codul de generare a datelor și codul de antrenament!

Curatarea datelor
Cercetătorii au antrenat OpenThinker-32B folosind același set de date OpenThoughts-114k pe care îl antrenaseră anterior OpenThinker-7B.
Ei au folosit modelul DeepSeek-R1 pentru a colecta procesele de raționament și pentru a răspunde încercărilor pentru un set atent selectat de 173.000 de întrebări. Aceste date brute au fost apoi publicate ca setul de date OpenThoughts-Unverified-173k.
Pasul final al procesului este filtrarea eșantioanelor de date corespunzătoare dacă procesul de raționament nu reușește să treacă de verificare.
Următoarea figură arată vizual întregul proces.
Echipa de cercetare introduce mai întâi date sursă sau solicitări de întrebări, care pot proveni din diferite domenii și platforme, cum ar fi BAAI/TACO, DeepMind, trimiteri Python etc., acoperind diverse aspecte precum cod, puzzle-uri, știință și matematică.
Aceste intrări diverse sunt apoi transmise la modulul de procesare de bază, DeepSeek-R1, unde datele sunt analizate și procesate. Întrebările sunt împărțite în trei categorii: întrebări științifice, matematică și puzzle-uri și cod.
Unele rezultate nu necesită verificare și pot fi simple analize sau rezultate directe. Pentru anumite conținuturi care necesită o verificare aprofundată, se folosește un model de limbaj mare (LLM) pentru a-l judeca într-un mod comparabil cu GT (Ground Truth). Dacă este cod, codul este executat și se efectuează teste unitare pentru a asigura corectitudinea și eficacitatea acestuia.
În cele din urmă, rezultatele din diferite direcții pot fi combinate pentru a genera o gândire deschisă și soluții mai cuprinzătoare.

Echipa de cercetare a actualizat setul de date final OpenThoughts-114k cu o configurație numită „metadate” care conține câteva coloane suplimentare utilizate pentru a construi setul de date:
- problemă
- soluție_adevărul_terren
- test_cases (numai cod)
- starter_code (numai cod)
- DeepSeek_raționament
- DeepSeek_soluție
- domeniu
- sursă
Aceste metadate suplimentare vor facilita utilizarea acestui set de date în scenarii noi, cum ar fi filtrarea datelor, schimbarea domeniului, verificările de verificare și modificarea șablonului procesului de inferență.
Aceste metadate suplimentare vor facilita utilizarea acestui set de date și se poate face doar cu o singură linie de cod, cum ar fi filtrarea, schimbarea domeniului, verificarea verificării și modificarea șablonului de urmărire a inferenței.
load_dataset("open-thoughts/OpenThoughts-114k", "metadata", split="train")
Echipa de cercetare spune că așteaptă cu nerăbdare să vadă comunitatea utilizând aceste întrebări și răspunsuri standard pentru cercetarea învățării prin consolidare (RL) pe modelul OpenThinker. DeepScaleR a demonstrat deja că această abordare funcționează deosebit de bine la scari mai mici.
Verificare
Pentru a ajunge la setul de date final OpenThoughts-114k, echipa de cercetare a verificat răspunsurile și a eliminat răspunsurile incorecte.
După cum se arată în tabelul de mai jos, păstrarea concluziilor care nu trec verificarea poate afecta performanța, deși modelul neverificat încă funcționează bine în comparație cu celelalte modele de inferență 32B.
Rolul verificării este de a menține calitatea adnotărilor R1, extinzând în același timp diversitatea și dimensiunea setului de prompturi de antrenament. Pe de altă parte, datele neverificate pot fi extinse mai ușor și, prin urmare, merită explorate în continuare.

Pentru probleme de cod, completăm verificarea procesului de inferență prin verificarea încercărilor de răspuns față de cazurile de testare existente.
Inspirați de provocările cu care se confruntă în timpul execuției codului, am implementat un cadru de execuție a codului în Curator, care permite utilizatorilor să execute cod la scară, în siguranță, și să îl verifice în raport cu rezultatul așteptat.
Pentru problemele de matematică, echipa de cercetare a folosit pentru verificare un judecător LLM (Large Language Model), care primește atât răspunsul standard, cât și încercarea de soluție DeepSeek-R1.
Sa constatat că utilizarea evaluatorului LLM pentru generarea de date în locul motorului de analiză mai strict (Math-Verify) a dus la o rată efectivă de date mai mare și a permis formarea modelelor din aval cu performanțe mai bune.

Antrenamentul
Echipa de cercetare a folosit LLaMa-Factory pentru a ajusta Qwen2.5-32B-Instruct de trei ori pe setul de date OpenThoughts-114k cu o lungime a contextului de 16k. Configurația completă de antrenament poate fi găsită pe GitHub.
OpenThinker-32B a fost antrenat timp de 90 de ore folosind patru noduri 8xH100 P5 pe un cluster AWS SageMaker, pentru un total de 2.880 de ore H100.
Între timp, OpenThinker-32B-Unverified s-a antrenat timp de 30 de ore pe supercomputerul Leonardo folosind 96 de noduri 4xA100 (64 GB per GPU), acumulând 11.520 de ore A100.
Evaluare
Echipa de cercetare a folosit biblioteca de evaluare open source Evalchemy pentru a evalua toate modelele.
Pentru AIME24 și AIME25, au calculat acuratețea făcând o medie a rezultatelor a cinci rulări. Configurația de evaluare a folosit un parametru de temperatură de 0,7, a limitat răspunsul modelului la 32.768 de jetoane, nu a adăugat niciun sistem suplimentar sau cuvinte de promptare a utilizatorului și nu a folosit strategii speciale de decodare (cum ar fi forțarea bugetului).
Când a fost lansat proiectul OpenThoughts, ei și-au stabilit obiectivul de a crea un model de date deschise cu performanțe care să se potrivească cu DeepSeek-R1-Distill-Qwen-32B.
Acum, acest decalaj aproape a fost eliminat.
În cele din urmă, echipa de cercetare este încântată de progresul rapid pe care comunitatea le-a făcut în construirea modelelor de inferență de date deschise în ultimele câteva săptămâni și așteaptă cu nerăbdare să continue să avanseze pe baza cunoștințelor celorlalți.
Lansarea open source a OpenThinker-32B demonstrează că sinergiile dintre date, validare și dimensiunea modelului sunt cheia pentru îmbunătățirea capacităților de inferență.
Acest rezultat nu numai că promovează dezvoltarea modelelor de inferență open source, dar oferă și resurse valoroase și inspirație pentru întreaga comunitate AI.