Blizu je DeepSeek-R1-32B i uništava Fei-Fei Lijev s1! UC Berkeley i drugi novi SOTA modeli zaključivanja otvorenog koda

Model zaključivanja 32B koristi samo 1/8 podataka i povezan je s DeepSeek-R1 iste veličine!

Upravo su institucije kao što su Stanford, UC Berkeley i Sveučilište Washington zajednički objavile model zaključivanja na razini SOTA-e, OpenThinker-32B, a također imaju otvoreni izvor do 114k podataka o obuci.

Početna stranica projekta OpenThinker:

OpenThinker grleće lice:

Skup podataka otvorenih misli:

Timsko otkriće: korištenjem velikog skupa podataka visoke kvalitete s DeepSeek-R1 verificiranim komentarima (temeljenim na destilaciji R1), SOTA model zaključivanja može se uvježbati.

Specifična metoda je skaliranje podataka, provjera procesa zaključivanja i skaliranje modela.

Rezultirajući OpenThinker-32B nadmašio je Li Fei-Feijeve modele s1 i s1.1 u višestrukim referentnim testovima u matematici, kodiranju i znanosti te je bio blizu R1-Distill-32B.

Vrijedno je spomenuti da je u usporedbi s R1-Distill-32B, koji je koristio 800k podataka (uključujući 600k uzoraka zaključaka), OpenThinker-32B koristio samo 114k podataka za postizanje gotovo istih izvrsnih rezultata.

Osim toga, OpenThinker-32 također je objavio sve težine modela, skupove podataka, kod za generiranje podataka i kod za obuku!

Sadržaj

Kuriranje podataka

Istraživači su trenirali OpenThinker-32B koristeći isti skup podataka OpenThoughts-114k kao što su prethodno trenirali OpenThinker-7B.

Koristili su model DeepSeek-R1 za prikupljanje procesa zaključivanja i pokušaja odgovora na pažljivo odabran skup od 173.000 pitanja. Ovi neobrađeni podaci zatim su objavljeni kao skup podataka OpenThoughts-Unverified-173k.

Posljednji korak u procesu je filtriranje odgovarajućih uzoraka podataka ako proces zaključivanja ne uspije proći provjeru.

Sljedeća slika vizualno prikazuje cijeli proces.

Istraživački tim prvo unosi izvorne podatke ili upite za pitanja, koji mogu doći iz različitih područja i platformi, kao što su BAAI/TACO, DeepMind, Python podnesci itd., pokrivajući različite aspekte kao što su kod, zagonetke, znanost i matematika.

Ovi različiti ulazi zatim se prosljeđuju u modul za jezgru obrade, DeepSeek-R1, gdje se podaci analiziraju i obrađuju. Pitanja su podijeljena u tri kategorije: prirodoslovna pitanja, matematika i zagonetke te kod.

Neki rezultati ne zahtijevaju provjeru i mogu biti jednostavne analize ili izravni rezultati. Za neke sadržaje koji zahtijevaju dubinsku provjeru, veliki jezični model (LLM) koristi se za procjenu na način koji je usporediv s GT (Ground Truth). Ako se radi o kodu, kod se izvršava i provode se jedinični testovi kako bi se osigurala njegova ispravnost i učinkovitost.

Konačno, rezultati iz različitih smjerova mogu se kombinirati kako bi se stvorilo otvoreno razmišljanje i sveobuhvatnija rješenja.

Istraživački tim je ažurirao konačni skup podataka OpenThoughts-114k s konfiguracijom pod nazivom "metapodaci" koja sadrži neke dodatne stupce koji se koriste za izradu skupa podataka:

problem
temeljna_istina_rješenje
test_cases (samo kod)
starter_code (samo kod)
DeepSeek_rasuđivanje
DeepSeek_rješenje
domena
izvor

Ovi dodatni metapodaci olakšat će korištenje ovog skupa podataka u novim scenarijima, kao što su filtriranje podataka, prebacivanje domene, provjere verifikacije i promjena predloška procesa zaključivanja.

Ovi dodatni metapodaci olakšat će korištenje ovog skupa podataka, a to se može učiniti sa samo jednim retkom koda, kao što je filtriranje, promjena domene, provjera verifikacije i promjena predloška za praćenje zaključaka.

load_dataset("open-thoughts/OpenThoughts-114k", "metapodaci", split="train")

Istraživački tim kaže da se raduju što će zajednica iskoristiti ova pitanja i standardne odgovore za istraživanje o učenju s potkrepljenjem (RL) na modelu OpenThinker. DeepScaleR je već pokazao da ovaj pristup posebno dobro funkcionira na manjim razinama.

Provjera

Kako bi došao do konačnog skupa podataka OpenThoughts-114k, istraživački tim je provjerio odgovore i eliminirao netočne odgovore.

Kao što je prikazano u tablici u nastavku, zadržavanje zaključaka koji ne prolaze provjeru može naškoditi izvedbi, iako neprovjereni model i dalje ima dobre rezultate u usporedbi s drugim modelima zaključivanja 32B.

Uloga verifikacije je održati kvalitetu R1 primjedbi uz proširenje raznolikosti i veličine skupa uputa za obuku. S druge strane, neprovjereni podaci mogu se lakše proširiti i stoga ih vrijedi dodatno istražiti.

Za probleme s kodom dovršavamo provjeru procesa zaključivanja provjerom pokušaja odgovora s postojećim testnim slučajevima.

Inspirirani izazovima s kojima se susreću tijekom izvođenja koda, implementirali smo okvir za izvođenje koda u Curatoru koji korisnicima omogućuje sigurno izvršavanje koda u većem broju i njegovu provjeru u odnosu na očekivani rezultat.

Za matematičke probleme istraživački tim koristio je LLM (Large Language Model) sudac za provjeru, koji prima i standardni odgovor i pokušaj rješenja DeepSeek-R1.

Utvrđeno je da je korištenje LLM evaluatora za generiranje podataka umjesto strožeg stroja za raščlanjivanje (Math-Verify) rezultiralo višom efektivnom brzinom podataka i omogućilo obuku nizvodnih modela s boljom izvedbom.

Trening

Istraživački tim koristio je LLaMa-Factory za fino podešavanje Qwen2.5-32B-Instruct tri puta na skupu podataka OpenThoughts-114k s duljinom konteksta od 16k. Kompletna konfiguracija treninga može se pronaći na GitHubu.

OpenThinker-32B je treniran 90 sati koristeći četiri 8xH100 P5 čvora na AWS SageMaker klasteru, ukupno 2880 H100 sati.

U međuvremenu, OpenThinker-32B-Unverified trenirao je 30 sati na Leonardo superračunalu koristeći 96 4xA100 čvorova (64GB po GPU-u), akumulirajući 11.520 A100 sati.

Evaluacija

Istraživački tim upotrijebio je biblioteku otvorenog koda Evalchemy za procjenu svih modela.

Za AIME24 i AIME25 izračunali su točnost usrednjavanjem rezultata pet vožnji. Konfiguracija evaluacije upotrijebila je temperaturni parametar od 0,7, ograničila je odgovor modela na 32.768 tokena, nije dodala nikakve dodatne sistemske ili korisničke brze riječi i nije upotrijebila nikakve posebne strategije dekodiranja (kao što je forsiranje proračuna).

Kada je projekt OpenThoughts pokrenut, postavili su cilj stvaranja modela otvorenih podataka s performansama koje bi mogle odgovarati DeepSeek-R1-Distill-Qwen-32B.

Sada je taj jaz gotovo eliminiran.

Naposljetku, istraživački tim uzbuđen je brzim napretkom koji je zajednica postigla u izgradnji modela zaključivanja otvorenih podataka u proteklih nekoliko tjedana i raduje se nastavku napredovanja na temelju međusobnih uvida.

Izdanje OpenThinker-32B otvorenog koda pokazuje da su sinergije između podataka, provjere valjanosti i veličine modela ključne za poboljšanje sposobnosti zaključivanja.

Ovaj rezultat ne samo da promiče razvoj modela zaključivanja otvorenog koda, već također pruža vrijedne resurse i inspiraciju za cijelu AI zajednicu.

Blizu je DeepSeek-R1-32B i uništava Fei-Fei Lijev s1! UC Berkeley i drugi novi modeli zaključivanja SOTA otvorenog koda

Kuriranje podataka

Provjera

Trening

Evaluacija

Kako je nastao DeepSeek? Analiza povijesti rasta DeepSeek

OpenAI o3-mini protiv DeepSeek-R1: Tko je kralj nove generacije AI modela?

DeepSeek-R1-0528 Ažuriranje: Dublje razmišljanje, jače rasuđivanje

Što je FlashMLA? Sveobuhvatni vodič o njegovom utjecaju na AI dekodiranje kernela

DeepSeek TOP17 najboljih alternativa: Sveobuhvatna analiza (2025.)

Cathie Wood: DeepSeek samo ubrzava proces smanjenja troškova; promijenit će se ekstremno koncentrirana tržišna struktura usporediva s Velikom depresijom

Odgovori Otkaži odgovor

Kuriranje podataka

Provjera

Trening

Evaluacija

Slični postovi

Odgovori Otkaži odgovor