Inferenční model 32B využívá pouze 1/8 dat a je svázán s DeepSeek-R1 stejné velikosti!
Právě nyní instituce jako Stanford, UC Berkeley a University of Washington společně vydaly inferenční model na úrovni SOTA, OpenThinker-32Ba mají také open source až 114k tréninkových dat.

Domovská stránka projektu OpenThinker:
OpenThinker objímání obličeje:
Otevřít datovou sadu myšlenek:
Týmové objevování: Pomocí rozsáhlého vysoce kvalitního datového souboru s ověřenými anotacemi DeepSeek-R1 (na základě destilace R1) lze trénovat inferenční model SOTA.
Specifickou metodou je škálování dat, ověření procesu odvození a škálování modelu.
Výsledný OpenThinker-32B překonal modely Li Fei-Fei s1 a s1.1 v několika benchmarkových testech v matematice, kódování a vědě a byl blízko R1-Distill-32B.
Stojí za zmínku, že ve srovnání s R1-Distill-32B, který používal 800 000 dat (včetně 600 000 inferenčních vzorků), OpenThinker-32B používal pouze 114 000 dat k dosažení téměř stejně vynikajících výsledků.

Kromě toho OpenThinker-32 také zveřejnil všechny modelové váhy, datové sady, kód pro generování dat a tréninkový kód!

Správa dat
Výzkumníci trénovali OpenThinker-32B pomocí stejného souboru dat OpenThoughts-114k, jako dříve trénovali OpenThinker-7B.
Použili model DeepSeek-R1 ke shromáždění procesů uvažování a pokusů o odpovědi na pečlivě vybraný soubor 173 000 otázek. Tato nezpracovaná data byla poté publikována jako datová sada OpenThoughts-Unverified-173k.
Posledním krokem v procesu je odfiltrování odpovídajících vzorků dat, pokud proces uvažování neprojde ověřením.
Následující obrázek vizuálně zobrazuje celý proces.
Výzkumný tým nejprve zadá zdrojová data nebo výzvy k otázkám, které mohou pocházet z různých oblastí a platforem, jako je BAAI/TACO, DeepMind, Python, atd., které pokrývají různé aspekty, jako je kód, hádanky, věda a matematika.
Tyto různé vstupy jsou poté předány do modulu pro zpracování jádra DeepSeek-R1, kde jsou data analyzována a zpracovávána. Otázky jsou rozděleny do tří kategorií: vědecké otázky, matematika a hádanky a kód.
Některé výsledky nevyžadují ověření a mohou být jednoduchými analýzami nebo přímými výstupy. U některého obsahu, který vyžaduje hloubkové ověření, se používá velký jazykový model (LLM), který jej posuzuje způsobem, který je srovnatelný s GT (Ground Truth). Pokud se jedná o kód, kód se provede a provedou se testy jednotek, aby byla zajištěna jeho správnost a účinnost.
A konečně, výsledky z různých směrů mohou být kombinovány za účelem vytvoření otevřeného myšlení a komplexnějších řešení.

Výzkumný tým aktualizoval finální datovou sadu OpenThoughts-114k konfigurací nazvanou „metadata“, která obsahuje některé další sloupce používané k vytvoření datové sady:
- problém
- pozemní_pravda_řešení
- testovací_případy (pouze kód)
- startovací_kód (pouze kód)
- DeepSeek_uvažování
- DeepSeek_řešení
- doména
- zdroj
Tato další metadata usnadní použití této datové sady v nových scénářích, jako je filtrování dat, přepínání domén, kontroly ověřování a změna šablony procesu odvození.
Tato další metadata usnadní používání této datové sady a lze to provést pouze s jedním řádkem kódu, jako je filtrování, změna domény, kontrola ověření a změna šablony sledování odvození.
load_dataset("open-thoughts/OpenThoughts-114k", "metadata", split="vlak")
Výzkumný tým říká, že se těší na to, jak komunita využije tyto otázky a standardní odpovědi pro výzkum posilovacího učení (RL) na modelu OpenThinker. DeepScaleR již prokázal, že tento přístup funguje zvláště dobře v menších měřítcích.
Ověření
Aby výzkumný tým dospěl ke konečnému souboru dat OpenThoughts-114k, ověřil odpovědi a odstranil nesprávné odpovědi.
Jak je uvedeno v tabulce níže, uchování inferencí, které neprojdou ověřením, může poškodit výkon, i když neověřený model si stále vede dobře ve srovnání s ostatními modely 32B inferencí.
Úlohou ověřování je zachovat kvalitu anotací R1 a zároveň rozšířit rozmanitost a velikost sady trénovacích výzev. Na druhou stranu lze neověřená data snadněji rozšířit, a proto také stojí za to je dále zkoumat.

U problémů s kódem dokončujeme ověření procesu odvození ověřením pokusů o odpověď proti existujícím testovacím případům.
Inspirováni výzvami, kterým čelíme během spouštění kódu, jsme implementovali rámec pro spouštění kódu v Curatoru, který umožňuje uživatelům spouštět kód ve velkém měřítku, bezpečně a ověřovat jej oproti očekávanému výstupu.
U matematických problémů výzkumný tým použil k ověření soudce LLM (Large Language Model), který obdrží jak standardní odpověď, tak i pokus o řešení DeepSeek-R1.
Bylo zjištěno, že použití vyhodnocovacího nástroje LLM pro generování dat namísto přísnějšího modulu analýzy (Math-Verify) vedlo k vyšší efektivní datové rychlosti a umožnilo trénování následných modelů s lepším výkonem.

Výcvik
Výzkumný tým použil LLaMa-Factory k doladění Qwen2.5-32B-Instruct třikrát na datovém souboru OpenThoughts-114k s délkou kontextu 16k. Kompletní konfiguraci školení najdete na GitHubu.
OpenThinker-32B byl trénován po dobu 90 hodin pomocí čtyř uzlů 8xH100 P5 na clusteru AWS SageMaker, celkem 2 880 hodin H100.
Mezitím OpenThinker-32B-Unverified trénoval 30 hodin na superpočítači Leonardo s použitím 96 uzlů 4xA100 (64 GB na GPU), což nashromáždilo 11 520 hodin A100.
Hodnocení
Výzkumný tým použil k vyhodnocení všech modelů open source hodnotící knihovnu Evalchemy.
Pro AIME24 a AIME25 vypočítali přesnost zprůměrováním výsledků pěti běhů. Konfigurace hodnocení používala parametr teploty 0,7, omezila odezvu modelu na 32 768 tokenů, nepřidávala žádná další systémová nebo uživatelská výzva a nepoužívala žádné speciální strategie dekódování (jako je vynucování rozpočtu).
Když byl spuštěn projekt OpenThoughts, stanovili si cíl vytvořit otevřený datový model s výkonem, který by se mohl rovnat DeepSeek-R1-Distill-Qwen-32B.
Nyní je tato mezera téměř odstraněna.
A konečně, výzkumný tým je nadšený rychlým pokrokem, kterého komunita během posledních několika týdnů dosáhla při vytváření modelů pro odvození otevřených dat, a těší se na další pokrok na základě vzájemných postřehů.
Vydání OpenThinker-32B s otevřeným zdrojovým kódem ukazuje, že synergie mezi daty, validací a velikostí modelu jsou klíčem ke zlepšení schopností odvodit.
Tento výsledek nejen podporuje vývoj open source modelů odvození, ale také poskytuje cenné zdroje a inspiraci pro celou komunitu AI.