Inferenční model 32B využívá pouze 1/8 dat a je svázán s DeepSeek-R1 stejné velikosti!

Právě nyní instituce jako Stanford, UC Berkeley a University of Washington společně vydaly inferenční model na úrovni SOTA, OpenThinker-32Ba mají také open source až 114k tréninkových dat.

Domovská stránka projektu OpenThinker:

OpenThinker objímání obličeje:

Otevřít datovou sadu myšlenek:

Týmové objevování: Pomocí rozsáhlého vysoce kvalitního datového souboru s ověřenými anotacemi DeepSeek-R1 (na základě destilace R1) lze trénovat inferenční model SOTA.

Specifickou metodou je škálování dat, ověření procesu odvození a škálování modelu.

Výsledný OpenThinker-32B překonal modely Li Fei-Fei s1 a s1.1 v několika benchmarkových testech v matematice, kódování a vědě a byl blízko R1-Distill-32B.

Stojí za zmínku, že ve srovnání s R1-Distill-32B, který používal 800 000 dat (včetně 600 000 inferenčních vzorků), OpenThinker-32B používal pouze 114 000 dat k dosažení téměř stejně vynikajících výsledků.

Kromě toho OpenThinker-32 také zveřejnil všechny modelové váhy, datové sady, kód pro generování dat a tréninkový kód!

Správa dat

Výzkumníci trénovali OpenThinker-32B pomocí stejného souboru dat OpenThoughts-114k, jako dříve trénovali OpenThinker-7B.

Použili model DeepSeek-R1 ke shromáždění procesů uvažování a pokusů o odpovědi na pečlivě vybraný soubor 173 000 otázek. Tato nezpracovaná data byla poté publikována jako datová sada OpenThoughts-Unverified-173k.

Posledním krokem v procesu je odfiltrování odpovídajících vzorků dat, pokud proces uvažování neprojde ověřením.

Následující obrázek vizuálně zobrazuje celý proces.

Výzkumný tým nejprve zadá zdrojová data nebo výzvy k otázkám, které mohou pocházet z různých oblastí a platforem, jako je BAAI/TACO, DeepMind, Python, atd., které pokrývají různé aspekty, jako je kód, hádanky, věda a matematika.

Tyto různé vstupy jsou poté předány do modulu pro zpracování jádra DeepSeek-R1, kde jsou data analyzována a zpracovávána. Otázky jsou rozděleny do tří kategorií: vědecké otázky, matematika a hádanky a kód.

Některé výsledky nevyžadují ověření a mohou být jednoduchými analýzami nebo přímými výstupy. U některého obsahu, který vyžaduje hloubkové ověření, se používá velký jazykový model (LLM), který jej posuzuje způsobem, který je srovnatelný s GT (Ground Truth). Pokud se jedná o kód, kód se provede a provedou se testy jednotek, aby byla zajištěna jeho správnost a účinnost.

A konečně, výsledky z různých směrů mohou být kombinovány za účelem vytvoření otevřeného myšlení a komplexnějších řešení.

Výzkumný tým aktualizoval finální datovou sadu OpenThoughts-114k konfigurací nazvanou „metadata“, která obsahuje některé další sloupce používané k vytvoření datové sady:

  • problém
  • pozemní_pravda_řešení
  • testovací_případy (pouze kód)
  • startovací_kód (pouze kód)
  • DeepSeek_uvažování
  • DeepSeek_řešení
  • doména
  • zdroj

Tato další metadata usnadní použití této datové sady v nových scénářích, jako je filtrování dat, přepínání domén, kontroly ověřování a změna šablony procesu odvození.

Tato další metadata usnadní používání této datové sady a lze to provést pouze s jedním řádkem kódu, jako je filtrování, změna domény, kontrola ověření a změna šablony sledování odvození.

load_dataset("open-thoughts/OpenThoughts-114k", "metadata", split="vlak")

Výzkumný tým říká, že se těší na to, jak komunita využije tyto otázky a standardní odpovědi pro výzkum posilovacího učení (RL) na modelu OpenThinker. DeepScaleR již prokázal, že tento přístup funguje zvláště dobře v menších měřítcích.

Ověření

Aby výzkumný tým dospěl ke konečnému souboru dat OpenThoughts-114k, ověřil odpovědi a odstranil nesprávné odpovědi.

Jak je uvedeno v tabulce níže, uchování inferencí, které neprojdou ověřením, může poškodit výkon, i když neověřený model si stále vede dobře ve srovnání s ostatními modely 32B inferencí.

Úlohou ověřování je zachovat kvalitu anotací R1 a zároveň rozšířit rozmanitost a velikost sady trénovacích výzev. Na druhou stranu lze neověřená data snadněji rozšířit, a proto také stojí za to je dále zkoumat.

U problémů s kódem dokončujeme ověření procesu odvození ověřením pokusů o odpověď proti existujícím testovacím případům.

Inspirováni výzvami, kterým čelíme během spouštění kódu, jsme implementovali rámec pro spouštění kódu v Curatoru, který umožňuje uživatelům spouštět kód ve velkém měřítku, bezpečně a ověřovat jej oproti očekávanému výstupu.

U matematických problémů výzkumný tým použil k ověření soudce LLM (Large Language Model), který obdrží jak standardní odpověď, tak i pokus o řešení DeepSeek-R1.

Bylo zjištěno, že použití vyhodnocovacího nástroje LLM pro generování dat namísto přísnějšího modulu analýzy (Math-Verify) vedlo k vyšší efektivní datové rychlosti a umožnilo trénování následných modelů s lepším výkonem.

Výcvik

Výzkumný tým použil LLaMa-Factory k doladění Qwen2.5-32B-Instruct třikrát na datovém souboru OpenThoughts-114k s délkou kontextu 16k. Kompletní konfiguraci školení najdete na GitHubu.

OpenThinker-32B byl trénován po dobu 90 hodin pomocí čtyř uzlů 8xH100 P5 na clusteru AWS SageMaker, celkem 2 880 hodin H100.

Mezitím OpenThinker-32B-Unverified trénoval 30 hodin na superpočítači Leonardo s použitím 96 uzlů 4xA100 (64 GB na GPU), což nashromáždilo 11 520 hodin A100.

Hodnocení

Výzkumný tým použil k vyhodnocení všech modelů open source hodnotící knihovnu Evalchemy.

Pro AIME24 a AIME25 vypočítali přesnost zprůměrováním výsledků pěti běhů. Konfigurace hodnocení používala parametr teploty 0,7, omezila odezvu modelu na 32 768 tokenů, nepřidávala žádná další systémová nebo uživatelská výzva a nepoužívala žádné speciální strategie dekódování (jako je vynucování rozpočtu).

Když byl spuštěn projekt OpenThoughts, stanovili si cíl vytvořit otevřený datový model s výkonem, který by se mohl rovnat DeepSeek-R1-Distill-Qwen-32B.

Nyní je tato mezera téměř odstraněna.

A konečně, výzkumný tým je nadšený rychlým pokrokem, kterého komunita během posledních několika týdnů dosáhla při vytváření modelů pro odvození otevřených dat, a těší se na další pokrok na základě vzájemných postřehů.

Vydání OpenThinker-32B s otevřeným zdrojovým kódem ukazuje, že synergie mezi daty, validací a velikostí modelu jsou klíčem ke zlepšení schopností odvodit.

Tento výsledek nejen podporuje vývoj open source modelů odvození, ale také poskytuje cenné zdroje a inspiraci pro celou komunitu AI.

Podobné příspěvky

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *