Моделот за заклучување 32B користи само 1/8 од податоците и е врзан со DeepSeek-R1 со иста големина!
Токму сега, институциите како Стенфорд, УК Беркли и Универзитетот во Вашингтон заеднички објавија модел за заклучување на ниво на SOTA, OpenThinker-32B, а исто така имаат отворен извор до 114k податоци за обука.

Почетна страница на проектот OpenThinker:
Збир на податоци за отворени мисли:
Откритие на тимот: со користење на висококвалитетна база на податоци со DeepSeek-R1 проверени прибелешки (врз основа на дестилација на R1), може да се обучи модел за заклучување SOTA.
Специфичниот метод е да се скалира податоците, да се потврди процесот на заклучување и да се скалира моделот.
Добиениот OpenThinker-32B ги надмина моделите s1 и s1.1 на Ли Феи-Феи во повеќе репер тестови по математика, кодирање и наука и беше блиску до R1-Distill-32B.
Вреди да се спомене дека во споредба со R1-Distill-32B, кој користеше 800k податоци (вклучувајќи 600k примероци за заклучување), OpenThinker-32B користеше само 114k податоци за да ги постигне речиси истите одлични резултати.

Покрај тоа, OpenThinker-32, исто така, ги објави сите тежини на моделите, збирките на податоци, кодот за генерирање податоци и кодот за обука!

Курирање на податоци
Истражувачите го обучуваа OpenThinker-32B користејќи ја истата база на податоци OpenThoughts-114k како што претходно го тренираа OpenThinker-7B.
Тие го користеа моделот DeepSeek-R1 за да ги соберат процесите на расудување и да одговорат на обидите за внимателно одбран сет од 173.000 прашања. Овие необработени податоци потоа беа објавени како база на податоци OpenThoughts-Unverified-173k.
Последниот чекор во процесот е да се филтрираат соодветните примероци на податоци доколку процесот на расудување не успее да ја помине верификацијата.
Следната слика визуелно го прикажува целиот процес.
Истражувачкиот тим најпрво внесува изворни податоци или поттикнувања за прашања, кои можат да доаѓаат од различни полиња и платформи, како што се BAAI/TACO, DeepMind, Python поднесоци итн., покривајќи различни аспекти како код, загатки, наука и математика.
Овие различни влезови потоа се пренесуваат на основниот модул за обработка, DeepSeek-R1, каде што податоците се анализираат и обработуваат. Прашањата се поделени во три категории: природни прашања, математика и загатки и код.
Некои резултати не бараат верификација и може да бидат едноставни анализи или директни резултати. За некои содржини за кои е потребна длабинска проверка, се користи модел на голем јазик (LLM) за да се процени на начин што може да се спореди со GT (Ground Truth). Ако е код, кодот се извршува и се вршат тестови на единицата за да се обезбеди неговата исправност и ефективност.
Конечно, резултатите од различни насоки може да се комбинираат за да се генерираат отворено размислување и посеопфатни решенија.

Истражувачкиот тим ја ажурираше конечната база на податоци OpenThoughts-114k со конфигурација наречена „метаподатоци“ која содржи некои дополнителни колони што се користат за конструирање на базата на податоци:
- проблем
- основа_вистина_решение
- тест_случаи (само код)
- starter_code (само код)
- DeepSeek_расудување
- DeepSeek_решение
- домен
- извор
Овие дополнителни метаподатоци ќе го олеснат користењето на оваа база на податоци во нови сценарија, како што се филтрирање податоци, префрлување домен, проверки за проверка и менување на шаблонот за процесот на заклучување.
Овие дополнителни метаподатоци ќе го олеснат користењето на оваа база на податоци, а тоа може да се направи со само една линија код, како што се филтрирање, промена на доменот, проверка на верификацијата и менување на шаблонот за следење на заклучоци.
load_dataset ("open-thoughts/OpenThoughts-114k", "метаподатоци", split="train")
Истражувачкиот тим вели дека со нетрпение очекуваат заедницата да ги користи овие прашања и стандардните одговори за истражување за засилено учење (RL) на моделот OpenThinker. DeepScaleR веќе покажа дека овој пристап работи особено добро во помали размери.
Верификација
За да се дојде до конечната база на податоци OpenThoughts-114k, истражувачкиот тим ги потврди одговорите и ги елиминираше неточните одговори.
Како што е прикажано во табелата подолу, задржувањето на заклучоците што не ја поминуваат верификацијата може да им наштети на перформансите, иако непроверениот модел сè уште има добри резултати во споредба со другите модели на заклучоци од 32B.
Улогата на верификацијата е да се одржи квалитетот на R1 прибелешките додека се проширува различноста и големината на комплетот за обука. Од друга страна, непроверените податоци можат полесно да се прошират и затоа вреди да се истражуваат понатаму.

За проблеми со кодот, ја комплетираме проверката на процесот на заклучување со проверка на обидите за одговор во однос на постоечките тест случаи.
Инспирирани од предизвиците со кои се соочуваме при извршувањето на кодот, имплементиравме рамка за извршување на кодот во Curator што им овозможува на корисниците да го извршуваат кодот во обем, безбедно и да го потврдат според очекуваниот излез.
За математички проблеми, истражувачкиот тим користел судија LLM (Large Language Model) за верификација, кој го добива и стандардниот одговор и обидот за решение DeepSeek-R1.
Утврдено е дека користењето на оценувачот LLM за генерирање податоци наместо построгиот мотор за парсирање (Math-Verify) резултираше со повисока ефективна стапка на податоци и овозможи обука на долните модели со подобри перформанси.

Обука
Истражувачкиот тим го искористи LLaMa-Factory за фино прилагодување на Qwen2.5-32B-Instruct три пати на базата на податоци OpenThoughts-114k со должина на контекст од 16k. Целосната конфигурација за обука може да се најде на GitHub.
OpenThinker-32B беше трениран 90 часа користејќи четири јазли 8xH100 P5 на кластерот AWS SageMaker, за вкупно 2.880 H100 часа.
Во меѓувреме, OpenThinker-32B-Unverified тренираше 30 часа на суперкомпјутерот Леонардо користејќи 96 јазли 4xA100 (64 GB по графички процесор), акумулирајќи 11.520 A100 часа.
Евалуација
Истражувачкиот тим ја искористи библиотеката за евалуација со отворен код Evalchemy за да ги оцени сите модели.
За AIME24 и AIME25, тие ја пресметале точноста со просек од резултатите од пет трки. Конфигурацијата за евалуација користеше температурен параметар од 0,7, го ограничи одговорот на моделот на 32.768 токени, не додаде никаков дополнителен систем или кориснички зборови и не користеше никакви посебни стратегии за декодирање (како што е принудување буџет).
Кога проектот OpenThoughts беше лансиран, тие поставија цел да создадат модел со отворени податоци со перформанси што може да одговараат на DeepSeek-R1-Distill-Qwen-32B.
Сега тој јаз е речиси елиминиран.
Конечно, истражувачкиот тим е возбуден од брзиот напредок што го постигна заедницата во градењето на модели за заклучоци за отворени податоци во текот на изминатите неколку недели и со нетрпение очекува да продолжи да се движи напред врз основа на согледувањата на едни со други.
Изданието со отворен код на OpenThinker-32B покажува дека синергиите помеѓу податоците, валидацијата и големината на моделот се клучни за подобрување на способностите за заклучување.
Овој резултат не само што го промовира развојот на модели за заклучување со отворен код, туку исто така обезбедува вредни ресурси и инспирација за целата заедница на вештачка интелигенција.