Моделът за извод 32B използва само 1/8 от данните и е обвързан с DeepSeek-R1 със същия размер!
Току-що институции като Станфорд, Калифорнийския университет в Бъркли и Университета на Вашингтон съвместно пуснаха модел за изводи на ниво SOTA, OpenThinker-32B, и също имат отворен код до 114k данни за обучение.

Начална страница на проекта OpenThinker:
Прегръщащо лице на OpenThinker:
Набор от данни за отворени мисли:
Екипно откритие: Използвайки широкомащабен висококачествен набор от данни с DeepSeek-R1 проверени анотации (базирани на R1 дестилация), може да се обучи SOTA модел за изводи.
Конкретният метод е мащабиране на данните, проверка на процеса на извод и мащабиране на модела.
Полученият OpenThinker-32B надмина моделите s1 и s1.1 на Li Fei-Fei в множество сравнителни тестове по математика, кодиране и наука и беше близо до R1-Distill-32B.
Струва си да се спомене, че в сравнение с R1-Distill-32B, който използва 800k данни (включително 600k проби за изводи), OpenThinker-32B използва само 114k данни, за да постигне почти същите отлични резултати.

В допълнение, OpenThinker-32 също направи публични всички тегла на модела, набори от данни, код за генериране на данни и код за обучение!

Куриране на данни
Изследователите са обучили OpenThinker-32B, използвайки същия набор от данни OpenThoughts-114k, както преди това са обучили OpenThinker-7B.
Те използваха модела DeepSeek-R1, за да съберат процесите на разсъждение и опитите за отговор на внимателно подбран набор от 173 000 въпроса. След това тези необработени данни бяха публикувани като набор от данни OpenThoughts-Unverified-173k.
Последната стъпка в процеса е да се филтрират съответните проби от данни, ако процесът на разсъждение не успее да премине проверката.
Следващата фигура визуално показва целия процес.
Изследователският екип първо въвежда изходни данни или подкани за въпроси, които могат да идват от различни области и платформи, като BAAI/TACO, DeepMind, подавания на Python и т.н., обхващащи различни аспекти като код, пъзели, наука и математика.
След това тези разнообразни входове се предават на основния модул за обработка, DeepSeek-R1, където данните се анализират и обработват. Въпросите са разделени в три категории: научни въпроси, математика и пъзели и код.
Някои резултати не изискват проверка и могат да бъдат обикновени анализи или директни резултати. За част от съдържанието, което изисква задълбочена проверка, се използва голям езиков модел (LLM), за да се оцени по начин, който е сравним с GT (Ground Truth). Ако е код, кодът се изпълнява и се извършват модулни тестове, за да се гарантира неговата коректност и ефективност.
И накрая, резултатите от различни посоки могат да се комбинират, за да генерират отворено мислене и по-всеобхватни решения.

Изследователският екип актуализира окончателния набор от данни OpenThoughts-114k с конфигурация, наречена „метаданни“, която съдържа някои допълнителни колони, използвани за конструиране на набора от данни:
- проблем
- основа_истина_решение
- test_cases (само код)
- starter_code (само код)
- DeepSeek_разсъждение
- DeepSeek_решение
- домейн
- източник
Тези допълнителни метаданни ще улеснят използването на този набор от данни в нови сценарии, като филтриране на данни, превключване на домейни, проверки за проверка и промяна на шаблона на процеса на извод.
Тези допълнителни метаданни ще улеснят използването на този набор от данни и това може да се направи само с един ред код, като филтриране, промяна на домейна, проверка на проверката и промяна на шаблона за проследяване на изводи.
load_dataset("open-thoughts/OpenThoughts-114k", "metadata", split="train")
Изследователският екип казва, че очакват с нетърпение да видят общността да използва тези въпроси и стандартни отговори за изследване на обучението с подсилване (RL) на модела OpenThinker. DeepScaleR вече демонстрира, че този подход работи особено добре в по-малки мащаби.
Проверка
За да стигне до окончателния набор от данни OpenThoughts-114k, изследователският екип провери отговорите и елиминира неправилните отговори.
Както е показано в таблицата по-долу, запазването на изводи, които не преминават проверката, може да навреди на производителността, въпреки че непровереният модел все още се представя добре в сравнение с другите 32B модели на изводи.
Ролята на проверката е да поддържа качеството на анотациите R1, като същевременно разширява разнообразието и размера на набора от инструкции за обучение. От друга страна, непроверените данни могат да бъдат разширени по-лесно и следователно също си струва да бъдат проучени допълнително.

За проблеми с кода ние завършваме проверката на процеса на извод, като проверяваме опитите за отговор спрямо съществуващи тестови случаи.
Вдъхновени от предизвикателствата, с които се сблъскват по време на изпълнение на код, внедрихме рамка за изпълнение на код в Curator, която позволява на потребителите да изпълняват код в мащаб, безопасно и да го проверяват спрямо очаквания изход.
За математически проблеми изследователският екип използва LLM (Large Language Model) съдия за проверка, който получава както стандартния отговор, така и опита за решение DeepSeek-R1.
Беше установено, че използването на оценителя на LLM за генериране на данни вместо по-стриктната машина за анализиране (Math-Verify) доведе до по-висока ефективна скорост на данни и позволи обучението на модели надолу по веригата с по-добра производителност.

обучение
Изследователският екип използва LLaMa-Factory за фина настройка на Qwen2.5-32B-Instruct три пъти върху набора от данни OpenThoughts-114k с дължина на контекста 16k. Пълната конфигурация на обучението може да бъде намерена на GitHub.
OpenThinker-32B беше обучен за 90 часа с помощта на четири 8xH100 P5 възела на AWS SageMaker клъстер, за общо 2880 H100 часа.
Междувременно OpenThinker-32B-Unverified се обучава в продължение на 30 часа на суперкомпютъра Leonardo, използвайки 96 4xA100 възела (64GB на GPU), натрупвайки 11 520 A100 часа.
Оценка
Изследователският екип използва библиотеката за оценка с отворен код Evalchemy, за да оцени всички модели.
За AIME24 и AIME25 те изчисляват точността чрез осредняване на резултатите от пет пускания. Конфигурацията за оценка използва температурен параметър от 0,7, ограничи отговора на модела до 32 768 токена, не добави никакви допълнителни системни или потребителски подканващи думи и не използва никакви специални стратегии за декодиране (като форсиране на бюджета).
Когато проектът OpenThoughts беше стартиран, те си поставиха за цел да създадат отворен модел на данни с производителност, която може да съответства на DeepSeek-R1-Distill-Qwen-32B.
Сега тази празнина е почти премахната.
И накрая, изследователският екип е развълнуван от бързия напредък, който общността постигна в изграждането на модели за изводи за отворени данни през последните няколко седмици, и очаква с нетърпение да продължи да се движи напред въз основа на прозренията на другите.
Изданието с отворен код на OpenThinker-32B демонстрира, че синергиите между данни, валидиране и размер на модела са ключови за подобряване на възможностите за изводи.
Този резултат не само насърчава разработването на модели за изводи с отворен код, но също така предоставя ценни ресурси и вдъхновение за цялата общност на AI.