Модель вывода 32B использует только 1/8 данных и совпадает с DeepSeek-R1 того же размера!

Только что такие учреждения, как Стэнфорд, Калифорнийский университет в Беркли и Вашингтонский университет, совместно выпустили модель вывода на уровне SOTA, OpenThinker-32B, а также открыли доступ к 114 тыс. обучающих данных.

Домашняя страница проекта OpenThinker:

OpenThinker обнимает лицо:

Открытые мысли Набор данных:

Групповое исследование: используя крупномасштабный высококачественный набор данных с проверенными аннотациями DeepSeek-R1 (на основе дистилляции R1), можно обучить модель вывода SOTA.

Конкретный метод заключается в масштабировании данных, проверке процесса вывода и масштабировании модели.

Полученный OpenThinker-32B превзошел модели s1 и s1.1 Ли Фэй-Фэя в многочисленных тестах по математике, кодированию и естественным наукам и оказался близок к R1-Distill-32B.

Стоит отметить, что по сравнению с R1-Distill-32B, который использовал 800 тыс. данных (включая 600 тыс. выборок вывода), OpenThinker-32B использовал всего 114 тыс. данных для достижения почти таких же превосходных результатов.

Кроме того, OpenThinker-32 также опубликовал все веса моделей, наборы данных, код генерации данных и код обучения!

Обработка данных

Исследователи обучили OpenThinker-32B, используя тот же набор данных OpenThoughts-114k, который они ранее обучили OpenThinker-7B.

Они использовали модель DeepSeek-R1 для сбора процессов рассуждения и попыток ответа для тщательно отобранного набора из 173 000 вопросов. Эти необработанные данные затем были опубликованы как набор данных OpenThoughts-Unverified-173k.

Последним шагом в этом процессе является отфильтровывание соответствующих выборок данных, если процесс рассуждения не проходит проверку.

На следующем рисунке наглядно представлен весь процесс.

Сначала исследовательская группа вводит исходные данные или вопросы-подсказки, которые могут поступать из разных областей и платформ, таких как BAAI/TACO, DeepMind, заявки на Python и т. д., охватывающие различные аспекты, такие как код, головоломки, наука и математика.

Эти разнообразные входные данные затем передаются в основной модуль обработки DeepSeek-R1, где данные анализируются и обрабатываются. Вопросы делятся на три категории: вопросы по науке, математика и головоломки, а также код.

Некоторые результаты не требуют проверки и могут быть простыми анализами или прямыми выходами. Для некоторого контента, требующего углубленной проверки, используется большая языковая модель (LLM), чтобы оценить его способом, сопоставимым с GT (Ground Truth). Если это код, код выполняется и выполняются модульные тесты, чтобы убедиться в его правильности и эффективности.

Наконец, результаты, полученные в разных направлениях, можно объединить для формирования непредвзятого мышления и более комплексных решений.

Исследовательская группа обновила окончательный набор данных OpenThoughts-114k с помощью конфигурации под названием «метаданные», которая содержит несколько дополнительных столбцов, используемых для построения набора данных:

  • проблема
  • решение_основной_истины
  • test_cases (только код)
  • starter_code (только код)
  • DeepSeek_рассуждение
  • DeepSeek_решение
  • домен
  • источник

Эти дополнительные метаданные упростят использование этого набора данных в новых сценариях, таких как фильтрация данных, переключение доменов, проверки и изменение шаблона процесса вывода.

Эти дополнительные метаданные упростят использование этого набора данных, и это можно сделать с помощью всего одной строки кода, например, фильтрацию, изменение домена, проверку верификации и изменение шаблона отслеживания вывода.

load_dataset("open-thoughts/OpenThoughts-114k", "metadata", split="train")

Исследовательская группа говорит, что они с нетерпением ждут, когда сообщество воспользуется этими вопросами и стандартными ответами для исследования обучения с подкреплением (RL) на модели OpenThinker. DeepScaleR уже продемонстрировал, что этот подход работает особенно хорошо в меньших масштабах.

Проверка

Чтобы получить окончательный набор данных OpenThoughts-114k, исследовательская группа проверила ответы и исключила неверные ответы.

Как показано в таблице ниже, сохранение выводов, не прошедших проверку, может снизить производительность, хотя непроверенная модель по-прежнему работает хорошо по сравнению с другими моделями вывода 32B.

Роль проверки заключается в поддержании качества аннотаций R1 при расширении разнообразия и размера набора обучающих подсказок. С другой стороны, непроверенные данные могут быть расширены более легко и поэтому также заслуживают дальнейшего изучения.

Для проблем с кодом мы завершаем проверку процесса вывода путем сверки попыток ответа с существующими тестовыми примерами.

Вдохновленные трудностями, возникающими при выполнении кода, мы реализовали в Curator фреймворк выполнения кода, который позволяет пользователям выполнять код в больших масштабах, безопасно и сравнивать его с ожидаемым результатом.

Для проверки математических задач исследовательская группа использовала судью LLM (большая языковая модель), которая получает как стандартный ответ, так и попытку решения DeepSeek-R1.

Было обнаружено, что использование оценщика LLM для генерации данных вместо более строгого механизма синтаксического анализа (Math-Verify) привело к более высокой эффективной скорости передачи данных и позволило обучить последующие модели с более высокой производительностью.

Обучение

Исследовательская группа использовала LLaMa-Factory для тонкой настройки Qwen2.5-32B-Instruct три раза на наборе данных OpenThoughts-114k с длиной контекста 16k. Полную конфигурацию обучения можно найти на GitHub.

Обучение OpenThinker-32B проводилось в течение 90 часов с использованием четырех узлов 8xH100 P5 в кластере AWS SageMaker, что в общей сложности составило 2880 часов H100.

Тем временем OpenThinker-32B-Unverified обучался в течение 30 часов на суперкомпьютере Leonardo с использованием 96 узлов 4xA100 (64 ГБ на графический процессор), накопив 11 520 часов A100.

Оценка

Для оценки всех моделей исследовательская группа использовала библиотеку оценки с открытым исходным кодом Evalchemy.

Для AIME24 и AIME25 они вычислили точность, усреднив результаты пяти запусков. Конфигурация оценки использовала температурный параметр 0,7, ограничивала ответ модели 32 768 токенами, не добавляла никаких дополнительных системных или пользовательских слов-подсказок и не использовала никаких специальных стратегий декодирования (таких как форсирование бюджета).

При запуске проекта OpenThoughts была поставлена цель создать открытую модель данных с производительностью, которая могла бы сравниться с DeepSeek-R1-Distill-Qwen-32B.

Теперь этот разрыв практически ликвидирован.

Наконец, исследовательская группа воодушевлена быстрым прогрессом, достигнутым сообществом в создании моделей вывода открытых данных за последние несколько недель, и с нетерпением ждет продолжения работы на основе идей друг друга.

Выпуск OpenThinker-32B с открытым исходным кодом демонстрирует, что синергия между данными, проверкой и размером модели является ключом к улучшению возможностей вывода.

Этот результат не только способствует развитию моделей вывода с открытым исходным кодом, но и предоставляет ценные ресурсы и вдохновение для всего сообщества ИИ.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *