Срочные новости! Исследователь DeepSeek раскрывает информацию в сети: Обучение R1 заняло всего две-три недели, а мощная эволюция нуля R1 наблюдалась во время китайского Нового года

Только что мы заметили, что исследователь DeepSeek Дая Го ответил на вопросы пользователей сети о DeepSeek R1 и планах компании на будущее. Мы можем только сказать, что DeepSeek R1 — это только начало, и внутренние исследования все еще быстро продвигаются. Исследователи DeepSeek даже не делали перерыва во время китайского Нового года, и они неустанно работали над продвижением исследований. DeepSeek готовится к большим переменам

Вот в чем дело: 1 февраля Дая Го опубликовал твит, в котором рассказал о том, что больше всего его взволновало во время китайского Нового года: он стал свидетелем «непрерывный рост» кривой производительности R1-Zero модель, и чувствуя мощная сила обучение с подкреплением (RL)!

Исследователь Deepseek AI Дайя Го общается с пользователями сети

Сейчас я помогу вам воспроизвести разговор Дайи Го с пользователями сети:

Пользователь сети @PseudoProphet: «Большая шишка, я хочу спросить, как долго продлится это непрерывное улучшение производительности. Это все еще на ранних стадиях? Чувствуется ли, что модель RL DeepSeek только начинает работу, как GPT-2 в языковых моделях? Или она достигла более зрелой стадии, как GPT-3.5, и вот-вот упрется в узкое место?»

Это очень острый вопрос, который напрямую касается потенциала технологии RL DeepSeek! Ответ Дайи Го также очень честен:

Дайя Го: «Я думаю, что мы все еще находимся на очень ранней стадии, и нам еще предстоит пройти долгий путь в области RL. Но я верю, что в этом году мы увидим значительный прогресс».

Выделите ключевые моменты! «Очень рано», «долгий путь для исследования», «значительный прогресс в этом году»! Эти ключевые слова полны информации. Это означает, что DeepSeek считает, что у них еще много возможностей для совершенствования в области RL, и текущие результаты R1 могут быть лишь вершиной айсберга, так что будущее многообещающее!

Сразу после этого другой пользователь сети @kaush_trip (Чику Трипати) задал более профессиональный вопрос, который напрямую касается сути возможностей модели:

Пользователь B @kaush_trip: «Как вы оцениваете, основываясь на результатах R1-Zero, действительно ли модель способность к обобщению, или это просто запоминает переходы состояний и вознаграждения

Этот вопрос очень по существу! В конце концов, многие модели кажутся очень мощными, но на самом деле они просто «зубрят» данные обучения, и они потерпят неудачу в другой среде. Действительно ли DeepSeek R1 на должном уровне?

Дайя Го: «Мы используем бенчмарк для доменов, не охваченных RL prompt, чтобы оценить способность к обобщению. В настоящее время, похоже, способность к обобщению есть».

Фраза «области, не охваченные подсказкой RL» является ключевой! Это означает, что DeepSeek не «обманывает» оценку с помощью обучающих данных, а тестируется с новыми сценариями, которые модель никогда не видел до, что может действительно отражать уровень обобщения модели. Использование Дайя Го строгой формулировки «кажется, есть» также делает ее более реалистичной и достоверной

Затем пользователь сети с ником @teortaxesTex, большой поклонник DeepSeek (в его комментарии даже были слова «команда поддержки китов DeepSeek»), начал с технического отчета DeepSeek V3 и задал вопрос о время обучения модели:

Пользователь C @teortaxesTex: «Если не секрет: сколько времени заняло обучение RL на этот раз? Такое ощущение, что у вас уже был R1 или, по крайней мере, R1-Zero еще 10 декабря, потому что в техническом отчете V3 упоминается, что модель V2.5 использовала выжимку знаний R1, а оценка V2.5-1210 такая же, как у текущей модели. Является ли это продолжением того обучения?»

У этого пользователя сети поразительная наблюдательность! Он смог извлечь так много деталей из технического отчета. Дая Го также терпеливо объяснила итерационный процесс модели:

Дайя Го: «Параметры R1-Zero и R1 660B начали работать только после выпуска V3, и обучение заняло около 2-3 недель. Модель R1, о которой мы упоминали ранее (например, в техническом отчете V3), на самом деле является R1-Lite или R1-Lite-Zero».

Вот и все! R1-Zero и R1, которые мы видим сейчас, — это «новые и улучшенные версии», а предыдущая серия R1-Lite — это младшие версии. Похоже, что DeepSeek тихо итерировал и модернизировал много версий за кулисами

Что касается скорости обучения, пользователи сети @jiayi_pirate (Jiayi Pan) и пользователь сети B @kaush_trip провели «душевный допрос»:

Пользователь D @jiayi_pirate: «10 000 шагов RL за 3 недели, каждый шаг распространения градиента (grpo) занимает ~3 минуты 🤔»

Пользователь B @kaush_trip: «Если каждый шаг распространения градиента (grpo) занимает ~3 минуты, это примерно 5 шагов в час, 120 шагов в день, что действительно очень медленно».

Это действительно скрупулезный расчет! Согласно расчетам пользователя сети, скорость обучения DeepSeek R1 действительно не быстрая. Это также показывает, что стоимость обучения и временные затраты на такую высокопроизводительную модель RL огромны. «Медленная работа дает прекрасную работу» кажется вполне подходящим способом описания обучения модели ИИ

Наконец, пользователь сети @davikrehalt (Энди Цзян) задал вопрос с точки зрения более современного приложения:

Пользователь E @davikrehalt: «Вы пробовали использовать RL, чтобы сделать формальное доказательство окружающей среды, вместо того, чтобы просто отвечать на вопросы? Было бы здорово, если бы модель с открытым исходным кодом могла выиграть золотую медаль на IMO (Международной математической олимпиаде) в этом году! (И больше надежд!)”

Формальное доказательство! Золотая медаль IMO! Этот пользователь сети весьма амбициозен! Однако применение ИИ в хардкорной области математического доказательства — это действительно будущая тенденция. Ответ Дайи Го снова удивляет:

Дайя Го: «Мы также пытаемся применить R1 к формальным средам доказательства, таким как Lean. Мы надеемся вскоре выпустить лучшие модели для сообщества».

По словам Дайи Го, похоже, что они уже добились прогресса в этой области, и в будущем могут быть выпущены еще более впечатляющие модели!

В заключение

Из ответа Дайи Го можно выделить три ключевых сигнала:

Техническое позиционирование: RL все еще находится на ранних стадиях развития, и улучшения производительности далеки от достижения своих пределов;

Логика проверки: способность к обобщению для кросс-доменного тестирования, отклонение «спекуляций памяти»

Границы применения: от языковых моделей до математических доказательств, RL движется к рассуждениям высокого порядка

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *