Paper-DeepSeek-R1: Стимулирование способности к рассуждению у LLM с помощью обучения с подкреплением

Оглавление

Аннотация

В этом документе представлены модели рассуждений DeepSeek первого поколения: DeepSeek-R1-Zero и DeepSeek-R1. DeepSeek-R1-Zero, обученная с помощью крупномасштабного обучения с подкреплением (RL) без контролируемой тонкой настройки (SFT), демонстрирует замечательные способности к рассуждениям. Благодаря RL он естественным образом развивает мощное поведение рассуждения. Однако он сталкивается с такими проблемами, как плохая читаемость и смешение языков. Для решения этих проблем и повышения эффективности рассуждений была разработана система DeepSeek-R1, включающая многоступенчатое обучение и холодный старт данных перед RL. DeepSeek-R1 достигает производительности, сравнимой с OpenAI-o1-1217 в задачах рассуждения. Для поддержки исследований в DeepSeek открыты обе модели и шесть плотных моделей (1.5B, 7B, 8B, 14B, 32B, 70B), выделенных из DeepSeek-R1 на основе Qwen и Llama.

Основные вклады

Посттренировочное обучение: Крупномасштабное обучение с подкреплением

Успешное применение RL непосредственно к базовой модели без SFT
Разработка DeepSeek-R1-Zero, демонстрирующая такие возможности, как самопроверка и рефлексия
Первое открытое исследование, подтверждающее, что способности к рассуждению можно стимулировать исключительно с помощью RL
Представлен конвейер для DeepSeek-R1 с двумя каскадами RL и двумя каскадами SFT

Дистилляция: Расширение возможностей небольших моделей

Продемонстрировал, что схемы рассуждений из больших моделей могут быть эффективно разделены на более мелкие
Открытая версия DeepSeek-R1 и ее API для исследовательского сообщества
Тонкая настройка нескольких плотных моделей, демонстрирующих исключительную производительность в бенчмарках
Разработанные модели значительно превосходят предыдущие модели с открытым исходным кодом

Результаты оценки

Задачи на рассуждение

DeepSeek-R1 достигает 79,8% Pass@1 на AIME 2024, превосходя OpenAI-o1-1217
97,3% баллов по MATH-500, наравне с OpenAI-o1-1217
Экспертный уровень производительности в конкурсных задачах по коду с рейтингом 2,029 Elo на Codeforces

Задачи на знание

Выдающиеся результаты по MMLU (90,8%), MMLU-Pro (84,0%) и GPQA Diamond (71,5%)
Превосходит другие модели с закрытым исходным кодом в решении образовательных задач
Высокие показатели по фактическим показателям, таким как SimpleQA

Общие возможности

Отлично справляется с творческими заданиями, ответами на вопросы, редактированием и подведением итогов
87,6% коэффициент побед на AlpacaEval 2.0 и 92,3% на ArenaHard
Высокая производительность при выполнении заданий на понимание длинного контекста

Будущая работа

Команда планирует сосредоточиться на:

Расширение общих возможностей в таких областях, как вызов функций и сложные ролевые игры
Решение проблем смешения языков
Совершенствование техники подсказок
Повышение производительности при решении задач программной инженерии

Заключение

DeepSeek-R1 представляет собой значительный шаг вперед в развитии возможностей ИИ в области рассуждений с помощью обучения с подкреплением. Успех как основной модели, так и ее расширенных версий демонстрирует потенциал этого подхода для разработки более способных систем ИИ. Выпуск этих моделей с открытым исходным кодом будет способствовать дальнейшим исследованиям и разработкам в этой области.

DeepSeek_R1 Скачать

Без категории

Что такое FlashMLA? Подробное руководство по его влиянию на ядра декодирования ИИ

Авторdeepseeker 24 февраля 2025 г.24 февраля 2025 г.

FlashMLA быстро привлек внимание в мире искусственного интеллекта, особенно в области больших языковых моделей (LLM). Этот инновационный инструмент, разработанный DeepSeek, служит оптимизированным ядром декодирования, разработанным для Hopper GPU — высокопроизводительных чипов, обычно используемых в вычислениях ИИ. FlashMLA фокусируется на эффективной обработке последовательностей переменной длины, что делает его особенно подходящим…

Без категории

Как была создана компания DeepSeek? Анализ истории развития DeepSeek

Авторzddeepseeker 3 февраля 2025 года3 февраля 2025 года

В будущем будет появляться все больше и больше хардкорных инноваций. Возможно, сейчас это нелегко понять, потому что вся социальная группа должна быть обучена фактам. Когда общество позволит людям, которые внедряют инновации в хардкорном стиле, добиться успеха, коллективное мышление изменится. Нам просто нужна куча фактов и процесс.....

Без категории

Недорогая модель Google серии Gemini 2.0 наступает: борьба за экономическую эффективность в крупных моделях усиливается

Авторzddeepseeker 8 февраля 2025 г.8 февраля 2025 г.

Высокая стоимость использования больших моделей ИИ является основной причиной, по которой многие приложения ИИ до сих пор не внедрены и не продвигаются. Выбор экстремальной производительности означает огромные затраты вычислительной мощности, что приводит к высоким расходам на использование, которые обычные пользователи не могут принять. Конкуренция за большие модели ИИ — это как война без дыма. После…

Без категории

В кругу ИИ DeepSeek R1 уверенно превзошел o1 и Claude в физических тестах, и мы вступили в золотой век RL.

Авторzddeepseeker 1 февраля 2025 года1 февраля 2025 года

Никто из нас не ожидал, что именно так начнется 2025 год в сфере ИИ. DeepSeek R1 - это действительно удивительно! В последнее время "таинственная восточная сила" DeepSeek "жестко контролирует" Кремниевую долину. Я попросил R1 подробно объяснить теорему Пифагора. Все это было сделано искусственным интеллектом менее чем за 30 секунд без каких-либо...

Без категории

Раскрыта технология DeepSeek-R1: основные принципы статьи раскрыты и ключ к прорывной производительности модели раскрыт

Авторzddeepseeker 9 февраля 2025 г.9 февраля 2025 г.

Сегодня мы поделимся DeepSeek R1, Название: DeepSeek-R1: Стимулирование способности к рассуждению в LLM посредством обучения с подкреплением: Стимулирование способности к рассуждению в LLM посредством обучения с подкреплением. В этой статье представлено первое поколение моделей рассуждения DeepSeek, DeepSeek-R1-Zero и DeepSeek-R1. Модель DeepSeek-R1-Zero была обучена посредством крупномасштабного обучения с подкреплением (RL) без контролируемой тонкой настройки (SFT) в качестве начального шага,…

Без категории

DeepSeek сделал это! OpenAI признает ошибку с закрытым исходным кодом, преимущество становится меньше

Авторzddeepseeker 2 февраля 2025 года2 февраля 2025 года

После того как компания OpenAI выпустила модель o3-mini, ее генеральный директор Сэм Альтман, директор по исследованиям Марк Чен, директор по продуктам Кевин Вайл, вице-президент по разработкам Сринивас Нараянан, руководитель отдела исследований API Мишель Покрасс и руководитель отдела исследований Хонгю Рен провели онлайн-беседу по техническим вопросам и ответам на одном из крупнейших в мире всесторонних форумов reddit. Основные темы...

Paper-DeepSeek-R1: Стимулирование способности к рассуждению в LLM с помощью обучения с подкреплением

Аннотация

Основные вклады

Посттренировочное обучение: Крупномасштабное обучение с подкреплением

Дистилляция: Расширение возможностей небольших моделей