Paper-DeepSeek-R1: Стимулиране на способността за разсъждаване в LLM чрез обучение с подсилване

Съдържание

Резюме

Този документ представя първото поколение модели за разсъждение на DeepSeek: DeepSeek-R1-Zero и DeepSeek-R1. DeepSeek-R1-Zero, обучен чрез широкомащабно усилено обучение (RL) без контролирана фина настройка (SFT), демонстрира забележителни възможности за разсъждение. Чрез RL той естествено развива мощно поведение на разсъждаване. Въпреки това той е изправен пред предизвикателства като слаба четимост и смесване на езици. За да се решат тези проблеми и да се подобри ефективността на разсъжденията, е разработен DeepSeek-R1, включващ многоетапно обучение и данни за студен старт преди RL. DeepSeek-R1 постига производителност, сравнима с тази на OpenAI-o1-1217, при задачи за разсъждаване. В подкрепа на научните изследвания DeepSeek предоставя отворени източници на двата модела и на шест плътни модела (1,5B, 7B, 8B, 14B, 32B, 70B), дестилирани от DeepSeek-R1 на базата на Qwen и Llama.

Основни приноси

След обучението: Широкомащабно обучение с усилване

Успешно прилагане на RL директно към базовия модел без SFT
Разработи DeepSeek-R1-Zero, демонстрирайки възможности като самопроверка и отразяване
Първото открито изследване, което потвърждава, че способностите за разсъждение могат да бъдат стимулирани единствено чрез RL
Въведен конвейер за DeepSeek-R1 с два RL етапа и два SFT етапа

Дестилация: Овластяване на по-малките модели

Демонстрира, че моделите на разсъждения от по-големи модели могат да бъдат ефективно дестилирани в по-малки.
Открит достъп до DeepSeek-R1 и неговия API в полза на изследователската общност
Фина настройка на няколко плътни модела, показващи изключителна производителност в бенчмарковете
Дестилираните модели значително превъзхождат предишните модели с отворен код

Резултати от оценката

Задачи за разсъждение

DeepSeek-R1 постига 79,8% Pass@1 на AIME 2024, надминавайки OpenAI-o1-1217
97.3% резултат по MATH-500, постигайки резултати, равни на тези на OpenAI-o1-1217
Представяне на експертно ниво в задачи за състезание по програмиране с 2 029 Elo точки в Codeforces

Задачи, свързани със знанието

Изключителни резултати при MMLU (90,8%), MMLU-Pro (84,0%) и GPQA Diamond (71,5%)
Превъзхожда други модели със затворен код в образователните задачи
Силно представяне на фактологични еталони като SimpleQA

Общи възможности

Умее да пише творчески, да отговаря на въпроси, да редактира и да обобщава
87,6% коефициент на печалба в AlpacaEval 2.0 и 92,3% в ArenaHard
Силно представяне при задачи за разбиране на дълъг контекст

Бъдеща работа

Екипът планира да се съсредоточи върху:

Подобряване на общите възможности в области като извикване на функции и сложни ролеви игри
Решаване на проблеми, свързани със смесването на езици
Усъвършенстване на техниката за подсказване
Повишаване на ефективността на задачите по софтуерно инженерство

Заключение

DeepSeek-R1 представлява значителен напредък в способностите за разсъждаване с изкуствен интелект чрез усилено обучение. Успехът както на основния модел, така и на неговите дестилирани версии демонстрира потенциала на този подход за разработване на по-способни системи за ИИ. Публикуването на тези модели с отворен код ще допринесе за по-нататъшни изследвания и разработки в тази област.

DeepSeek_R1 Изтегляне

Без категория

Сблъсъкът на четирите най-добри модела! Ревю показва колко мощен е Deepseek R1

Отzddeepseeker 1 юни 2025 г.1 юни 2025 г.

През последните няколко дни Deepseek-R1 0528 беше официално пуснат в отворен код. В LiveCodeBench производителността му е почти наравно с o3 (високо) на OpenAI; в многоезичния бенчмарк тест на Aider, той се справя добре с Claude Opus. Когато беше пуснат на официалния уебсайт, бързо тествахме възможностите му от предния край и установихме, че те са изключително...

Без категория

Той е близо до DeepSeek-R1-32B и смазва s1 на Fei-Fei Li! UC Berkeley и други нови SOTA модели с отворен код

Отzddeepseeker 14 февруари 2025 г14 февруари 2025 г

Моделът за извод 32B използва само 1/8 от данните и е обвързан с DeepSeek-R1 със същия размер! Току-що институции като Станфорд, Калифорнийския университет в Бъркли и Университета на Вашингтон съвместно пуснаха модел за изводи на ниво SOTA, OpenThinker-32B, и също така отвориха до 114k данни за обучение. Начална страница на OpenThinker Project: OpenThinker Hugging Face:…

Без категория

DeepSeek пусна своя изходен код, подробно обяснение на FlashMLA

Отzddeepseeker 24 февруари 2025 г24 февруари 2025 г

Миналата седмица DeepSeek обяви, че ще отвори пет проекта през следващата седмица: Нетизени казаха: „Този път OpenAI наистина е тук.“ Току-що дойде първият проект с отворен код, свързан с ускоряване на извода, FlashMLA: Адрес на проекта с отворен код: DeepSeek FlashMLA Той е с отворен код от два часа и Github вече има 2,7k+ звезди: The...

Без категория

Артефакти за управление на голям езиков модел като DeepSeek: Cherry Studio, Chatbox, AnythingLLM, кой е вашият ускорител на ефективността?

Отzddeepseeker 11 февруари 2025 г11 февруари 2025 г

Много хора вече са започнали да внедряват и използват Deepseek Large Language Models локално, използвайки Chatbox като инструмент за визуализация. Тази статия ще продължи да представя два други артефакта за управление и визуализация на AI Large Language Model и ще ги сравни подробно, за да ви помогне да използвате AI Large Language Models по-ефективно. През 2025 г.…

Без категория

Първо стартиране! SiliconFlow X Huawei Cloud съвместно стартират услуги за изводи DeepSeek R1 и V3, базирани на Ascend Cloud!

Отzddeepseeker февруари 1, 2025 г.февруари 1, 2025 г.

DeepSeek-R1 и DeepSeek-V3 предизвикаха световна сензация след пускането им на пазара с отворен код. Те са подарък от екипа на DeepSeek за цялото човечество и ние искрено се радваме на техния успех. След дни на упорита работа от страна на екипите на Silicon Mobility и Huawei Cloud, днес подаряваме на китайските потребители и китайски...

Без категория

Ali Qwen2.5-Max изпреварва DeepSeek-V3! Netizen: Китайският AI бързо намалява разликата

Отzddeepseeker 5 февруари 2025 г5 февруари 2025 г

Току-що друг местен модел беше добавен към списъка на Big Model Arena от Ali, Qwen2.5-Max, който надмина DeepSeek-V3 и се класира на седмо място в общата класация с общ резултат от 1332. Той също така надмина модели като Claude 3.5 Sonnet и Llama 3.1 405B с един замах. По-специално, той е отличен в програмирането...

Резюме

Основни приноси

След обучението: Широкомащабно обучение с усилване

Дестилация: Овластяване на по-малките модели

Резултати от оценката

Задачи за разсъждение

Задачи, свързани със знанието

Общи възможности

Бъдеща работа

Заключение

Подобни публикации

Вашият коментар Отказ