Резюме

Този документ представя първото поколение модели за разсъждение на DeepSeek: DeepSeek-R1-Zero и DeepSeek-R1. DeepSeek-R1-Zero, обучен чрез широкомащабно усилено обучение (RL) без контролирана фина настройка (SFT), демонстрира забележителни възможности за разсъждение. Чрез RL той естествено развива мощно поведение на разсъждаване. Въпреки това той е изправен пред предизвикателства като слаба четимост и смесване на езици. За да се решат тези проблеми и да се подобри ефективността на разсъжденията, е разработен DeepSeek-R1, включващ многоетапно обучение и данни за студен старт преди RL. DeepSeek-R1 постига производителност, сравнима с тази на OpenAI-o1-1217, при задачи за разсъждаване. В подкрепа на научните изследвания DeepSeek предоставя отворени източници на двата модела и на шест плътни модела (1,5B, 7B, 8B, 14B, 32B, 70B), дестилирани от DeepSeek-R1 на базата на Qwen и Llama.

Основни приноси

След обучението: Широкомащабно обучение с усилване

  • Успешно прилагане на RL директно към базовия модел без SFT
  • Разработи DeepSeek-R1-Zero, демонстрирайки възможности като самопроверка и отразяване
  • Първото открито изследване, което потвърждава, че способностите за разсъждение могат да бъдат стимулирани единствено чрез RL
  • Въведен конвейер за DeepSeek-R1 с два RL етапа и два SFT етапа

Дестилация: Овластяване на по-малките модели

  • Демонстрира, че моделите на разсъждения от по-големи модели могат да бъдат ефективно дестилирани в по-малки.
  • Открит достъп до DeepSeek-R1 и неговия API в полза на изследователската общност
  • Фина настройка на няколко плътни модела, показващи изключителна производителност в бенчмарковете
  • Дестилираните модели значително превъзхождат предишните модели с отворен код

Резултати от оценката

Задачи за разсъждение

  • DeepSeek-R1 постига 79,8% Pass@1 на AIME 2024, надминавайки OpenAI-o1-1217
  • 97.3% резултат по MATH-500, постигайки резултати, равни на тези на OpenAI-o1-1217
  • Представяне на експертно ниво в задачи за състезание по програмиране с 2 029 Elo точки в Codeforces

Задачи, свързани със знанието

  • Изключителни резултати при MMLU (90,8%), MMLU-Pro (84,0%) и GPQA Diamond (71,5%)
  • Превъзхожда други модели със затворен код в образователните задачи
  • Силно представяне на фактологични еталони като SimpleQA

Общи възможности

  • Умее да пише творчески, да отговаря на въпроси, да редактира и да обобщава
  • 87,6% коефициент на печалба в AlpacaEval 2.0 и 92,3% в ArenaHard
  • Силно представяне при задачи за разбиране на дълъг контекст

Бъдеща работа

Екипът планира да се съсредоточи върху:

  1. Подобряване на общите възможности в области като извикване на функции и сложни ролеви игри
  2. Решаване на проблеми, свързани със смесването на езици
  3. Усъвършенстване на техниката за подсказване
  4. Повишаване на ефективността на задачите по софтуерно инженерство

Заключение

DeepSeek-R1 представлява значителен напредък в способностите за разсъждаване с изкуствен интелект чрез усилено обучение. Успехът както на основния модел, така и на неговите дестилирани версии демонстрира потенциала на този подход за разработване на по-способни системи за ИИ. Публикуването на тези модели с отворен код ще допринесе за по-нататъшни изследвания и разработки в тази област.

Подобни публикации

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *