Апстракт
Овој труд ги воведува моделите за расудување од првата генерација на DeepSeek: DeepSeek-R1-Zero и DeepSeek-R1. DeepSeek-R1-Zero, обучен преку учење за засилување од големи размери (RL) без надгледувано фино подесување (SFT), покажува извонредни способности за расудување. Преку RL, природно развива моќни однесувања за расудување. Сепак, се соочува со предизвици како што се слаба читливост и мешање јазици. За да се решат овие проблеми и да се подобрат перформансите на расудувањето, развиен е DeepSeek-R1, кој вклучува повеќестепена обука и податоци за ладен старт пред RL. DeepSeek-R1 постигнува перформанси споредливи со OpenAI-o1-1217 при задачи за расудување. За поддршка на истражувањето, DeepSeek ги користи моделите со отворен код и шест густи модели (1.5B, 7B, 8B, 14B, 32B, 70B) дестилирани од DeepSeek-R1 врз основа на Qwen и Llama.
Клучни придонеси
Пост-тренинг: Учење за засилување од големи размери
- Успешно се примени RL директно на основниот модел без SFT
- Развиен DeepSeek-R1-Zero, покажувајќи способности како самопроверка и размислување
- Прво отворено истражување кое потврдува дека способностите за расудување може да се поттикнат чисто преку RL
- Воведен гасовод за DeepSeek-R1 со две RL етапи и две SFT етапи
Дестилација: зајакнување на помалите модели
- Покажа дека обрасците за расудување од поголемите модели можат ефективно да се дестилираат во помали
- DeepSeek-R1 со отворен код и неговиот API во корист на истражувачката заедница
- Добро подесени неколку густи модели кои покажуваат исклучителни репер перформанси
- Дестилираните модели значително ги надминуваат претходните модели со отворен код
Резултати од евалуацијата
Задачи за расудување
- DeepSeek-R1 постигнува 79,8% Pass@1 на AIME 2024, надминувајќи го OpenAI-o1-1217
- 97,3% резултат на MATH-500, кој е на исто ниво со OpenAI-o1-1217
- Изведба на ниво на експерти во задачите за натпреварување кодови со 2.029 Elo рејтинг на Codeforces
Задачи за знаење
- Извонредни резултати на MMLU (90,8%), MMLU-Pro (84,0%) и GPQA Diamond (71,5%)
- Ги надминува другите модели со затворен код во образовните задачи
- Силни перформанси на фактички одредници како SimpleQA
Општи способности
- Усовршува во креативното пишување, одговарање на прашања, уредување и сумирање
- 87,6% стапка на победа на AlpacaEval 2.0 и 92,3% на ArenaHard
- Силни перформанси во задачи за разбирање со долг контекст
Идна работа
Тимот планира да се фокусира на:
- Подобрување на општите способности во области како повикување функции и сложено играње улоги
- Решавање на прашањата за мешање јазик
- Подобрување на инженерството за поттикнување
- Подобрување на перформансите на задачите за софтверско инженерство
Заклучок
DeepSeek-R1 претставува значаен напредок во способностите за расудување со вештачка интелигенција преку учење за зајакнување. Успехот и на главниот модел и на неговите дестилирани верзии го покажува потенцијалот на овој пристап за развој на поспособни системи за вештачка интелигенција. Објавувањето на овие модели со отворен код ќе придонесе за понатамошно истражување и развој на теренот.