Resumo
Este documento apresenta os modelos de raciocínio de primeira geração do DeepSeek: DeepSeek-R1-Zero e DeepSeek-R1. O DeepSeek-R1-Zero, treinado por meio de aprendizagem por reforço (RL) em larga escala sem ajuste fino supervisionado (SFT), demonstra capacidades de raciocínio notáveis. Por meio da RL, ele desenvolve naturalmente comportamentos de raciocínio poderosos. No entanto, ele enfrenta desafios como baixa legibilidade e mistura de idiomas. Para resolver esses problemas e melhorar o desempenho do raciocínio, o DeepSeek-R1 foi desenvolvido, incorporando treinamento em vários estágios e dados de início frio antes da RL. O DeepSeek-R1 atinge um desempenho comparável ao do OpenAI-o1-1217 em tarefas de raciocínio. Para dar suporte à pesquisa, o DeepSeek abre o código-fonte de ambos os modelos e de seis modelos densos (1,5B, 7B, 8B, 14B, 32B, 70B) destilados do DeepSeek-R1 com base no Qwen e no Llama.
Principais contribuições
Pós-treinamento: Aprendizado por reforço em larga escala
- Aplicação bem-sucedida da RL diretamente ao modelo básico sem SFT
- Desenvolveu o DeepSeek-R1-Zero, demonstrando recursos como autoverificação e reflexão
- Primeira pesquisa aberta validando que os recursos de raciocínio podem ser incentivados exclusivamente por meio da RL
- Introduziu o pipeline para DeepSeek-R1 com dois estágios RL e dois estágios SFT
Destilação: Capacitação de modelos menores
- Demonstrou que os padrões de raciocínio de modelos maiores podem ser efetivamente destilados em modelos menores
- DeepSeek-R1 de código aberto e sua API para beneficiar a comunidade de pesquisa
- Ajuste fino de vários modelos densos que apresentam desempenho excepcional de benchmark
- Os modelos destilados superam significativamente os modelos de código aberto anteriores
Resultados da avaliação
Tarefas de raciocínio
- O DeepSeek-R1 atinge 79,8% Pass@1 no AIME 2024, superando o OpenAI-o1-1217
- 97,3% de pontuação no MATH-500, com desempenho equivalente ao do OpenAI-o1-1217
- Desempenho em nível de especialista em tarefas de competição de código com classificação Elo de 2.029 no Codeforces
Tarefas de conhecimento
- Resultados excepcionais no MMLU (90,8%), MMLU-Pro (84,0%) e GPQA Diamond (71,5%)
- Supera outros modelos de código fechado em tarefas educacionais
- Forte desempenho em benchmarks factuais como o SimpleQA
Recursos gerais
- É excelente em redação criativa, resposta a perguntas, edição e resumo
- 87,6% de taxa de vitória no AlpacaEval 2.0 e 92,3% no ArenaHard
- Bom desempenho em tarefas de compreensão de contextos longos
Trabalho futuro
A equipe planeja se concentrar em:
- Aprimoramento de recursos gerais em áreas como chamadas de funções e interpretação de funções complexas
- Abordagem de problemas de mistura de idiomas
- Aprimorando a engenharia de solicitação
- Aprimoramento do desempenho em tarefas de engenharia de software
Conclusão
O DeepSeek-R1 representa um avanço significativo nos recursos de raciocínio de IA por meio da aprendizagem por reforço. O sucesso tanto do modelo principal quanto de suas versões destiladas demonstra o potencial dessa abordagem para o desenvolvimento de sistemas de IA mais capazes. O lançamento de código aberto desses modelos contribuirá para o avanço da pesquisa e do desenvolvimento nesse campo.