Paper-DeepSeek-R1: Incentivando a capacidade de raciocínio em LLMs por meio do aprendizado por reforço
Resumo Este documento apresenta os modelos de raciocínio de primeira geração do DeepSeek: DeepSeek-R1-Zero e DeepSeek-R1. O DeepSeek-R1-Zero, treinado por meio de aprendizagem por reforço (RL) em larga escala sem ajuste fino supervisionado (SFT), demonstra recursos de raciocínio notáveis. Por meio da RL, ele desenvolve naturalmente comportamentos de raciocínio poderosos. No entanto, ele enfrenta desafios como baixa legibilidade e mistura de idiomas. Para resolver esses problemas e melhorar o desempenho do raciocínio, foi desenvolvido o DeepSeek-R1,...