Sem categoria

Paper-DeepSeek-R1: Incentivando a capacidade de raciocínio em LLMs por meio do aprendizado por reforço

Pordeepseeker 29 de janeiro de 202529 de janeiro de 2025

Resumo Este documento apresenta os modelos de raciocínio de primeira geração do DeepSeek: DeepSeek-R1-Zero e DeepSeek-R1. O DeepSeek-R1-Zero, treinado por meio de aprendizagem por reforço (RL) em larga escala sem ajuste fino supervisionado (SFT), demonstra recursos de raciocínio notáveis. Por meio da RL, ele desenvolve naturalmente comportamentos de raciocínio poderosos. No entanto, ele enfrenta desafios como baixa legibilidade e mistura de idiomas. Para resolver esses problemas e melhorar o desempenho do raciocínio, foi desenvolvido o DeepSeek-R1,...