Paper-DeepSeek-R1 : Incitation à la capacité de raisonnement dans les LLM via l'apprentissage par renforcement

Résumé Ce document présente les modèles de raisonnement de première génération de DeepSeek : DeepSeek-R1-Zero et DeepSeek-R1. DeepSeek-R1-Zero, formé par apprentissage par renforcement à grande échelle (RL) sans réglage fin supervisé (SFT), démontre des capacités de raisonnement remarquables. Grâce à l'apprentissage par renforcement, il développe naturellement de puissants comportements de raisonnement. Cependant, il est confronté à des défis tels qu'une mauvaise lisibilité et un mélange de langues. Pour résoudre ces problèmes et améliorer les performances de raisonnement, DeepSeek-R1 a été développé,...