Résumé
Ce document présente les modèles de raisonnement de première génération de DeepSeek : DeepSeek-R1-Zero et DeepSeek-R1. DeepSeek-R1-Zero, formé par apprentissage par renforcement à grande échelle (RL) sans réglage fin supervisé (SFT), démontre des capacités de raisonnement remarquables. Grâce à l'apprentissage par renforcement, il développe naturellement de puissants comportements de raisonnement. Cependant, il est confronté à des défis tels qu'une mauvaise lisibilité et un mélange de langues. Pour résoudre ces problèmes et améliorer les performances de raisonnement, DeepSeek-R1 a été développé, en incorporant une formation en plusieurs étapes et des données de démarrage à froid avant le RL. DeepSeek-R1 atteint des performances comparables à celles de l'OpenAI-o1-1217 dans les tâches de raisonnement. Pour soutenir la recherche, DeepSeek ouvre les deux modèles et six modèles denses (1.5B, 7B, 8B, 14B, 32B, 70B) distillés à partir de DeepSeek-R1 sur la base de Qwen et Llama.
Principales contributions
Post-entraînement : Apprentissage par renforcement à grande échelle
- Application réussie de RL directement au modèle de base sans SFT
- Développement de DeepSeek-R1-Zero, démontrant des capacités telles que l'auto-vérification et la réflexion.
- Première recherche ouverte validant le fait que les capacités de raisonnement peuvent être encouragées uniquement par le biais de la RL
- Introduction d'un pipeline pour DeepSeek-R1 avec deux étages RL et deux étages SFT
Distillation : Renforcer les petits modèles
- Démonstration que les schémas de raisonnement des grands modèles peuvent être efficacement distillés dans des modèles plus petits.
- Le DeepSeek-R1 et son API en libre accès au profit de la communauté des chercheurs
- Mise au point de plusieurs modèles denses présentant des performances exceptionnelles en matière de benchmarking
- Les modèles distillés sont nettement plus performants que les précédents modèles à source ouverte.
Résultats de l'évaluation
Tâches de raisonnement
- DeepSeek-R1 atteint 79,8% Pass@1 sur AIME 2024, surpassant OpenAI-o1-1217
- 97.3% score sur MATH-500, performance équivalente à OpenAI-o1-1217
- Performance de niveau expert dans les tâches de compétition de code avec une note Elo de 2 029 sur Codeforces
Tâches de connaissance
- Résultats exceptionnels sur MMLU (90.8%), MMLU-Pro (84.0%), et GPQA Diamond (71.5%)
- Surpasse les autres modèles à source fermée dans les tâches éducatives
- De bonnes performances sur des critères factuels tels que SimpleQA
Capacités générales
- Exceller dans la rédaction créative, la réponse aux questions, l'édition et la synthèse.
- 87.6% win-rate sur AlpacaEval 2.0 et 92.3% sur ArenaHard
- De bonnes performances dans les tâches de compréhension de contextes longs
Travaux futurs
L'équipe prévoit de se concentrer sur :
- Amélioration des capacités générales dans des domaines tels que l'appel de fonction et le jeu de rôle complexe
- Traiter les problèmes de mélange de langues
- Améliorer l'ingénierie d'incitation
- Améliorer les performances dans les tâches de génie logiciel
Conclusion
DeepSeek-R1 représente une avancée significative dans les capacités de raisonnement de l'IA grâce à l'apprentissage par renforcement. Le succès du modèle principal et de ses versions distillées démontre le potentiel de cette approche pour développer des systèmes d'IA plus performants. La publication de ces modèles en code source libre contribuera à la poursuite de la recherche et du développement dans ce domaine.