Le secret derrière DeepSeek 1 | DeepSeekMath et les détails du GRPO
Aujourd'hui, j'aimerais partager un article de DeepSeek, intitulé DeepSeekMath : repousser les limites du raisonnement mathématique dans les modèles de langage ouvert. Cet article présente DeepSeekMath 7B, qui est pré-entraîné sur DeepSeek-Coder-Base-v1.5 7B basé sur une collection de 120 B de jetons liés aux mathématiques, de langage naturel et de données de code. Le modèle a obtenu un score étonnant de 51,71 TP11T au niveau compétitif…