Aujourd'hui, j'aimerais partager un article de DeepSeek, intitulé DeepSeekMath : repousser les limites du raisonnement mathématique dans les modèles de langage ouverts.
Cet article présente DeepSeekMath 7B, qui est pré-entraîné sur DeepSeek-Coder-Base-v1.5 7B basé sur une collection de 120 milliards de jetons liés aux mathématiques, au langage naturel et aux données de code.
Le modèle a obtenu un score étonnant de 51,7% dans les tests MATH de niveau compétitif sans s'appuyer sur des boîtes à outils externes et des techniques de vote, approchant le niveau de performance de Gemini-Ultra et GPT-4.
La capacité de raisonnement mathématique de DeepSeekMath 7B est attribuée à deux facteurs clés : Tout d'abord, grâce à une pipeline de sélection de données soigneusement conçu, des données mathématiques de haute qualité sont extraites de manière itérative à partir de données Web accessibles au public.
Deuxièmement, l’optimisation relative des politiques de groupe (GRPO) est introduit, qui est une variante de l'optimisation des politiques proximales (PPO) qui peut améliorer la capacité de raisonnement mathématique tout en optimisant l'utilisation de la mémoire de PPO.
- Les caractéristiques de la méthode sont résumées comme suit :Un corpus de pré-formation mathématique de haute qualité a été construit et un pipeline soigneusement conçu a été utilisé pour extraire des données mathématiques de haute qualité de Common Crawl.
- L'algorithme GRPO a été proposé, ce qui réduit les ressources nécessaires à la formation et améliore la capacité de raisonnement mathématique du modèle. Des performances à la pointe de la technologie était obtenu dans plusieurs tests de référence de raisonnement mathématique.
Aperçu
Titre: DeepSeekMath : repousser les limites du raisonnement mathématique dans les modèles de langage ouverts
URL: Cliquez ici
Auteurs: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y. Wu, Daya Guo
Code: Cliquez ici
Motivation
Le raisonnement mathématique pose un défi important aux modèles linguistiques en raison de la complexité et de la nature structurée des mathématiques. Les modèles les plus avancés, tels que GPT-4 et Gemini-Ultra, sont puissants mais ne sont pas accessibles au public. Par conséquent, il existe une marge d'amélioration significative dans les performances de modèles open source.
Complexité et structure : Le raisonnement mathématique pose un défi important aux modèles linguistiques en raison de la complexité et de la nature structurée des mathématiques.
Potentiel des données publiques : Les données Web accessibles au public peuvent contenir de riches informations mathématiques qui n’ont pas encore été exploitées et utilisées.
Méthodes
Collecte de données : Un corpus DeepSeekMath de 120 B de jetons a été construit en collectant des données Web de haute qualité liées aux mathématiques à partir de Common Crawl via un pipeline itératif.
Formation du modèle : Le corpus a été utilisé pour la pré-formation sur DeepSeek-Coder-Base-v1.5 7B, et l'algorithme de réglage fin des instructions mathématiques et d'optimisation des politiques relatives au groupe (GRPO) a été appliqué.
Algorithme GRPO : GRPO est un algorithme d'apprentissage par renforcement amélioré qui supprime le modèle critique dans PPO et estime la ligne de base à partir du score du groupe, réduisant ainsi considérablement les ressources de formation.
Méthodes et procédures détaillées :
Collecte et traitement des données :

Créer le corpus DeepSeekMath : En utilisant un classificateur basé sur fastText, extraire 120 B de jetons liés aux mathématiques de Common Crawl pour construire un corpus pré-entraîné à grande échelle et de haute qualité, DeepSeekMath Corpus.
Filtrage itératif des données : Une stratégie itérative est utilisée, en utilisant OpenWebMath comme données de départ pour former un classificateur initial, puis en utilisant ce classificateur pour extraire des exemples plus positifs de Common Crawl, qui sont annotés manuellement pour optimiser en permanence les performances du classificateur.
Fonctionnalités multilingues : Le corpus DeepSeekMath contient données multilingues, ce qui améliore les performances du modèle sur les critères mathématiques chinois.
Traitement de dépollution : De-le traitement de la pollution est effectué sur les données d'entraînement pour éviter le chevauchement avec le benchmark de test.
Pré-formation :
Initialisation du modèle basée sur le code : Initialisation à l'aide de la DeepSeek-Coder-Base-v1.5 7B Le modèle s'est avéré plus efficace que l'initialisation à partir d'un LLM général.
Composition des données de pré-formation : 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% Github code, 10% Common Crawl données en langage naturel.
Paramètres de pré-entraînement : L'optimiseur AdamW est utilisé, avec un taux d'apprentissage de 4,2e-4, une taille de lot de 10 M de jetons et une formation de 500 B de jetons.
Ajustement précis des instructions :
Construire un ensemble de données de réglage fin des instructions : Construire un ensemble de données de réglage fin d'instructions mathématiques contenant 776 000 échantillons, couvrant une variété de domaines mathématiques et de niveaux de difficulté, y compris CoT, PoT et des formats d'inférence intégrés aux outils pour résoudre les étapes.
Paramètres d'entraînement : Taille du lot 256, taux d'apprentissage 5e-5, entraînement pendant 500 étapes.
Apprentissage par renforcement – Optimisation des politiques relatives au groupe (GRPO) :
Proposer un algorithme GRPO : Proposer une Algorithme de variante PPO GRPO, qui évite le recours à un modèle critique en utilisant des scores par groupe pour estimer la ligne de base, réduisant ainsi les ressources de formation.
Fonction objectif : GRPO optimise le modèle de politique en maximisant une fonction objective qui prend en compte l'avantage relatif des sorties intra-groupe et ajoute directement la divergence KL comme terme de régularisation.
Calcul de l'avantage : GRPO calcule l'avantage grâce à récompenses relatives au sein du groupe, évitant les comparaisons entre groupes et se conformant mieux à la nature comparative du modèle de récompense.
Prend en charge à la fois le suivi des résultats et des processus : GRPO peut prendre en charge à la fois le suivi des résultats et des processus, et surveiller plus efficacement la politique en fournissant des récompenses à la fin de chaque étape d’inférence.
RL itératif : Utilise un stratégie RL itérative pour générer un nouvel ensemble de formation basé sur les résultats d'échantillonnage du modèle de politique, former en continu l'ancien modèle de récompense et utiliser le nouveau modèle de récompense pour mettre à jour le modèle de politique.
Données de formation : Utilise les problèmes de format CoT liés à GSM8K et MATH dans les données SFT, environ 144 000 problèmes.
Paramètres d'entraînement : Le taux d'apprentissage du modèle de politique est de 1e-6, le coefficient KL est de 0,04, 64 sorties sont échantillonnées pour chaque problème, la longueur maximale est de 1024 et la taille du lot de formation est de 1024.
Conclusion

Conclusion 1 :DeepSeekMath 7B surpasse tous les modèles open source en termes de capacité de raisonnement mathématique. Lors du test de référence compétitif MATH, DeepSeekMath 7B a atteint une précision de 51,7%, ce qui est proche du niveau de performance de Gemini-Ultra et GPT-4.
Conclusion 2 :Des données de pré-formation et des algorithmes GRPO bien conçus sont essentiels au succès du modèle. La combinaison d'un corpus mathématique de haute qualité et d'algorithmes GRPO permet au modèle de réaliser des gains de performance significatifs dans les tâches de raisonnement mathématique.
Conclusion 3 :La formation au code aide à améliorer la capacité de raisonnement mathématique. L'ajout de données de code à l'étape de pré-formation peut améliorer la capacité du modèle à résoudre des problèmes mathématiques, avec et sans outils.
Conclusion 4 : Utilité limitée des données arXiv : Contrairement aux idées reçues, les données d’arXiv se sont révélées d’une aide limitée pour améliorer le raisonnement mathématique.
Limitation
Les capacités de géométrie et de preuve sont relativement faibles : Bien que DeepSeekMath excelle dans le raisonnement quantitatif, ses capacités en géométrie et en preuve restent inférieures à celles des modèles à source fermée. Cela peut être dû à la sélection biaisée des données lors des étapes de pré-entraînement et de réglage fin.
Faiblesse de la petite capacité d'échantillonnage : DeepSeekMath est inférieur à GPT-4 en termes d’apprentissage sur petits échantillons, ce qui peut être dû à la limitation de la taille du modèle.
Des méthodes d’apprentissage par renforcement plus efficaces sont nécessaires : Bien que les méthodes d’apprentissage par renforcement proposées dans l’article soient efficaces, il existe encore une marge d’amélioration, par exemple, comment utiliser plus efficacement le retour d’information du modèle de récompense et comment gérer les signaux de récompense bruyants.
Détails
Exploration et analyse de l'apprentissage par renforcement
Aperçu:
Introduction à l'optimisation des politiques relatives aux groupes (GRPO) : L'article propose un nouvel algorithme d'apprentissage par renforcement, GRPO, comme variante de l'optimisation de politique proximale (PPO). La principale caractéristique de GRPO est qu'il abandonne le modèle Critic couramment utilisé dans PPO et estime la ligne de base via les scores de groupe, réduisant ainsi considérablement les ressources informatiques requises pour la formation.
Démonstration de l’efficacité du GRPO : L'article démontre expérimentalement que GRPO peut améliorer efficacement les performances des modèles de réglage fin des commandes, y compris les tâches mathématiques dans le domaine et hors domaine.
Cadre unifié pour les méthodes d’apprentissage par renforcement : L'article propose un cadre unifié pour comprendre différentes méthodes d'apprentissage par renforcement, telles que Réglage fin de l'échantillonnage par rejet (RFT), optimisation des préférences directes (DPO), PPO et GRPOLe cadre traite ces méthodes comme des techniques d’apprentissage par renforcement directes ou simplifiées.
Exploration approfondie des éléments de l’apprentissage par renforcement : Le document explore en profondeur éléments clés de l'apprentissage par renforcement, tels que la formation en ligne et hors ligne, la supervision des résultats et la supervision des processus, l'apprentissage par renforcement à tour unique et l'apprentissage par renforcement itératif, à travers des expériences détaillées, et résume les orientations potentielles pour améliorer l’efficacité de l’apprentissage par renforcement.
Algorithme GRPO (Group Relative Policy Optimization)

Limites de OPP: PPO est un algorithme d'apprentissage par renforcement couramment utilisé, mais il nécessite la formation d'un modèle critique supplémentaire pour estimer la fonction de valeur, qui impose une charge de calcul et de mémoire supplémentaire. De plus, dans le scénario LLM, La formation du modèle critique peut être compliquée car elle nécessite une évaluation la sortie de chaque jeton.
Idée centrale du GRPO : L’idée principale du GRPO est de abandonner le modèle critique et utiliser à la place le score moyen d'un ensemble de résultats pour le même problème comme base de référence. Cette base de référence peut être utilisée pour estimer la fonction d'avantage et pour l'optimisation des politiquesCette approche réduit considérablement la complexité de la formation.
Calcul de la fonction d'avantage : GRPO calcule la fonction d'avantage en calculer le classement relatif de chaque sortie dans le même ensemble de sorties, plutôt que de s'appuyer sur une fonction de valeur distincte comme dans PPO.
Pénalité de divergence KL : GRPO n'ajoute pas de pénalité de divergence KL à la récompense comme le PPO, mais ajoute plutôt la divergence KL entre le modèle de politique et le modèle de référence directement à la fonction de perte. Cela évite le calcul complexe de la fonction d'avantage.
L'idée centrale du GRPO
ne nécessite pas de critique (fonction de valeur) : GRPO évite le besoin d'une fonction de valeur et utilise le score intra-groupe pour estimer la ligne de base, réduisant ainsi les ressources de formation.
Avantage relatif intra-groupe : Pour chaque problème q, GRPO échantillonne un ensemble de sorties {o(1), o(2), …, o(G)} de l'ancienne politique π(θold) puis optimise le modèle de politique en maximisant l'équation suivante comme fonction objective.

Spécifiquement:

La clé ici est Â(i,t), qui représente l'avantage et est calculé par le récompense relative de la production intra-groupe, plutôt que de s'appuyer sur une fonction de valeur distincte comme dans PPO.

La fonction objective ajoute également directement Divergence KL comme terme de régularisation pour contrôler l'ampleur de Mises à jour des politiques

et s'alignent sur la nature comparative du modèle de récompense : GRPO utilise la récompense intragroupe relative pour calculer l’avantage, ce qui est plus cohérent avec la nature du modèle de récompense, qui est généralement formé sur la base d’une comparaison par paires.
Comment le modèle de récompense du GRPO peut-il être conçu (se référer à DeepSeek R1) ?
Caractéristiques:
format récompense : force la génération de longs lit bébé résultats, qui peuvent pousser le modèle à générer des processus d’inférence et à améliorer l’effet d’inférence du modèle.
récompense de précision : les mathématiques peuvent utiliser le résultat final, et le code peut utiliser les commentaires du compilateur.
Avantages du GRPO
Empreinte mémoire réduite : aucun modèle critique requis, ce qui réduit les besoins en mémoire.
Une formation plus efficace : le calcul utilisant l'avantage relatif intra-groupe simplifie le processus de formation.
Plus compatible avec la nature des modèles de récompense : améliore la stabilité et l'efficacité de l'entraînement.
Résumé du paradigme unifié RL
Paradigme unifié proposé
Les auteurs proposent un paradigme unifié pour comprendre différentes méthodes de formation telles que SFT (Supervised Fine-tuning), RFT (Rejection Sampling Fine-tuning), DPO (Direct Preference Optimization), PPO, GRPO, etc. Éléments clés de RL : Les éléments clés du cadre unifié comprennent : les sources de données, les fonctions de récompense et les algorithmes.
- Source des données : Cela fait référence aux données utilisées pour la formation, qui peuvent être dérivées de l'étiquetage manuel, des modèles SFT ou des modèles de politique en temps réel.
- Fonction de récompense : Cela fait référence à la fonction utilisée pour évaluer la qualité de la sortie, qui peut être une règle ou un modèle.
- Algorithme: Cela fait référence à la méthode utilisée pour traiter les données et le signal de récompense et mettre à jour les paramètres du modèle.
Analyse de différentes méthodes basées sur un paradigme unifié
Le tableau 10 résume les similitudes et les différences entre SFT, RFT, DPO, Online RFT, PPO et GRPO en termes de sources de données, de fonctions de récompense et de coefficients de gradient.
Méthode | Données de formation | Fonction de récompense | Coefficient de gradient | Méthode de formation | Avantages/caractéristiques | Scénarios applicables |
SFT | Données SFT étiquetées manuellement | Sélectionné manuellement (récompense implicite) | Fixé à 1 | Apprentissage supervisé | Simple et stable, s'appuyant sur des données étiquetées de haute qualité | Entraînement du modèle de base, tâche d'alignement initiale |
Demande de propositions | Problème de jeu de données SFT + Exemple de sortie du modèle SFT | Basé sur l'exactitude de la réponse (jugement de règle) | 0 (faux) ou 1 (correct) | Optimisation des politiques hors ligne | Calcul efficace, utilisation directe du retour de règles | Tâches mathématiques/logiques avec des règles claires |
Délégué à la protection des données | Problème de jeu de données SFT + sortie du modèle vers | Étiquetage des préférences humaines ou comparaison de règles | Basé sur le calcul de probabilité de préférence (par exemple, modèle Bradley-Terry) | Apprentissage par comparaison | Évite la modélisation explicite des récompenses, optimisant directement les préférences | Tâches d'alignement des préférences humaines (par exemple, génération de dialogue) |
Demande de propositions en ligne | Échantillonnage de modèles de politiques en temps réel paires problème-résultat | Basé sur l'exactitude de la réponse (jugement de règle) | 0 (faux) ou 1 (correct) | Optimisation des politiques en ligne | Mise à jour dynamique des politiques avec optimisation des commentaires en temps réel | Scénarios nécessitant une interaction en ligne (par exemple, l'IA du jeu) |
PPO | Problème de jeu de données SFT + Échantillonnage du modèle de politique | Modèle de récompense (RM) formé | Fonction de dominance (basée sur l'estimation de la récompense) | Méthode du gradient de politique | Efficace et stable, prend en charge l'optimisation en plusieurs étapes | Tâches complexes (par exemple génération de texte, contrôle de robot) |
GRPO | Problème d'ensemble de données SFT + sortie d'échantillonnage du modèle de politique | Modèle de récompense (RM) formé | Récompense relative intra-groupe (comparaison normalisée) | Optimisation des politiques de groupe | Réduisez la variance des récompenses et améliorez la comparaison intra-groupe | Tâches à forte variance (par exemple, génération de texte long) |
Observations sur les sources de données

Formation en ligne ou hors ligne : La formation en ligne fait référence à l'utilisation de la sortie du modèle de politique en temps réel comme données de formation, tandis que la formation hors ligne fait référence à l'utilisation de la sortie d'un modèle fixe (tel que le modèle SFT) comme données de formation. Les résultats expérimentaux montrent que la formation en ligne est généralement meilleure que la formation hors ligne.
Supervision des résultats vs supervision des processus : La supervision des résultats consiste à récompenser uniquement l'étape finale du résultat, tandis que la supervision du processus consiste à récompenser chaque étape du processus de raisonnement. Les résultats expérimentaux montrent que la supervision des processus est plus efficace dans les tâches complexes.
Apprentissage par renforcement par épisode unique ou par renforcement itératif : L'apprentissage par renforcement à épisode unique fait référence à une optimisation de stratégie unique, tandis que l'apprentissage par renforcement itératif fait référence à la mise à jour continue du modèle de récompense après plusieurs optimisations de stratégie. Les résultats expérimentaux montrent que L'apprentissage par renforcement itératif peut améliorer considérablement les performances, en particulier lors de la première itération.
Observation des coefficients de gradient
Basé sur des règles ou basé sur des modèles : La règle fait référence à la détermination de la récompense en fonction de l'exactitude de la réponse, et le modèle fait référence à la formation d'un modèle de récompense pour noter.
Différence dans les coefficients de gradient : La principale différence entre GRPO et Le RFT en ligne est que GRPO ajuste ses coefficients de gradient en fonction des valeurs de récompense fournies par le modèle de récompense, alors que le RFT en ligne ne le fait pas.
Avantages GRPO : Les expériences montrent que GRPO est supérieur à Online RFT, démontrant l'efficacité du changement du signe des coefficients de gradient. GRPO+PS est supérieur à GRPO+OS, démontrant les avantages de l'utilisation de coefficients de gradient à granularité fine et sensibles aux étapes.
Efficacité du RL et pistes d'amélioration
Pourquoi RL est-il efficace ?

Résultats expérimentaux : RL améliore les performances de Maj@K mais pas celles de Pass@K.
Explication: RL améliore les performances globales du modèle en rendant la distribution de sortie plus robuste, c'est-à-dire qu'il améliore la probabilité de réponses correctes dans TopK, plutôt que d'améliorer la capacité sous-jacente du modèle.
Comment peut-on parvenir à un RL plus efficace ?
Sur la base du paradigme unifié, les auteurs proposent des orientations futures pour améliorer le RL dans trois aspects : les sources de données, les algorithmes et les fonctions de récompense.
- Sources des données :
- Explorez les problèmes au-delà de l’étape SFT.
- Utilisez des stratégies d’échantillonnage (décodage) plus avancées, telles que les méthodes basées sur la recherche d’arbres.
- Utiliser des techniques d’inférence efficaces pour améliorer l’efficacité de l’exploration du modèle de politique.
- Algorithme:
- Découvrez des algorithmes d’apprentissage par renforcement plus robustes aux signaux de récompense bruyants.
- Étudiez les méthodes d’alignement de type FAIBLE À FORT.
- Fonction de récompense :
- Améliorez la capacité de généralisation du modèle de récompense pour gérer les problèmes hors distribution et les sorties décodées avancées.
- Reflétez l’incertitude du modèle de récompense et utilisez-le comme pont pour connecter les modèles de récompense faibles et les algorithmes d’apprentissage FAIBLES À FORT.
- Construisez efficacement des modèles de récompense de processus de haute qualité pour fournir des signaux de formation précis pour le processus d'inférence.
Résumé
DeepSeekMath a considérablement amélioré la capacité des modèles de langage open source dans le raisonnement mathématique en construisant un corpus mathématique à grande échelle et en proposant un nouvel algorithme d'apprentissage par renforcement. Les points saillants de cet article sont les suivants :
- la construction et la validation du corpus DeepSeekMath, un corpus mathématique multilingue de grande envergure et de qualité.
- Un algorithme d'apprentissage par renforcement efficace, GRPO, est proposé pour réduire l'utilisation de la mémoire tout en améliorant la capacité de raisonnement mathématique du modèle.
- L'impact de l'apprentissage du code sur la capacité de raisonnement mathématique est discuté en profondeur et il s'avère que les données arXiv ont un effet limité. La valeur de DeepSeekMath :
- Il fournit à la communauté open source un puissant modèle de raisonnement mathématique et favorise le développement de l’IA mathématique.
- Il fournit une expérience et des méthodes précieuses pour la construction de corpus mathématiques et la formation de modèles de raisonnement mathématique.
- L’algorithme GRPO proposé fournit de nouvelles idées pour la formation à l’apprentissage par renforcement dans d’autres domaines.