Aujourd'hui, nous allons partager DeepSeek R1, Titre : DeepSeek-R1 : Encourager la capacité de raisonnement dans les LLM via l'apprentissage par renforcement : Encourager la capacité de raisonnement des LLM via l'apprentissage par renforcement.

Cet article présente la première génération de modèles de raisonnement de DeepSeek, DeepSeek-R1-Zero et DeepSeek-R1Le modèle DeepSeek-R1-Zero a été formé via apprentissage par renforcement à grande échelle (RL) sans réglage fin supervisé (SFT) comme première étape, démontrant le potentiel du RL et les capacités de raisonnement supérieures il apporte. Grâce à l'apprentissage par renforcement, DeepSeek-R1-Zero est apparu naturellement avec de nombreux comportements de raisonnement puissants et intéressantsPour optimiser davantage certains des problèmes avec R1-Zero (confusions linguistiques, capacité de généralisation améliorée), ils ont publié DeepSeek-R1, qui combine une formation en plusieurs étapes et un réglage fin des données de démarrage à froid avant l'apprentissage par renforcement. DeepSeek-R1 a obtenu des performances comparables sur la tâche de raisonnement avec OpenAI-01-1217. Pour soutenir la communauté de recherche, ils ont DeepSeek-R1-Zero, DeepSeek-R1 et six modèles denses (1,5B, 7B, 8B, 14B, 32B, 70B) open source dérivés de DeepSeek-R1, qui sont basés sur Qwen et Llama.

Les caractéristiques de la méthode se résument comme suit :

  1. L'apprentissage par renforcement est appliqué directement au modèle de base, sans s’appuyer sur un réglage fin supervisé (SFT) comme étape initiale.
  2. Le processus de développement DeepSeek-R1 est introduit, ce qui combine deux phases d'apprentissage par renforcement et deux phases de réglage fin supervisées pour jeter les bases des capacités de raisonnement et de non-raisonnement du modèle.
  3. Les performances des petits modèles sur les tâches de raisonnement sont améliorées en transférant les modèles de raisonnement des grands modèles aux petits modèles via techniques de distillation.

Aperçu

Motivation

  • Les grands modèles linguistiques (LLM) actuels ont réalisé des progrès significatifs dans les tâches d'inférence, mais sont toujours confrontés à des défis.
  • Le potentiel du pur L'apprentissage par renforcement (RL) dans l'amélioration de la capacité de raisonnement des LLM n'a pas été entièrement exploré, surtout sans s’appuyer sur des données supervisées.
  • Modèles formés par RL, tels que DeepSeek-R1-Zero, présente des problèmes de lisibilité et de mélange de langues (par exemple, parler chinois et anglais mélangés) et nécessite des améliorations supplémentaires pour améliorer la convivialité.

Méthodes

DeepSeek-R1-Zéro : Utilise DeepSeek-V3-Base comme modèle de base et GRPO (Group Relative Policy Optimization) comme apprentissage par renforcement cadre, sans données supervisées pour améliorer les performances du modèle en inférence.

DeepSeek-R1:

  • Démarrage à froid : Collecte une petite quantité de données CoT (Chaîne de Pensée) longues et de haute qualité et affine les DeepSeek-V3-Modèle de base en tant qu’acteur initial de l’apprentissage par renforcement.
  • Apprentissage par renforcement axé sur le raisonnement : Le même processus de formation par apprentissage par renforcement tel que DeepSeek-R1-Zero est appliqué, mais en mettant l'accent sur l'amélioration des capacités de raisonnement du modèle dans des domaines tels que le codage, les mathématiques, les sciences et le raisonnement logique. Des récompenses de cohérence linguistique sont introduites pour atténuer le problème de mélange linguistique qui se produit dans CoT.
  • Échantillonnage de rejet et réglage fin supervisé : Utilise le point de contrôle convergé de l'apprentissage par renforcement pour collecter des données de réglage fin supervisé (SFT) pour une formation ultérieure.
  • Apprentissage par renforcement pour tous les scénarios : met en œuvre une phase d'apprentissage par renforcement de deuxième niveau, qui vise à améliorer la l'utilité et l'innocuité du modèle tout en optimisant sa capacité de raisonnement.
  • Distillation des connaissances : Affinez les modèles open source Qwen et Llama directement en utilisant les 800 000 échantillons organisés par DeepSeek-R1.

Méthodes et procédures détaillées :

DeepSeek-R1-Zero : Apprentissage par renforcement pour les modèles de base

  • Algorithme d'apprentissage par renforcement : Utilise l'algorithme d'optimisation de politique relative de groupe (GRPO), qui ne nécessite pas de critique modèle, estime la ligne de base par scores de groupe et réduit les coûts de formation.
  • Modélisation de la récompense : Utilise un système de récompense basé sur des règles, y compris
  • récompense de précision : Évalue si la réponse est correcte, comme l'exactitude du résultat final de l' réponse au problème de mathématiques, le retour du compilateur pour les problèmes de code.
  • Format de récompense : Encourage le modèle à placer le processus de réflexion entre et Mots clés.

Modèle de formation : Un modèle contenant et Les balises sont conçues pour guider le modèle pour générer d'abord le processus de réflexion, puis la réponse finale.

  • Processus auto-évolutif : DeepSeek-R1-Zero en démonstration des caractéristiques auto-évolutives au cours de la formation et a été capable d'apprendre de manière autonome des stratégies de raisonnement plus complexes, telles que la réflexion et l'exploration de multiples chemins de résolution de problèmes.

DeepSeek-R1 : Apprentissage par renforcement combiné au démarrage à froid

  • Démarrage à froid : Pour résoudre DeepSeek-R1-Zero problème de lisibilité, DeepSeek-R1 collecte d'abord une petite quantité de données CoT de haute qualité et affine le modèle DeepSeek-V3-Base pour servir d'acteur initial pour l'apprentissage par renforcement. Les données de démarrage à froid contient des balises récapitulatives et des réponses hostiles sont filtrés.
    • Méthode : 1) Sélectionnez des données Long COT de haute qualité. 2) Ajoutez des balises.
    • Avantages : 1) Lisibilité optimisée (résout le problème multilingue de R1-Zero ou le problème du format Markdown). 2) Des données soigneusement sélectionnées et préférées des humains peuvent continuer à améliorer les performances sur R1-Zero.
    • Question : Pourquoi résoudre le problème de lisibilité ? N'est-il pas possible de faire mieux sans le résoudre (par exemple, réduire la longueur de la sortie et déduire plus efficacement) ?
  • RL orienté raisonnement : Basé sur le modèle de démarrage à froid, un processus d'apprentissage par renforcement similaire à DeepSeek-R1-Zero est appliqué, en se concentrant sur l'amélioration de la capacité du modèle dans des tâches telles que le codage, les mathématiques, le raisonnement scientifique et logique. Pour résoudre le problème des langues mixtes (Raisonnement multilingue), récompenses pour la cohérence linguistique sont introduits.
    • Question : Comment les tâches et les ensembles de données de raisonnement scientifique et logique sont-ils entraînés ?
  • Échantillonnage de rejet et SFT : Une fois que l’apprentissage par renforcement guidé par inférence converge, le point de contrôle obtenu est utilisé pour échantillonnage de rejet pour générer de nouvelles données SFT, qui sont combinées avec les données de DeepSeek-V3 pour améliorer les capacités du modèle en matière d'écriture, de jeu de rôle et de tâches générales.
    • But:
      • Cette phase est initiée après la Le processus d'apprentissage par renforcement (RL) orienté vers l'inférence converge.
      • L’objectif principal est de collecter des données de réglage fin supervisé (SFT) pour une utilisation lors des cycles de formation ultérieurs.
      • Contrairement aux données initiales de démarrage à froid, qui se concentrent uniquement sur l'inférence, cette phase vise à étendre les capacités du modèle pour couvrir l'écriture, le jeu de rôle et d'autres tâches à usage général, pas seulement l'inférence.
    • Collecte de données – Données d’inférence :
      • Méthode: Utilisez les points de contrôle obtenus à partir de la phase RL orientée inférence pour générer des trajectoires d’inférence par échantillonnage de rejet.
      • Extension de l'ensemble de données : Contrairement à la phase RL précédente, qui utilisait uniquement des données de récompense basées sur des règles, des données de récompense non basées sur des règles sont introduites ici. Dans certains cas, un modèle de récompense génératif (DeepSeek-V3) est utilisé pour déterminer la réponse.
      • Filtrage des données : Pour garantir la qualité et la lisibilité, la sortie est filtrée pour supprimer :
        • chaînes de pensée contenant des langages mixtes
        • longs paragraphes
        • blocs de code
      • Échantillonnage et sélection : Pour chaque question, plusieurs réponses ont été générées. Seule la réponse « correcte » a été retenue pour l’ensemble des données.
      • Taille du jeu de données : Environ 600 000 échantillons de formation liés à l'inférence ont été collectées de cette manière.
    • Collecte de données – données non inférentielles :
      • Sujets abordés : Rédaction, réponses à des questions factuelles (AQ), conscience de soi et traduction.
      • Le document mentionne l’utilisation de Le processus DeepSeek-V3 réutilise une partie de l'ensemble de données SFT DeepSeek-V3 pour gérer ces tâches de non-inférence. 200 000 échantillons indépendants de l'inférence ont été collectés. (Remarque : les détails de la collecte des données non inférentielles sont décrits plus en détail dans la section 2.3.4)
    • Utilisation des données collectées :
      • Les données de raisonnement et de non-raisonnement collectées (un total d’environ 800 000 échantillons – 600 000 échantillons de raisonnement + 200 000 échantillons de non-raisonnement) ont ensuite été utilisées pour affiner le modèle DeepSeek-V3-Base pour deux époquesCe modèle affiné a ensuite été utilisé dans la phase RL finale décrite dans la section 2.3.4.
    • Résumé Cette étape utilise les capacités d'inférence appris par RL à générer un ensemble de données SFT diversifié et de haute qualité. Cet ensemble de données renforce les capacités d'inférence et étend également les capacités générales de le modèle de formation en phase finale d'alignement et d'amélioration.
  • Apprentissage par renforcement pour tous les scénarios : pour aligner davantage les préférences humaines, une deuxième phase d'apprentissage par renforcement est mise en œuvre pour améliorer l'utilité et l'innocuité du modèle.
    • Données d'inférence : par exemple mathématiques, code, inférence logique ou supervisées avec des méthodes basées sur des règles.
    • Données générales : les modèles de récompense sont toujours utilisés pour fournir des informations sur les préférences dans des scénarios complexes et subtils. Les modèles formés avec des données par paires sont également estimés.
    • Utilité : se concentrer uniquement sur les résultats du résumé final, réduisant ainsi les interférences avec le processus d'inférence.
    • Innocuité : superviser l’ensemble de l’intervention pour réduire les risques.

Distillation modèle (Distillation) :

  • Afin d'obtenir un modèle d'inférence plus efficace, l'article distille la capacité d'inférence de DeepSeek-R1 dans les modèles open source des séries Qwen et Llama. Le processus de distillation utilise uniquement le réglage fin supervisé (SFT) et n’utilise pas l’étape d’apprentissage par renforcement.

Conclusion

DeepSeek-R1-Zero: Démontre le potentiel de l'apprentissage par renforcement pur pour motiver la capacité d'inférence LLM et peut atteindre de solides performances sans s'appuyer sur des données supervisées.

  • Moment « aha » : La beauté de l'apprentissage par renforcement (le moment d'illumination du modèle, où il alloue plus de temps de réflexion à un problème en apprenant à réévaluer l'approche initiale)
  • La longueur de sortie continue d'augmenter (le temps de réflexion continue d'augmenter)
  • La précision continue de s'améliorer (échantillonnage de 16 réponses pour calculer la précision)
  • DeepSeek-R1: Améliore encore les performances du modèle en combinant les données de démarrage à froid et le réglage fin de l'apprentissage par renforcement itératif, atteindre un niveau comparable à OpenAI-01-1217 sur diverses tâches.
  • Distillation des connaissances:En utilisant DeepSeek-R1 comme modèle d'enseignement, 800 000 échantillons d'entraînement ont été générés et plusieurs petits modèles denses ont été affinés. Les résultats montrent que cela La méthode de distillation peut améliorer considérablement la capacité d'inférence de petits modèles.

Limitation

  • Limitation 1 : La capacité générale du DeepSeek-R1 doit être améliorée. Le DeepSeek-R1 est toujours inférieur au DeepSeek-V3 dans des tâches telles que les appels de fonctions, le dialogue multi-tours, les jeux de rôle complexes et la sortie JSON.
  • Limite 2 : Problème de mélange de langues. DeepSeek-R1 peut rencontrer un problème de mélange de langues lors du traitement de requêtes non chinoises et non anglaises, par exemple, lors du raisonnement et de la réponse en anglais.
  • Limitation 3 : Sensibilité rapide. Le DeepSeek-R1 est sensible aux mots rapides, et quelques invites réduiront ses performances.
  • Limitation 4 : Application limitée aux tâches d’ingénierie logicielle. En raison du long temps d’évaluation, l’apprentissage par renforcement à grande échelle n’a pas été entièrement appliqué aux tâches d’ingénierie logicielle, et DeepSeek-R1 présente une amélioration limitée par rapport à DeepSeek-V3 dans les tests de référence d’ingénierie logicielle.

A lire également

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *