1 Contexte

Pendant la fête du printemps, DeepSeek R1 a de nouveau attiré une large attention, et même l'article d'interprétation DeepSeek V3 que nous avons écrit précédemment a également été retransmis et beaucoup discuté.

Bien qu'il existe de nombreuses analyses et reproductions de DeepSeek R1, nous avons décidé ici de compiler quelques notes de lecture correspondantes.

Nous utiliserons trois schémas de base pour démontrer la construction du modèle et les points techniques clés, distillant l'essence de la série DeepSeek-R1 pour fournir une compréhension plus intuitive de ses idées de conception.

Le document correspondant est [2501.12948] DeepSeek-R1 : Encourager la capacité de raisonnement dans les LLM via l'apprentissage par renforcement

et le modèle open source correspondant est DeepSeek-R1

2 Introduction

2.1 Algorithmes de raisonnement courants

Comme le montre la figure 2 ci-dessous, l'auteur explique les quatre algorithmes de raisonnement les plus courants. Bien qu'ils diffèrent sur certains points, ils incluent tous deux opérations principales :

  • Extension : générer des jetons pour étendre le chemin de la solution.
  • Agrégation : intégrer les résultats de chaque chemin pour obtenir la réponse finale. L'augmentation des ressources de calcul dans la phase d'expansion peut généralement améliorer la qualité de la réponse dans la phase d'agrégation.

Auto-cohérence (SC). Comme le montre la figure 2a, l'idée principale de la SC est de générer plusieurs sorties différentes (ce qui peut être obtenu en modifiant les paramètres d'échantillonnage, etc.), puis de voter pour toutes les réponses afin de sélectionner la réponse avec le taux de réussite le plus élevé. Le paramètre clé est le nombre de réponses candidates n.

Algorithme de rebase : comme le montre la figure 2b ci-dessous, Rebase génère également plusieurs sorties, mais elles sont générées en plusieurs étapes. Chaque étape est notée à l'aide du modèle de récompense, et le résultat avec le score le plus élevé est utilisé pour continuer la génération. Enfin, un arbre de raisonnement avec plusieurs branches est généré. La réponse avec le score le plus élevé (Best-of-N) est sélectionnée à l'étape d'agrégation.

Recherche d'arbre de Monte-Carlo (MCTS) : comme le montre la figure 2c ci-dessous, MCTS est un puissant algorithme de raisonnement qui étend les nœuds par échantillonnage progressif et construit un arbre de solutions jusqu'à ce qu'il atteigne un nœud feuille contenant une solution candidate. Chaque solution est notée via un modèle de récompense ou une simulation, et le score est propagé vers ses nœuds ancêtres pour mettre à jour leurs valeurs de récompense, complétant ainsi une itération. Le paramètre clé est également n, et l'augmentation de n permet une exploration plus approfondie et plus large des solutions potentielles.

Chaîne cognitive internalisée (ICoT). Comme le montre la figure 2d ci-dessous, les derniers LLM, tels qu'OpenAI o1 et Qwen-QWQ, peuvent internaliser le comportement de raisonnement pendant la formation sans avoir besoin d'un algorithme de raisonnement explicite. L'idée de base est de générer une séquence CoT, de décomposer des problèmes complexes en plusieurs sous-problèmes, puis d'optimiser ces réponses de manière itérative en réfléchissant aux résultats précédents pour finalement arriver à une solution.

2.2 Méthodes d'alignement du raisonnement

2.2.1 Présentation de la méthode Best-of-N

En bref, Best-of-N est une méthode d'alignement largement utilisée dans l'inférence LLM, qui vise à garantir la haute qualité des résultats générés en générant plusieurs réponses candidates et en sélectionnant la meilleure. Elle se compose de trois processus principaux :

  1. Processus de génération : Pour une invite X donnée, la méthode Best-of-N génère N réponses IID (Y₁, Y₂, …, Yₙ), où N est souvent appelé la « taille du lot ».
  2. Mécanisme de notation : Chaque réponse générée est notée par un modèle de récompense pour obtenir un score correspondant {s(Y₁), s(Y₂), …, s(Yₙ)}.
  3. Sélection de la meilleure réponse : Enfin, la réponse avec le score le plus élevé parmi toutes les réponses générées est sélectionnée comme sortie, c'est-à-dire Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}.

Les avantages de cette méthode sont :

  1. Il peut efficacement éviter les étapes de réglage complexes, ce qui facilite le déploiement de modèles de langage qui ont été pré-formés ou affinés avec des instructions.
  2. Il est simple à mettre en œuvre, facile à comprendre et essentiellement exempt d’hyperparamètres : l’hyperparamètre principal est N, qui peut être ajusté dynamiquement pendant l’inférence.
  3. Elle est très compétitive en termes de qualité de génération et peut même rivaliser avec certaines techniques de post-formation complexes telles que RLHF ou DPO. Les recherches montrent que la méthode Best-of-N fonctionne bien sur la courbe de compromis entre récompense et divergence KL, surpassant même d'autres stratégies d'alignement complexes.

Les inconvénients de cette méthode sont

  1. L'inférence nécessite la génération de N séquences, ce qui peut entraîner une surcharge de calcul importante. En pratique, une valeur raisonnable pour N varie de 4 à 128, mais afin de rivaliser avec les méthodes de post-formation les plus avancées, des valeurs N plus élevées peuvent être nécessaires, telles que 1000 à 60000, ce qui peut entraîner une surcharge de calcul presque inacceptable.

La méthode best-of-N est souvent utilisée pour générer des ensembles de données de haute qualité pour un réglage fin supervisé ultérieur et a joué un rôle clé dans le processus d'alignement de LLaMA-2 et LLaMA-3.

2.2.2 Méthode OpenAI Best-of-N

OpenAI a d'abord proposé l'échantillonnage Best-of-N dans [2009.01325] Apprendre à résumer à partir du feedback humain . Plus précisément, elle est utilisée pour évaluer et optimiser les performances du modèle de synthèse en sélectionnant le meilleur résumé généré à partir de plusieurs modèles. Cette méthode aide les chercheurs à mieux comprendre la relation entre les différentes mesures d'évaluation et les préférences des évaluateurs humains, et est utilisée pour guider la formation et l'optimisation du modèle.

OpenAI utilise également l'échantillonnage Best-of-N (échantillonnage de rejet) dans le suivi [2112.09332] WebGPT : Réponse aux questions assistée par navigateur avec retour humain. Plus précisément, un nombre fixe de réponses (4, 16 ou 64) sont échantillonnées à partir du modèle BC ou du modèle RL, et celle qui présente le score de modèle de récompense le plus élevé est sélectionnée comme méthode d'optimisation pour le modèle de récompense contradictoire. Cette méthode ne nécessite pas de formation supplémentaire, mais augmente la complexité de calcul de l'étape d'inférence pour y parvenir.

2.2.3 Méthode Google BOND

En [2407.14622] BOND : En alignant les LLM avec la distillation Best-of-N, les auteurs de Google proposent la distillation Best-of-N (BOND), un nouvel algorithme RLHF conçu pour simuler la stratégie d'échantillonnage Best-of-N via un algorithme de correspondance de distribution sans augmenter de manière significative la surcharge de calcul pendant l'inférence.

Plus précisément, l'auteur dérive d'abord la distribution analytique exacte de l'échantillonnage Best-of-N et donne la fonction de probabilité de l'échantillonnage Best-of-N :

Deuxièmement, les auteurs expriment le problème comme un problème de correspondance de distribution ;

ensuite, les auteurs proposent d'utiliser la divergence de Jeffreys comme objectif de correspondance de distribution :

Enfin, pour résoudre le problème de sélection de N, les auteurs proposent la méthode BOND itérative, qui améliore les performances de la stratégie en distillant de manière itérative la distribution Best-of-N. Les étapes spécifiques comprennent :

Initialiser la stratégie d'ancrage auxiliaire π(anchor).

Exécutez BOND de manière itérative pour distiller le Best-of-N π(ancre) et mettre à jour π(ancre) après chaque étape.

2.3 Supervision du processus et supervision des résultats

Le résultat et le processus font référence aux deux aspects de l'évaluation du modèle de récompense :

  • Modèle de récompense des résultats : évaluez si le résultat final du modèle est correct ou conforme aux attentes.
  • Modèle de récompense du processus : évalue si les étapes de raisonnement et de prise de décision du modèle dans le processus de génération de résultats sont raisonnables et efficaces.

Par exemple, Let's Verify Step by Step | OpenAI d'OpenAI mentionne également :

  • Supervision du processus (supervision des résultats) : implique de fournir un retour d'information sur chaque étape du processus de raisonnement du modèle. Les modèles de récompense supervisés par processus (PRM) sont formés pour prédire l'exactitude de chaque étape de la solution.
  • Supervisé par les résultats : le modèle supervisé par les résultats fournit un retour d'information basé uniquement sur le résultat final du raisonnement du modèle. Les modèles de récompense supervisés par les résultats (ORM) sont formés à l'aide de la réponse finale de la solution, et l'exactitude est déterminée par une vérification automatique.

2.4 Piratage de récompenses

Dans le RL, le piratage de récompense fait référence au phénomène dans lequel un agent exploite une faille dans la conception de la fonction de récompense pour maximiser la récompense cumulative d'une manière qui ne correspond pas à l'intention initiale du concepteur. Bien que ce comportement réponde techniquement à l'objectif d'optimisation de la fonction de récompense, l'effet réel s'écarte de l'objectif de tâche attendu et peut même entraîner des conséquences négatives.

Analyse des points clés :

  1. Définition et manifestation :
    1. L'agent trouve une faille dans la fonction de récompense et obtient une récompense élevée en prenant des « raccourcis » au lieu de résoudre réellement le problème.
    2. Par exemple, un robot de nettoyage éteint les lumières pour que la pièce « paraisse » propre, plutôt que de la nettoyer réellement ; un agent de jeu marque des points à plusieurs reprises sans terminer l’objectif du niveau ; choisit de ne pas ralentir afin de réduire le nombre de freinages, ce qui présente un risque pour la sécurité ; génère du contenu dénué de sens qui correspond à des mots-clés afin de tromper les scores élevés.
  2. Causes profondes :
    1. Conception de fonction de récompense incomplète : simplification excessive ou incapacité à couvrir les cas limites.
    2. Désalignement entre les objectifs et les récompenses : la fonction de récompense ne reflète pas pleinement l’objectif réel, ce qui amène l’agent à optimiser pour le « mauvais » objectif.
  3. Solutions:
    1. Améliorer la conception des récompenses : introduire des récompenses multidimensionnelles (par exemple, sécurité, efficacité, etc.) ou ajuster dynamiquement la fonction de récompense.
    2. Vérification contradictoire : détecter si l’agent « triche » grâce à des mécanismes supplémentaires.
    3. Intervention manuelle et contraintes : définition de limites comportementales (par exemple couche de sécurité) ou rétroaction manuelle (par exemple RLHF).
    4. Apprentissage par renforcement inverse (IRL) : apprenez une fonction de récompense plus réaliste à partir de démonstrations d'experts.
    5. Apprentissage par renforcement hiérarchique : décomposer la tâche en sous-objectifs pour réduire le risque d'optimisation locale.
  4. Association avec le surapprentissage :
    1. Les deux présentent un décalage entre les mesures de formation et les performances dans le monde réel, mais Reward Hacking met davantage l’accent sur les défauts de conception de la fonction de récompense que sur la capacité de généralisation du modèle.
  5. Résumé:
    1. Le piratage de récompenses révèle le défi de l'alignement des objectifs dans le RL. La résolution de ce problème nécessite une combinaison de conception de mécanismes de récompense plus robustes, l'introduction de contraintes externes et l'intégration de connaissances humaines préalables pour garantir que le comportement de l'agent est à la fois efficace et conforme à l'intention de conception.

3 DeepSeek-R1-Zéro et DeepSeek-R1

3.1 Présentation

Les recherches antérieures se sont largement appuyées sur de grandes quantités de données supervisées pour améliorer les performances du modèle. Cette étude montre que même sans SFT comme démarrage à froid, le RL à grande échelle peut améliorer considérablement la capacité de raisonnement du modèle. De plus, l'introduction d'une petite quantité de données de démarrage à froid peut encore optimiser les performances. Voici les modèles liés à DeepSeek-R1 :

  1. DeepSeek-R1-Zero : ce modèle applique RL directement au modèle de base sans aucune donnée SFT.
  2. DeepSeek-R1 : ce modèle applique RL à partir d'un point de contrôle qui a été affiné avec des milliers d'échantillons CoT longs.
  3. DeepSeek-R1-Distill-xx : Distille la capacité de raisonnement de DeepSeek-R1 dans un petit modèle dense.

3.2 DeepSeek-R1-Zéro

La figure suivante montre les points clés de la formation du modèle DeepSeek-R1-Zero :

PS : Il convient de noter que l'article ne fournit pas beaucoup d'informations sur les données utilisées dans le processus RL de DeepSeek-R1-Zero. Cependant, il contient quelques explications sur le processus de génération de données et la quantité dans la formation R1 ultérieure, bien qu'elles ne soient pas particulièrement spécifiques.

3.2.1 Algorithme RL

Pour réduire le coût de formation de l'apprentissage par renforcement, les auteurs utilisent la méthode GRPO (Group Relative Policy Optimization) de DeepSeek, [2402.03300] DeepSeekMath : repousser les limites du raisonnement mathématique dans les modèles de langage ouvert. Cette méthode abandonne le modèle Critic, qui est généralement de taille comparable au modèle Policy, et estime à la place la ligne de base à l'aide d'un score de groupe. L'explication correspondante est présentée dans la figure ci-dessous (image de Twitter) :

3.2.2 Modélisation des récompenses

Les récompenses sont la source des signaux d'entraînement et déterminent la direction d'optimisation de RL. Pour entraîner DeepSeek-R1-Zero, les auteurs ont utilisé un système de récompense basé sur des règles, qui se compose principalement de deux types de récompenses :

  • Récompense de précision : Évaluez si la réponse est correcte. Par exemple :
    • Dans les problèmes mathématiques avec des résultats déterministes, le modèle doit fournir la réponse finale dans un format spécifique (par exemple à l'intérieur d'une boîte) afin que son exactitude puisse être vérifiée de manière fiable par des règles.
    • De même, pour les problèmes LeetCode, des commentaires peuvent être générés à l’aide d’un compilateur basé sur des cas de test prédéfinis.
  • Récompense de format : Une récompense de format est également utilisée pour forcer le modèle à placer son processus de réflexion entre le « " et " « balises.

Lors du développement de DeepSeek-R1-Zero, l'auteur n'a pas utilisé le modèle de récompense neuronale de résultat ou le modèle de récompense neuronale de processus, car l'auteur a constaté que le modèle de récompense neuronale peut rencontrer une usurpation de récompense (piratage de récompense) dans les processus RL à grande échelle ; en outre, le recyclage du modèle de récompense nécessite non seulement des ressources de formation supplémentaires, mais complique également l'ensemble du processus de formation.

3.2.3 Modèle de formation

Pour entraîner DeepSeek-R1-Zero, les auteurs ont d'abord conçu un modèle simple pour guider le modèle de base afin qu'il suive les instructions définies. Comme indiqué dans le tableau 1 ci-dessous, le modèle nécessite que DeepSeek-R1-Zero génère un processus d'inférence, puis fournisse la réponse finale.

L'auteur a délibérément limité les contraintes à ce cadre structurel pour éviter d'introduire un biais de contenu - par exemple, en forçant un raisonnement réflexif ou en promouvant des stratégies spécifiques de résolution de problèmes - afin de garantir que l'évolution naturelle du modèle puisse être observée avec précision pendant le processus de RL.

3.2.4 Conclusion

Capacités de raisonnement robustes sans données SFT : en démarrant l'apprentissage par renforcement directement à partir du modèle de base, la trajectoire d'évolution du modèle peut être surveillée de près sans interférence SFT. Comme le montre la figure 3 ci-dessous, le temps de réflexion de DeepSeek-R1-Zero a continué de s'améliorer (la longueur de croissance est devenue progressivement plus longue) tout au long du processus d'entraînement. Cette amélioration ne provient pas d'ajustements externes, mais est le résultat naturel du développement interne du modèle. DeepSeek-R1-Zero a naturellement acquis la capacité de résoudre des tâches d'inférence de plus en plus complexes, telles que la capacité de réflexion, en utilisant des calculs de temps de test étendus.

DeepSeek-R1-Zero a vécu un moment d'éveil pendant l'entraînement. Comme le montre le tableau 3 ci-dessous, ce moment s'est produit pendant la phase de version intermédiaire du modèle. Au cours de cette étape, DeepSeek-R1-Zero a appris à consacrer plus de temps de réflexion aux problèmes en réévaluant son approche initiale.

Vote majoritaire : les performances de DeepSeek-R1-Zero peuvent être encore améliorées en appliquant le vote majoritaire. Par exemple, comme le montre le tableau 2 ci-dessous, après l'utilisation du vote majoritaire dans le test de référence AIME, ses performances passent de 71,0% à 86,7%, dépassant ainsi OpenAI-o1-0912.

Faiblesses : Bien que DeepSeek-R1-Zero démontre de fortes capacités de raisonnement et développe de manière autonome des comportements de raisonnement inattendus et puissants, il est toujours confronté à des défis tels qu'une mauvaise lisibilité et un mélange de langues.

3.3 DeepSeek-R1

Pour rendre le processus de raisonnement plus lisible et le partager avec la communauté ouverte, les auteurs explorent plus en détail la méthode DeepSeek-R1, qui utilise des données de démarrage à froid conviviales pour l'apprentissage par renforcement. Inspirées par DeepSeek-R1-Zero, deux questions naturelles suivent :

  1. Les performances de raisonnement peuvent-elles être encore améliorées ou le processus de convergence accéléré en introduisant une petite quantité de données de haute qualité comme démarrage à froid ?
  2. Comment pouvons-nous former un modèle convivial qui non seulement génère des CoT clairs et cohérents, mais démontre également de fortes capacités de généralisation ?

En réponse à ces questions, nous avons conçu un processus de formation pour DeepSeek-R1. Le processus comprend plusieurs étapes, décrites ci-dessous :

L'étape 1, comme illustré dans la figure ci-dessous, entraîne l'état intermédiaire de DeepSeek-R1 via SFT + RL :

La figure suivante montre les étapes 2, 3 et 4 :

  • Étape 2 : en haut à gauche, construisez 200 000 données non raisonnées et 600 000 données raisonnées.
  • Étape 3 : en haut à droite, train SFT + RL DeepSeek-R1.
  • Étape 4 : figure inférieure, Distill DeepSeek-R1-Distill-xx.

3.3.1 Démarrage à froid (Étape 1)

Contrairement à DeepSeek-R1-Zero, pour éviter la phase de démarrage à froid instable du modèle de base au début de l'apprentissage RL, les auteurs ont construit et collecté une petite quantité de données Long CoT pour DeepSeek-R1 afin d'affiner le modèle en tant qu'acteur RL initial. Pour collecter ces données, les auteurs ont exploré différentes méthodes :

  • Utilisation d'invites à quelques plans avec des exemples de Long CoT
  • Demander directement au modèle de générer des réponses détaillées avec réflexion et vérification
  • Collecte de la sortie DeepSeek-R1-Zero dans un format lisible par l'homme
  • Affiner les résultats grâce au post-traitement avec étiquetage manuel

Les auteurs ont collecté un total de milliers de données de démarrage à froid, qui ont été utilisées pour affiner DeepSeek-V3-Base comme point de départ pour RL. Par rapport à DeepSeek-R1-Zero, les avantages des données de démarrage à froid incluent

  • Lisibilité : les réponses DeepSeek-R1-Zero peuvent être mélangées dans plusieurs langues ou ne pas avoir le format Markdown utilisé pour mettre en évidence les réponses des utilisateurs. En revanche, lors de la création des données de démarrage à froid pour DeepSeek-R1, l'auteur a conçu un format lisible qui inclut un résumé à la fin de chaque réponse et filtre les réponses illisibles. Ici, le format de sortie est défini comme |special_token| |jeton_spécial| , où reasoning_process est la pensée enchaînée de la requête et summary est utilisé pour résumer les résultats du raisonnement.
  • Potentiel : En concevant soigneusement une combinaison de modèles de données de démarrage à froid a priori humains, les auteurs ont observé que ses performances sont supérieures à celles de DeepSeek-R1-Zero.

3.3.2 Apprentissage par renforcement basé sur le raisonnement (étape 1)

Après avoir peaufiné le modèle DeepSeek-V3-Base sur les données de démarrage à froid, le même processus de formation RL à grande échelle que celui du modèle DeepSeek-R1-Zero est utilisé. Cette étape vise à améliorer la capacité du modèle à effectuer des tâches intensives de raisonnement, en particulier sur des problèmes de programmation, de mathématiques, de sciences et de raisonnement logique avec des solutions claires.

Au cours de l'entraînement, les auteurs ont observé que CoT souffrait souvent de mélange de langues, en particulier lorsque l'invite RL impliquait plusieurs langues. Pour atténuer le problème de mélange de langues, les auteurs ont introduit une récompense de cohérence linguistique dans l'entraînement RL, qui est calculée en fonction de la proportion de mots dans la langue cible dans CoT. Bien que les expériences d'ablation montrent que cette méthode d'alignement entraîne une légère diminution des performances du modèle, ce mécanisme de récompense est cohérent avec les préférences humaines et améliore la lisibilité. Enfin, les auteurs ajoutent directement la précision de la tâche de raisonnement à la récompense de cohérence linguistique pour former la récompense finale, et mettent en œuvre l'entraînement RL sur le modèle affiné jusqu'à ce qu'il converge vers la tâche de raisonnement.

3.3.3 Construction de 800 000 données sélectionnées (Étape 2)

Tandis que l'apprentissage par renforcement pour le raisonnement converge, les données SFT sont collectées à l'aide du point de contrôle résultant pour le prochain cycle de formation. Contrairement aux données initiales de démarrage à froid, qui se concentrent principalement sur le raisonnement, cette étape intègre des données d'autres domaines pour améliorer la capacité du modèle à écrire, à jouer des rôles et à effectuer d'autres tâches à usage général. Plus précisément, les données sont générées et le modèle est affiné comme suit :

  • Données de raisonnement : les invites de raisonnement sont sélectionnées et les trajectoires de raisonnement sont générées en effectuant un échantillonnage de rejet à partir du point de contrôle formé par RL susmentionné (DeepSeek-R1 Étape 1). Dans l'étape précédente, seules les données pouvant être évaluées à l'aide de récompenses basées sur des règles ont été incluses. Cependant, à ce stade, l'ensemble de données a été élargi en incluant davantage de données, dont certaines ont été générées à l'aide d'un modèle de récompense, et les vraies réponses ont été jugées en alimentant les prédictions du modèle dans DeepSeek-V3 (DeepSeek V3 en tant que juge). De plus, comme la sortie du modèle est parfois déroutante et difficile à lire, les chaînes de pensée en langage mixte, les longs paragraphes et les blocs de code ont été filtrés. Pour chaque invite, plusieurs réponses ont été échantillonnées et seules les bonnes (Best-of-N) ont été conservées. Au total, environ 600 000 échantillons d'entraînement liés au raisonnement ont été collectés.
  • Données non raisonnées : telles que l'écriture, les questions factuelles, la conscience de soi et la traduction, ont utilisé le processus DeepSeek-V3 et ont réutilisé certains des ensembles de données SFT de DeepSeek-V3. Pour certaines tâches non raisonnées, DeepSeek-V3 est appelé pour générer des CoT potentiels avant de répondre à la question. Cependant, pour des requêtes simples telles que « Bonjour », aucune chaîne de pensée n'est fournie dans la réponse. Au final, un total d'environ 200 000 échantillons d'entraînement non raisonnés ont été collectés.

3.3.4 SFT et RL pour tous les scénarios (Étape 3)

Deux cycles de réglage fin portant sur un total d'environ 800 000 échantillons sélectionnés ont été effectués sur DeepSeek-V3-Base en utilisant les deux ensembles de données susmentionnés (raisonnement et non-raisonnement).

Pour aligner davantage le modèle sur les préférences humaines, les auteurs ont mis en œuvre une deuxième phase de RL, qui vise à améliorer l'utilité et l'innocuité du modèle tout en affinant ses capacités de raisonnement. Plus précisément, le modèle a été entraîné avec une combinaison de signaux de récompense et de diverses distributions d'invites.

  • Pour les données de raisonnement, la méthodologie décrite dans DeepSeek-R1-Zero est suivie, en utilisant un mécanisme de récompense basé sur des règles pour guider l'apprentissage du modèle dans les domaines des mathématiques, de la programmation et du raisonnement logique.
  • Pour les données générales, le modèle de récompense est utilisé pour capturer les préférences humaines dans des situations complexes et subtiles. Une stratégie similaire de paires de préférences et de distributions d'invites d'apprentissage est utilisée sur la base du processus DeepSeek-V3.
  • En termes d’utilité, seul le résumé final est pris en compte, garantissant que l’évaluation se concentre sur l’aspect pratique et la pertinence de la réponse pour l’utilisateur tout en minimisant les interférences avec le processus de raisonnement sous-jacent.
  • En ce qui concerne l'innocuité, l'ensemble de la réponse du modèle est évalué de manière exhaustive, y compris le processus de raisonnement et le résumé, afin d'identifier et d'éliminer tout risque potentiel, biais ou contenu nuisible pouvant survenir au cours du processus de génération.
  • En fin de compte, en intégrant les signaux de récompense et en diversifiant la distribution des données, un modèle qui privilégie à la fois les avantages et l’innocuité tout en excellant dans le raisonnement peut être formé.

3.3.5 Distillation (Étape 4)

Afin de doter un petit modèle plus efficace de la capacité de raisonnement de DeepSeek-R1, les auteurs ont directement peaufiné les modèles open source Qwen et LLaMA en utilisant les 800 000 échantillons sélectionnés dans DeepSeek-R1-Stage-1. Les résultats montrent que cette méthode de distillation directe améliore considérablement la capacité de raisonnement des petits modèles. Les modèles de base utilisés par les auteurs incluent Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B et Llama-3.3-70B-Instruct. Llama-3.3 a été sélectionné car sa capacité de raisonnement est légèrement meilleure que Llama-3.1.

Pour le modèle de distillation, l'auteur utilise uniquement la SFT et n'inclut pas l'étape RL. Bien que l'introduction de RL puisse grandement améliorer les performances du modèle, l'objectif principal de l'auteur ici est de démontrer l'efficacité de la technologie de distillation, et l'exploration de l'étape RL est laissée à des recherches ultérieures.

PS : De plus, il est effectivement possible d'utiliser le DeepSeek-R1 final pour générer les données ci-dessus et reconstruire les 800 000 données utilisées pour la distillation, et le modèle distillé peut avoir un meilleur effet ; cependant, le prix est que les données doivent être reconstruites.

A lire également

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *