Dernières nouvelles ! Le chercheur DeepSeek révèle en ligne:La formation R1 n'a duré que deux à trois semaines, et une puissante évolution de R1 zéro a été observée pendant les vacances du Nouvel An chinois

Tout à l'heure, nous avons remarqué que le chercheur DeepSeek Daya Guo a répondu aux questions des internautes sur DeepSeek R1 et les projets futurs de l'entreprise. Nous pouvons seulement dire que DeepSeek R1 n'est qu'un début et que la recherche interne avance toujours rapidement. Les chercheurs de DeepSeek n'ont même pas fait de pause pendant les vacances du Nouvel An chinois et ils ont travaillé sans relâche pour faire avancer la recherche. DeepSeek a de grands projets à venir

Voici le truc : le 1er février, Daya Guo a publié un tweet révélant la chose qui l'a le plus excité pendant les vacances du Nouvel An chinois : assister à la « croissance continue » de la courbe de performance du R1-Zéro modèle, et ressentant le force puissante de apprentissage par renforcement (RL) !

Daya Guo, chercheuse en IA chez Deepseek, s'adresse aux internautes

Je vais maintenant vous aider à reproduire la conversation de Daya Guo avec les internautes :

Internaute A @PseudoProphet : « Grand chef, je voudrais savoir combien de temps cette amélioration continue des performances va durer. Est-ce encore à ses débuts ? Le modèle RL de DeepSeek n'en est-il qu'à ses débuts, comme GPT-2 dans les modèles de langage ? Ou a-t-il atteint un stade plus avancé comme GPT-3.5, et est-il sur le point de rencontrer un goulot d'étranglement ? »

C'est une question très pointue, qui est directement liée au potentiel de la technologie RL de DeepSeek ! La réponse de Daya Guo est également très honnête :

Daya Guo : « Je pense que nous en sommes encore à un stade très précoce et qu’il reste encore beaucoup à faire dans le domaine de l’apprentissage par réalité augmentée. Mais je pense que nous verrons des progrès significatifs cette année. »

Mettez en valeur les points clés ! « Très tôt », « un long chemin à explorer », « Des progrès significatifs cette année »! Ces mots-clés sont riches en informations. Cela signifie que DeepSeek estime qu'il y a encore beaucoup de progrès à faire dans le domaine de la RL, et les résultats actuels de R1 ne sont peut-être que la pointe de l'iceberg, donc l'avenir est prometteur !

Juste après, un autre internaute @kaush_trip (Cheeku Tripathi) a posé une question plus professionnelle qui va directement au cœur des capacités du modèle :

Utilisateur B @kaush_trip : « Sur la base des performances de R1-Zero, comment évaluez-vous si le modèle a réellement capacité de généralisation, ou si c'est juste mémorise les transitions d'état et les récompenses?"

Cette question est très pertinente ! Après tout, de nombreux modèles semblent très puissants, mais en réalité, ils ne sont qu'un « apprentissage par cœur » à partir des données d'entraînement, et ils échoueront dans un environnement différent. DeepSeek R1 est-il vraiment à la hauteur ?

Daya Guo : « Nous utilisons un benchmark pour les domaines non couverts par l'invite RL afin d'évaluer la capacité de généralisation. À l'heure actuelle, il semble avoir une capacité de généralisation. »

L'expression « zones non couvertes par l'invite RL » est la clé ! Cela signifie que DeepSeek ne « triche » pas l'évaluation avec des données d'entraînement, mais est testé avec de nouveaux scénarios que le modèle n'a jamais vu avant, ce qui peut vraiment refléter le niveau de généralisation du modèle. L'utilisation par Daya Guo de la formulation rigoureuse « semble avoir » le rend également plus réaliste et crédible

Ensuite, un internaute avec l'ID @teortaxesTex, un grand fan de DeepSeek (son commentaire comprenait même les mots « DeepSeek whale cheerleading team »), a commencé avec le rapport technique de DeepSeek V3 et a posé une question sur Temps de formation du modèle:

Utilisateur C @teortaxesTex : « Si ce n'est pas un secret : combien de temps a duré la formation RL cette fois-ci ? On dirait que vous aviez déjà R1 ou au moins R1-Zero dès le 10 décembre, car le rapport technique V3 mentionne que le modèle V2.5 utilisait la distillation des connaissances R1, et le score de V2.5-1210 est le même que le modèle actuel. Est-ce que celui-ci est une continuation de cette formation ? »

Cet internaute a un incroyable pouvoir d'observation ! Il a pu extraire de nombreux détails du rapport technique. Daya Guo a également expliqué patiemment le processus itératif du modèle :

Daya Guo : « Les paramètres R1-Zero et R1 du 660B n'ont commencé à fonctionner qu'après la sortie de la V3, et la formation a pris environ 2 à 3 semaines. Le modèle R1 que nous avons mentionné auparavant (comme dans le rapport technique de la V3) est en fait R1-Lite ou R1-Lite-Zero. »

Voilà, c'est tout ! Les R1-Zero et R1 que nous voyons maintenant sont des « versions nouvelles et améliorées », et les précédentes séries R1-Lite sont des versions mineures. Il semble que DeepSeek ait discrètement itéré et mis à niveau de nombreuses versions en coulisses

Concernant la vitesse d’entraînement, les internautes @jiayi_pirate (Jiayi Pan) et l’internaute B @kaush_trip ont relayé une « interrogation de l’âme » :

Utilisateur D @jiayi_pirate : « 10 000 étapes RL en 3 semaines, chaque étape de propagation de gradient (grpo) prend environ 3 minutes 🤔 »

Utilisateur B @kaush_trip : « Si chaque étape de propagation de gradient (grpo) prend environ 3 minutes, cela représente environ 5 étapes par heure, soit 120 étapes par jour, ce qui est en effet très lent. »

C'est un calcul vraiment minutieux ! Selon les calculs des internautes, la vitesse d'entraînement de DeepSeek R1 n'est en effet pas rapide. Cela montre également que le coût de formation et l'investissement en temps d'un modèle RL aussi performant sont énormes. « Un travail lent produit un travail de qualité » semble être une façon assez appropriée de décrire l'entraînement d'un modèle d'IA

Finalement, un internaute nommé @davikrehalt (Andy Jiang) a posé une question du point de vue d'une application plus avant-gardiste :

Utilisateur E @davikrehalt : « Avez-vous essayé d'utiliser RL pour faire preuve formelle de l'environnement, au lieu de simplement répondre à des questions ? Ce serait formidable si un modèle open source pouvait remporter une médaille d'or à l'IMO (Olympiade internationale de mathématiques) cette année ! (Et plus d'espoirs !) »

Preuve formelle ! Médaille d'or à mon avis ! Cet internaute est assez ambitieux ! Cependant, l'application de l'IA au domaine difficile de la preuve mathématique est bel et bien la tendance du futur. La réponse de Daya Guo est une fois de plus surprenante :

Daya Guo : « Nous essayons également d’appliquer R1 à des environnements de preuve formels tels que Lean. Nous espérons pouvoir bientôt proposer de meilleurs modèles à la communauté. »

D'après les propos de Daya Guo, il semble qu'ils aient déjà fait des progrès dans ce domaine, et il pourrait y avoir encore plus de modèles impressionnants publiés à l'avenir !

En conclusion

Trois signaux clés peuvent être dégagés de la réponse de Daya Guo :

Positionnement technique : RL en est encore à ses débuts et les améliorations de performances sont loin d’atteindre leurs limites ;

Logique de vérification : capacité de généralisation pour les tests inter-domaines, rejet de la « spéculation sur la mémoire »

Limites d'application : des modèles de langage aux preuves mathématiques, le RL évolue vers un raisonnement d'ordre élevé

A lire également

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *