
DeepSeek R1 a remporté le titre de champion dans le test d'évaluation des performances de l'écriture de nouvelles créatives, dépassant avec succès l'ancien joueur dominant Claude 3.5 Sonnet !
Test de référence
Le test de référence conçu par le chercheur Lech Mazur n'est pas un concours d'écriture ordinaire.
Chaque modèle d'IA devait rédiger 500 histoires courtes, et chaque histoire devait intégrer astucieusement 10 éléments attribués de manière aléatoire. Il s'agissait d'une tâche d'écriture ouverte et stimulante pour l'IA, qui devait non seulement rédiger un scénario complet, mais aussi veiller à ce que tous les éléments assignés soient intégrés de manière naturelle
Méthode d'évaluation
Ce test de référence utilise un système de notation unique : six modèles linguistiques de haut niveau jouent le rôle de juges et notent divers aspects de l'histoire. En d'autres termes, les leaders de l'industrie de l'IA jugent l'IA elle-même, ce qui, dans l'ensemble, constitue une norme d'évaluation relativement équitable et systématique.
Contenu du test

Le graphique ci-dessus montre l'analyse de corrélation entre les notes obtenues au test de référence sur l'écriture créative. DeepSeek a un coefficient de corrélation de plus de 0,93 avec d'autres modèles courants (Claude, GPT-4o, Gemini et Grok), ce qui indique qu'il possède des critères de jugement très cohérents avec d'autres modèles de premier plan lorsqu'il s'agit de juger la qualité de la création littéraire, ce qui confirme indirectement sa fiabilité dans le cadre de ce test.

Le graphique ci-dessus montre les résultats du test de référence sur la rédaction de nouvelles créatives. Chaque modèle d'IA devait écrire 500 histoires, chacune d'entre elles devant contenir 10 éléments aléatoires spécifiés. Les points du graphique montrent la distribution des scores de chaque modèle d'IA participant pour différents modèles de notation (représentés par des couleurs différentes).
Dans le test, ProfondeurSeek (points bleu foncé) a obtenu de bons résultats, la plupart de ses points étant concentrés dans la moitié supérieure du graphique et relativement concentrés, ce qui témoigne d'un niveau stable et élevé d'aptitude à l'écriture créative.
Ces performances exceptionnelles lui ont permis de dépasser avec succès le précédent champion, Claude 3.5 Sonnet, et de devenir le nouveau leader des tests de référence.

Dans ce graphique, chaque ligne représente un modèle d'IA et chaque colonne représente une dimension d'évaluation (caractérisation, cohérence de l'intrigue, etc.). DeepSeek se situe dans la partie supérieure du graphique, avec une teinte orange-jaune, ce qui indique qu'il a obtenu d'excellents résultats dans la plupart des dimensions d'évaluation. En particulier, il a obtenu des scores élevés de près de 8 points dans les dimensions clés de l'exécution (Q6), de la caractérisation (TA) et du développement de l'intrigue (TJ). Bien qu'il ne soit pas le jaune le plus brillant dans les différentes dimensions, il ne présente pas de faiblesses évidentes.

Comme vous pouvez le voir dans le graphique, les scores des articles de DeepSeek sont principalement répartis entre 7 et 9 points, et la distribution est relativement concentrée. Il est intéressant de noter que la ligne de tendance est presque horizontale, ce qui indique que la qualité de l'histoire de DeepSeek n'est pas étroitement liée à la longueur de l'histoire. En d'autres termes, qu'il s'agisse d'une histoire longue ou d'une histoire courte, DeepSeek peut maintenir un niveau de qualité élevé et constant. Cela montre que DeepSeek se concentre davantage sur la qualité que sur la quantité lorsqu'il crée, et peut maintenir d'excellentes performances. dans des histoires plus ou moins longues.
Pourquoi les DeepSeek R1 gagner?
À en juger par les résultats des tests, le DeepSeek R1 a obtenu des résultats étonnants :
- Capacités complètes d'intégration d'histoires: R1 a fait preuve d'une flexibilité et d'une créativité étonnantes lorsqu'il s'est agi de combiner différents éléments de l'histoire.
- Qualité de sortie stable: A en juger par le tableau de distribution des scores, R1 a non seulement obtenu un score moyen élevé, mais aussi une performance stable avec moins de fluctuations.
- Une performance créative exceptionnelle: Dans ce test de référence, les histoires créées par R1 ont été classées parmi les trois meilleures au total, ce qui prouve sa capacité exceptionnelle en matière d'écriture créative.
Comment les autres candidats se sont-ils comportés ?
Outre l'affrontement passionnant entre DeepSeek R1 et Claude 3.5 Sonnet, les performances d'autres modèles méritent également d'être soulignées :
- La série Gemini s'est bien comportée
- La série Llama 3.x a eu quelques difficultés dans ce test.
- L'o3-mini n'a pas obtenu de bons résultats, se classant 22e.

Enfin
La percée de DeepSeek R1 dans ce test nous a montré les possibilités infinies de l'IA dans le domaine de la créativité. Bien que la création d'IA soit encore en voie d'amélioration continue, de tels résultats nous ont déjà donné beaucoup d'espoir pour l'avenir.
Pour ceux qui souhaitent en savoir plus sur les détails du test, vous pouvez visiter le GitHub de Lech Mazur pour obtenir les données complètes et des exemples des meilleures histoires. Attendons-nous ensemble à de nouvelles percées dans le domaine de l'écriture créative par l'IA !