DeepSeek R1 est arrivé premier au test d'écriture créative, et o3 mini était encore pire que o1 mini !

DeepSeek R1 a remporté le titre de champion dans le test d'évaluation des performances de l'écriture de nouvelles créatives, dépassant avec succès l'ancien joueur dominant Claude 3.5 Sonnet !

Table des matières

Test de référence

Le test de référence conçu par le chercheur Lech Mazur n'est pas un concours d'écriture ordinaire.

Chaque modèle d'IA devait rédiger 500 histoires courtes, et chaque histoire devait intégrer astucieusement 10 éléments attribués de manière aléatoire. Il s'agissait d'une tâche d'écriture ouverte et stimulante pour l'IA, qui devait non seulement rédiger un scénario complet, mais aussi veiller à ce que tous les éléments assignés soient intégrés de manière naturelle

Méthode d'évaluation

Ce test de référence utilise un système de notation unique : six modèles linguistiques de haut niveau jouent le rôle de juges et notent divers aspects de l'histoire. En d'autres termes, les leaders de l'industrie de l'IA jugent l'IA elle-même, ce qui, dans l'ensemble, constitue une norme d'évaluation relativement équitable et systématique.

Contenu du test

Le graphique ci-dessus montre l'analyse de corrélation entre les notes obtenues au test de référence sur l'écriture créative. DeepSeek a un coefficient de corrélation de plus de 0,93 avec d'autres modèles courants (Claude, GPT-4o, Gemini et Grok), ce qui indique qu'il possède des critères de jugement très cohérents avec d'autres modèles de premier plan lorsqu'il s'agit de juger la qualité de la création littéraire, ce qui confirme indirectement sa fiabilité dans le cadre de ce test.

Le graphique ci-dessus montre les résultats du test de référence sur la rédaction de nouvelles créatives. Chaque modèle d'IA devait écrire 500 histoires, chacune d'entre elles devant contenir 10 éléments aléatoires spécifiés. Les points du graphique montrent la distribution des scores de chaque modèle d'IA participant pour différents modèles de notation (représentés par des couleurs différentes).

Dans le test, Profondeur S eek (points bleu foncé) a obtenu de bons résultats, la plupart de ses points étant concentrés dans la moitié supérieure du graphique et relativement concentrés, ce qui témoigne d'un niveau stable et élevé d'aptitude à l'écriture créative.

Ces performances exceptionnelles lui ont permis de dépasser avec succès le précédent champion, Claude 3.5 Sonnet, et de devenir le nouveau leader des tests de référence.

Dans ce graphique, chaque ligne représente un modèle d'IA et chaque colonne représente une dimension d'évaluation (caractérisation, cohérence de l'intrigue, etc.). DeepSeek se situe dans la partie supérieure du graphique, avec une teinte orange-jaune, ce qui indique qu'il a obtenu d'excellents résultats dans la plupart des dimensions d'évaluation. En particulier, il a obtenu des scores élevés de près de 8 points dans les dimensions clés de l'exécution (Q6), de la caractérisation (TA) et du développement de l'intrigue (TJ). Bien qu'il ne soit pas le jaune le plus brillant dans les différentes dimensions, il ne présente pas de faiblesses évidentes.

Comme vous pouvez le voir dans le graphique, les scores des articles de DeepSeek sont principalement répartis entre 7 et 9 points, et la distribution est relativement concentrée. Il est intéressant de noter que la ligne de tendance est presque horizontale, ce qui indique que la qualité de l'histoire de DeepSeek n'est pas étroitement liée à la longueur de l'histoire. En d'autres termes, qu'il s'agisse d'une histoire longue ou d'une histoire courte, DeepSeek peut maintenir un niveau de qualité élevé et constant. Cela montre que DeepSeek se concentre davantage sur la qualité que sur la quantité lorsqu'il crée, et peut maintenir d'excellentes performances. dans des histoires plus ou moins longues.

Pourquoi les DeepSeek R1 gagner?

À en juger par les résultats des tests, le DeepSeek R1 a obtenu des résultats étonnants :

Capacités complètes d'intégration d'histoires: R1 a fait preuve d'une flexibilité et d'une créativité étonnantes lorsqu'il s'est agi de combiner différents éléments de l'histoire.
Qualité de sortie stable: A en juger par le tableau de distribution des scores, R1 a non seulement obtenu un score moyen élevé, mais aussi une performance stable avec moins de fluctuations.
Une performance créative exceptionnelle: Dans ce test de référence, les histoires créées par R1 ont été classées parmi les trois meilleures au total, ce qui prouve sa capacité exceptionnelle en matière d'écriture créative.

Comment les autres candidats se sont-ils comportés ?

Outre l'affrontement passionnant entre DeepSeek R1 et Claude 3.5 Sonnet, les performances d'autres modèles méritent également d'être soulignées :

La série Gemini s'est bien comportée
La série Llama 3.x a eu quelques difficultés dans ce test.
L'o3-mini n'a pas obtenu de bons résultats, se classant 22e.

Enfin

La percée de DeepSeek R1 dans ce test nous a montré les possibilités infinies de l'IA dans le domaine de la créativité. Bien que la création d'IA soit encore en voie d'amélioration continue, de tels résultats nous ont déjà donné beaucoup d'espoir pour l'avenir.

Pour ceux qui souhaitent en savoir plus sur les détails du test, vous pouvez visiter le GitHub de Lech Mazur pour obtenir les données complètes et des exemples des meilleures histoires. Attendons-nous ensemble à de nouvelles percées dans le domaine de l'écriture créative par l'IA !

A lire également

Non classé

Il est proche de DeepSeek-R1-32B et écrase le s1 de Fei-Fei Li ! UC Berkeley et d'autres nouveaux modèles d'inférence SOTA open source

Parzddeepseeker 14 février 202514 février 2025

Le modèle d'inférence 32B n'utilise que 1/8 des données et est à égalité avec DeepSeek-R1 de la même taille ! À l'heure actuelle, des institutions telles que Stanford, UC Berkeley et l'Université de Washington ont publié conjointement un modèle d'inférence de niveau SOTA, OpenThinker-32B, et ont également ouvert le code source de jusqu'à 114 000 données d'entraînement. Page d'accueil du projet OpenThinker : OpenThinker Hugging Face :…

Non classé

Qwen2.5-max vs DeepSeek R1 : une comparaison approfondie des modèles : une analyse complète des scénarios d'application

Parzddeepseeker 14 février 202514 février 2025

Introduction Aujourd'hui, les grands modèles de langage (LLM) jouent un rôle crucial. Début 2025, alors que la concurrence pour l'IA s'intensifiait, Alibaba a lancé le nouveau modèle d'IA Qwen2.5-max, et DeepSeek, une société de Hangzhou, en Chine, a lancé le modèle R1, qui représente le summum de la technologie LLM. Deepseek R1 est un modèle d'IA open source qui a attiré…

Premier lancement ! SiliconFlow X Huawei Cloud lancent conjointement les services d'inférence DeepSeek R1 & V3 basés sur Ascend Cloud !

Non classé

Premier lancement ! SiliconFlow X Huawei Cloud lancent conjointement des services d'inférence DeepSeek R1 & V3 basés sur Ascend Cloud !

Parzddeepseeker 1er février 20251er février 2025

DeepSeek-R1 et DeepSeek-V3 ont fait sensation dans le monde entier depuis leur lancement en open source. Ils sont un cadeau de l'équipe DeepSeek à toute l'humanité, et nous sommes sincèrement heureux de leur succès. Après des jours de travail acharné de la part des équipes de Silicon Mobility et de Huawei Cloud, nous offrons aujourd'hui aux utilisateurs chinois un...

Non classé

Qu'est-ce que FlashMLA ? Un guide complet sur son impact sur les noyaux de décodage de l'IA

Pardeepseeker 24 février 202524 février 2025

FlashMLA a rapidement attiré l’attention dans le monde de l’intelligence artificielle, notamment dans le domaine des grands modèles de langage (LLM). Cet outil innovant, développé par DeepSeek, sert de noyau de décodage optimisé conçu pour les GPU Hopper, des puces hautes performances couramment utilisées dans les calculs d’IA. FlashMLA se concentre sur le traitement efficace de séquences de longueur variable, ce qui le rend particulièrement bien adapté…

Non classé

Le duel des quatre meilleurs modèles ! Un test met en lumière la puissance du Deepseek R1.

Parzddeepseeker 1er juin 20251er juin 2025

Ces derniers jours, Deepseek-R1 0528 a été officiellement mis en open source. Sur LiveCodeBench, ses performances sont quasiment équivalentes à celles d'OpenAI (o3, niveau élevé) ; dans le test de performance multilingue d'Aider, il tient tête à Claude Opus. Lors de son lancement sur le site officiel, nous avons rapidement testé ses fonctionnalités front-end et les avons trouvées exceptionnellement…

Non classé

Interprétation du document DeepSeek R1 et points techniques clés

Parzddeepseeker 9 février 20259 février 2025

1 Contexte Au cours du Festival du Printemps, DeepSeek R1 a de nouveau attiré l'attention, et même l'article d'interprétation de DeepSeek V3 que nous avons écrit précédemment a également été retransmis et beaucoup discuté. Bien qu'il y ait eu de nombreuses analyses et reproductions de DeepSeek R1, nous avons décidé ici de compiler quelques notes de lecture correspondantes. Nous utiliserons trois…

Test de référence

Méthode d'évaluation

Contenu du test

Pourquoi les DeepSeek R1 gagner?

Comment les autres candidats se sont-ils comportés ?

Enfin

A lire également

Laisser un commentaire Annuler la réponse