Ali Qwen2.5-Max dépasse DeepSeek-V3 ! Netizen : L'IA chinoise comble rapidement l'écart

Tout à l'heure, un autre modèle national a été ajouté à la liste du Big Model Arena

de Ali, Qwen2.5-Max, qui a dépassé le DeepSeek-V3 et s'est classé septième au classement général avec un score total de 1332.

Il a également surpassé d'un seul coup des modèles tels que le Claude 3.5 Sonnet et le Llama 3.1 405B.

En particulier, il excelle en programmation et en mathématiques, et est classé premier aux côtés de Fullblood o1 et DeepSeek-R1.

Chatbot Arena est une grande plate-forme de test de performances de modèles lancée par Organisation LMSYSIl intègre actuellement plus de 190 modèles et utilise des modèles jumelés en équipes de deux pour être donnés aux utilisateurs pour des tests en aveugle, les utilisateurs votant sur les capacités des modèles en fonction de leurs expériences de conversation réelles.

Pour cette raison, le Chatbot Arena LLM Leaderboard est l'arène la plus fiable et la plus importante pour les meilleurs grands modèles du monde.

Qwen 2.5-Max a également fait irruption dans le top 10 du tout nouveau WebDev liste pour le développement d'applications Web.

Le commentaire officiel de lmsys à ce sujet est que L'IA chinoise comble rapidement son retard!

Les internautes qui l'ont personnellement utilisé disent que les performances de Qwen sont plus stables.

Certains disent même que Qwen remplacera bientôt tous les modèles ordinaires de la Silicon Valley.

Table des matières

Quatre capacités individuelles atteignent le sommet

Les première et deuxième places du top trois du classement général ont été occupées par la famille Google Gemini, avec GPT-4o et DeepSeek-R1 à égalité pour la troisième place.

Qwen2.5-Max est à égalité à la septième place avec o1-preview, légèrement derrière le o1 complet.

Vient ensuite la performance de Qwen2.5-Max dans chaque catégorie individuelle.

Dans le plus logique mathématiques et code tâches, les résultats du Qwen2.5-Max ont dépassé ceux du o1-mini, et il a égalé la première place avec le o1 et le DeepSeek-R1 entièrement chargés.

Et parmi les modèles à égalité à la première place sur la liste mathématique, Qwen2.5-Max est le seul modèle non raisonnant.

Si vous regardez attentivement les records de bataille spécifiques, vous pouvez également voir que Qwen2.5-Max a un taux de victoire de 69% en capacité de code contre le pur-sang o1.

Dans le mot d'invite complexe tâche, Qwen2.5-Max et o1-preview sont à égalité pour la deuxième place, et s'il est limité à l'anglais, il peut se classer premier, à égalité avec o1-preview, DeepSeek-R1, etc.

De plus, Qwen2.5-Max est à égalité pour la première place avec DeepSeek-R1 dans dialogue à plusieurs tours; il se classe au troisième rang texte long (pas moins de 500 jetons), surpassant o1-preview.

De plus, Ali a également montré les performances de Qwen2.5-Max sur certaines listes classiques dans le rapport technique.

Dans la comparaison des modèles de commande, Qwen2.5-Max est au même niveau ou supérieur à GPT-4o et Claude 3.5-Sonnet dans des benchmarks tels que Arena-Hard (similaire aux préférences humaines) et MMLU-Pro (connaissances de niveau universitaire).

Dans la comparaison des modèles de base open source, Qwen2.5-Max a également surpassé DeepSeek-V3 dans tous les domaines et était bien en avance sur Llama 3.1-405B.

Quant au modèle de base, Qwen2.5-Max a également montré un avantage significatif dans la plupart des tests de référence (le modèle de base du modèle fermé n'est pas accessible, donc seul le modèle open source peut être comparé).

Code/inférence exceptionnel, prend en charge les artefacts

Après le lancement de Qwen2.5-Max, un grand nombre d'internautes sont venus le tester.

Il s’est avéré excellent dans des domaines tels que le code et l’inférence.

Par exemple, laissez-le écrire une partie d’échecs en JavaScript.

Grâce à Artefacts, un petit jeu développé en une seule phrase peut être joué immédiatement :

le code qu'il génère est souvent plus facile à lire et à utiliser.

Qwen2.5-Max est rapide et précis lors de la déduction d'invites complexes :

Votre équipe dispose de 3 étapes pour gérer les demandes des clients :

Collecte de données (étape A) : 5 minutes par demande.

Traitement (étape B) : 10 minutes par requête.

Vérification (étape C) : 8 minutes par demande.

L'équipe travaille actuellement de manière séquentielle, mais vous envisagez un flux de travail parallèle. Si vous affectez deux personnes à chaque étape et autorisez un flux de travail parallèle, le rendement par heure augmentera de 20%. Cependant, l'ajout d'un flux de travail parallèle coûtera 15% de plus en termes de frais généraux d'exploitation. Compte tenu du temps et du coût, devriez-vous utiliser un flux de travail parallèle pour optimiser l'efficacité ?

Qwen2.5-Max effectue l'intégralité de l'inférence en moins de 30 secondes, en divisant clairement le processus global en cinq étapes : analyse du flux de travail actuel, analyse des flux de travail parallèles, implications financières, compromis coût-efficacité et conclusions.

La conclusion finale est rapidement atteinte : il faut utiliser des workflows parallèles.

Comparé au DeepSeek-V3, qui est également un modèle sans inférence, Qwen2.5-Max fournit une réponse plus concise et plus rapide.

Ou laissez-le générer une sphère rotative composée de chiffres ASCII. Le chiffre le plus proche de l'angle de vue est d'un blanc pur, tandis que le plus éloigné devient progressivement gris, avec un fond noir.

Compter le nombre de lettres spécifiques dans un mot est encore plus facile.

Si vous souhaitez l'essayer par vous-même, Qwen2.5-Max est déjà en ligne sur la plateforme Qwen Chat et peut être expérimenté gratuitement.

Les utilisateurs d'entreprise peuvent appeler l'API du modèle Qwen2.5-Max sur Alibaba Cloud Bailian.

A lire également

Non classé

Comment DeepSeek a-t-il été créé ? Une analyse de l'historique de la croissance de DeepSeek

Parzddeepseeker 3 février 20253 février 2025

À l'avenir, il y aura de plus en plus d'innovations radicales. Ce n'est peut-être pas facile à comprendre aujourd'hui, parce que l'ensemble du groupe social a besoin d'être éduqué par des faits. Lorsque cette société permettra aux personnes qui innovent de façon radicale de réussir, l'état d'esprit collectif changera. Nous avons juste besoin d'un ensemble de faits et d'un processus....

Non classé

Gemini 2.0 domine les charts, tandis que DeepSeek V3 pleure son prix, et un nouveau champion économique est né !

Parzddeepseeker 8 février 20258 février 2025

La famille Google Gemini 2.0 est enfin au complet ! Elle domine les classements dès sa sortie. Au milieu de la poursuite et des blocages de Deepseek, Qwen et o3, Google a sorti trois modèles d'un coup tôt ce matin : Gemini 2.0 Pro, Gemini 2.0 Flash et Gemini 2.0 Flash-Lite. Dans le classement des grands modèles LMSYS, Gemini…

Non classé

Artefacts de gestion de grands modèles de langage tels que DeepSeek : Cherry Studio, Chatbox, AnythingLLM, qui est votre accélérateur d'efficacité ?

Parzddeepseeker 11 février 202511 février 2025

De nombreuses personnes ont déjà commencé à déployer et à utiliser les modèles de langage larges Deepseek localement, en utilisant Chatbox comme outil de visualisation. Cet article continuera à présenter deux autres artefacts de gestion et de visualisation de modèles de langage larges d'IA, et comparera les trois en détail pour vous aider à utiliser les modèles de langage larges d'IA plus efficacement. En 2025,…

Non classé

Qwen2.5-max vs DeepSeek R1 : une comparaison approfondie des modèles : une analyse complète des scénarios d'application

Parzddeepseeker 14 février 202514 février 2025

Introduction Aujourd'hui, les grands modèles de langage (LLM) jouent un rôle crucial. Début 2025, alors que la concurrence pour l'IA s'intensifiait, Alibaba a lancé le nouveau modèle d'IA Qwen2.5-max, et DeepSeek, une société de Hangzhou, en Chine, a lancé le modèle R1, qui représente le summum de la technologie LLM. Deepseek R1 est un modèle d'IA open source qui a attiré…

Non classé

DeepSeek TOP17 Meilleures alternatives : analyse complète (2025)

Pardeepseeker 6 février 20256 février 2025

Introduction Dans le paysage en évolution rapide de l'intelligence artificielle, DeepSeek est apparu comme un modèle de langage puissant. Cette analyse complète explore les 17 meilleures alternatives à DeepSeek, en examinant leurs caractéristiques, capacités et cas d'utilisation uniques. Nos recherches se concentrent sur les plateformes internationales et chinoises qui offrent une intégration DeepSeek ou des capacités similaires. Analyse des meilleures alternatives 1….

Non classé

Interprétation du document DeepSeek R1 et points techniques clés

Parzddeepseeker 9 février 20259 février 2025

1 Contexte Au cours du Festival du Printemps, DeepSeek R1 a de nouveau attiré l'attention, et même l'article d'interprétation de DeepSeek V3 que nous avons écrit précédemment a également été retransmis et beaucoup discuté. Bien qu'il y ait eu de nombreuses analyses et reproductions de DeepSeek R1, nous avons décidé ici de compiler quelques notes de lecture correspondantes. Nous utiliserons trois…

Ali Qwen2.5-Max dépasse DeepSeek-V3 ! Un internaute : l'IA chinoise comble rapidement l'écart

Quatre capacités individuelles atteignent le sommet

Code/inférence exceptionnel, prend en charge les artefacts

Comment DeepSeek a-t-il été créé ? Une analyse de l'historique de la croissance de DeepSeek

Gemini 2.0 domine les charts, tandis que DeepSeek V3 pleure son prix, et un nouveau champion économique est né !

Artefacts de gestion de grands modèles de langage tels que DeepSeek : Cherry Studio, Chatbox, AnythingLLM, qui est votre accélérateur d'efficacité ?

Qwen2.5-max vs DeepSeek R1 : une comparaison approfondie des modèles : une analyse complète des scénarios d'application

DeepSeek TOP17 Meilleures alternatives : analyse complète (2025)

Interprétation du document DeepSeek R1 et points techniques clés

Laisser un commentaire Annuler la réponse