Tout à l'heure, un autre modèle national a été ajouté à la liste du Big Model Arena
de Ali, Qwen2.5-Max, qui a dépassé le DeepSeek-V3 et s'est classé septième au classement général avec un score total de 1332.
Il a également surpassé d'un seul coup des modèles tels que le Claude 3.5 Sonnet et le Llama 3.1 405B.

En particulier, il excelle en programmation et en mathématiques, et est classé premier aux côtés de Fullblood o1 et DeepSeek-R1.

Chatbot Arena est une grande plate-forme de test de performances de modèles lancée par Organisation LMSYSIl intègre actuellement plus de 190 modèles et utilise des modèles jumelés en équipes de deux pour être donnés aux utilisateurs pour des tests en aveugle, les utilisateurs votant sur les capacités des modèles en fonction de leurs expériences de conversation réelles.
Pour cette raison, le Chatbot Arena LLM Leaderboard est l'arène la plus fiable et la plus importante pour les meilleurs grands modèles du monde.
Qwen 2.5-Max a également fait irruption dans le top 10 du tout nouveau WebDev liste pour le développement d'applications Web.

Le commentaire officiel de lmsys à ce sujet est que L'IA chinoise comble rapidement son retard!

Les internautes qui l'ont personnellement utilisé disent que les performances de Qwen sont plus stables.

Certains disent même que Qwen remplacera bientôt tous les modèles ordinaires de la Silicon Valley.

Quatre capacités individuelles atteignent le sommet
Les première et deuxième places du top trois du classement général ont été occupées par la famille Google Gemini, avec GPT-4o et DeepSeek-R1 à égalité pour la troisième place.
Qwen2.5-Max est à égalité à la septième place avec o1-preview, légèrement derrière le o1 complet.

Vient ensuite la performance de Qwen2.5-Max dans chaque catégorie individuelle.
Dans le plus logique mathématiques et code tâches, les résultats du Qwen2.5-Max ont dépassé ceux du o1-mini, et il a égalé la première place avec le o1 et le DeepSeek-R1 entièrement chargés.
Et parmi les modèles à égalité à la première place sur la liste mathématique, Qwen2.5-Max est le seul modèle non raisonnant.

Si vous regardez attentivement les records de bataille spécifiques, vous pouvez également voir que Qwen2.5-Max a un taux de victoire de 69% en capacité de code contre le pur-sang o1.

Dans le mot d'invite complexe tâche, Qwen2.5-Max et o1-preview sont à égalité pour la deuxième place, et s'il est limité à l'anglais, il peut se classer premier, à égalité avec o1-preview, DeepSeek-R1, etc.

De plus, Qwen2.5-Max est à égalité pour la première place avec DeepSeek-R1 dans dialogue à plusieurs tours; il se classe au troisième rang texte long (pas moins de 500 jetons), surpassant o1-preview.

De plus, Ali a également montré les performances de Qwen2.5-Max sur certaines listes classiques dans le rapport technique.
Dans la comparaison des modèles de commande, Qwen2.5-Max est au même niveau ou supérieur à GPT-4o et Claude 3.5-Sonnet dans des benchmarks tels que Arena-Hard (similaire aux préférences humaines) et MMLU-Pro (connaissances de niveau universitaire).
Dans la comparaison des modèles de base open source, Qwen2.5-Max a également surpassé DeepSeek-V3 dans tous les domaines et était bien en avance sur Llama 3.1-405B.

Quant au modèle de base, Qwen2.5-Max a également montré un avantage significatif dans la plupart des tests de référence (le modèle de base du modèle fermé n'est pas accessible, donc seul le modèle open source peut être comparé).

Code/inférence exceptionnel, prend en charge les artefacts
Après le lancement de Qwen2.5-Max, un grand nombre d'internautes sont venus le tester.
Il s’est avéré excellent dans des domaines tels que le code et l’inférence.
Par exemple, laissez-le écrire une partie d’échecs en JavaScript.
Grâce à Artefacts, un petit jeu développé en une seule phrase peut être joué immédiatement :

le code qu'il génère est souvent plus facile à lire et à utiliser.
Qwen2.5-Max est rapide et précis lors de la déduction d'invites complexes :
Votre équipe dispose de 3 étapes pour gérer les demandes des clients :
Collecte de données (étape A) : 5 minutes par demande.
Traitement (étape B) : 10 minutes par requête.
Vérification (étape C) : 8 minutes par demande.
L'équipe travaille actuellement de manière séquentielle, mais vous envisagez un flux de travail parallèle. Si vous affectez deux personnes à chaque étape et autorisez un flux de travail parallèle, le rendement par heure augmentera de 20%. Cependant, l'ajout d'un flux de travail parallèle coûtera 15% de plus en termes de frais généraux d'exploitation. Compte tenu du temps et du coût, devriez-vous utiliser un flux de travail parallèle pour optimiser l'efficacité ?
Qwen2.5-Max effectue l'intégralité de l'inférence en moins de 30 secondes, en divisant clairement le processus global en cinq étapes : analyse du flux de travail actuel, analyse des flux de travail parallèles, implications financières, compromis coût-efficacité et conclusions.
La conclusion finale est rapidement atteinte : il faut utiliser des workflows parallèles.
Comparé au DeepSeek-V3, qui est également un modèle sans inférence, Qwen2.5-Max fournit une réponse plus concise et plus rapide.
Ou laissez-le générer une sphère rotative composée de chiffres ASCII. Le chiffre le plus proche de l'angle de vue est d'un blanc pur, tandis que le plus éloigné devient progressivement gris, avec un fond noir.
Compter le nombre de lettres spécifiques dans un mot est encore plus facile.

Si vous souhaitez l'essayer par vous-même, Qwen2.5-Max est déjà en ligne sur la plateforme Qwen Chat et peut être expérimenté gratuitement.
Les utilisateurs d'entreprise peuvent appeler l'API du modèle Qwen2.5-Max sur Alibaba Cloud Bailian.
