Gerade wurde ein weiteres inländisches Modell zur Liste der Big Model Arena hinzugefügt
von Ali, Qwen2.5-Max, das DeepSeek-V3 übertraf und mit einer Gesamtpunktzahl von 1332 den siebten Platz in der Gesamtwertung belegte.
Außerdem übertraf es Modelle wie Claude 3.5 Sonnet und Llama 3.1 405B auf einen Schlag.

Insbesondere, es zeichnet sich durch Programmierung und Mathematik aus, und liegt neben Fullblood o1 und DeepSeek-R1 auf Platz eins.

Chatbot Arena ist eine große Plattform zum Testen der Modellleistung, die von LMSYS Org. Es integriert derzeit mehr als 190 Modelle und verwendet Modelle, die in Zweierteams gepaart sind und den Benutzern für Blindtests zur Verfügung gestellt werden, wobei die Benutzer über die Fähigkeiten der Modelle auf der Grundlage ihrer realen Gesprächserfahrungen abstimmen.
Aus diesem Grund ist das Chatbot Arena LLM Leaderboard die maßgeblichste und wichtigste Arena für die besten Topmodels der Welt.
Qwen 2.5-Max Auch auf der neu eröffneten WebEntwicklung Liste für die Entwicklung von Webanwendungen.

Der offizielle Kommentar von lmsys hierzu lautet: Chinesische KI schließt rasch die Lücke!

Internetnutzer, die es persönlich verwendet haben, sagen, dass die Leistung von Qwen stabiler sei.

Manche Leute sagen sogar, dass Qwen bald alle gewöhnlichen Models im Silicon Valley ersetzen wird.

Vier individuelle Fähigkeiten erreichen die Spitze
Den ersten und zweiten Platz unter den ersten drei der Gesamtliste belegt die Google Gemini-Familie, während sich GPT-4o und DeepSeek-R1 den dritten Platz teilen.
Qwen2.5-Max belegte zusammen mit o1-preview den siebten Platz, knapp hinter dem vollständigen o1.

Als nächstes folgt die Leistung von Qwen2.5-Max in jeder einzelnen Kategorie.
Logischer Mathematik und Code Bei den oben genannten Aufgaben übertrafen die Ergebnisse von Qwen2.5-Max die von o1-mini und es teilte sich den ersten Platz mit dem vollständig aufgeladenen o1 und DeepSeek-R1.
Und unter den Modellen, die sich den ersten Platz auf der Mathematikliste teilen, ist Qwen2.5-Max das einzige nicht-logisch denkende Modell.

Wenn Sie sich die spezifischen Kampfaufzeichnungen genau ansehen, können Sie auch erkennen, dass Qwen2.5-Max eine Gewinnrate von 69% in der Code-Fähigkeit gegen den Vollblüter o1 hat.

Im komplexes Eingabewort task, Qwen2.5-Max und o1-preview teilen sich den zweiten Platz, und wenn es auf Englisch beschränkt ist, kann es den ersten Platz belegen, gleichauf mit o1-preview, DeepSeek-R1 usw.

Darüber hinaus liegt Qwen2.5-Max mit DeepSeek-R1 auf dem ersten Platz in Multiturn-Dialog; es liegt auf Platz drei in Langtext (nicht weniger als 500 Token), übertrifft o1-preview.

Darüber hinaus zeigte Ali im technischen Bericht auch die Leistung von Qwen2.5-Max auf einigen klassischen Listen.
Beim Vergleich der Befehlsmodelle liegt Qwen2.5-Max in Benchmarks wie Arena-Hard (ähnlich den menschlichen Vorlieben) und MMLU-Pro (Wissen auf Universitätsniveau) auf dem gleichen oder höheren Niveau als GPT-4o und Claude 3.5-Sonnet.
Auch im Vergleich der Open-Source-Basismodelle übertraf Qwen2.5-Max DeepSeek-V3 auf ganzer Linie und lag deutlich vor Llama 3.1-405B.

Was das Basismodell betrifft, zeigte Qwen2.5-Max in den meisten Benchmarktests auch einen deutlichen Vorteil (auf das Basismodell des Closed-Source-Modells kann nicht zugegriffen werden, daher ist nur ein Vergleich mit dem Open-Source-Modell möglich).

Hervorragender Code/Inferenz, unterstützt Artefakte
Nach der Einführung von Qwen2.5-Max kamen viele Internetnutzer, um es zu testen.
Es hat sich gezeigt, dass es in Bereichen wie Code und Inferenz herausragend ist.
Lassen Sie es beispielsweise ein Schachspiel in JavaScript schreiben.
Dank Artefakte, ein kleines Spiel, das in einem einzigen Satz entwickelt wurde und sofort gespielt werden kann:

Der generierte Code ist oft einfacher zu lesen und zu verwenden.
Qwen2.5-Max ist schnell und genau beim Ableiten komplexer Eingabeaufforderungen:
Ihr Team muss Kundenanfragen in 3 Schritten bearbeiten:
Datenerfassung (Phase A): 5 Minuten pro Anfrage.
Bearbeitung (Stufe B): 10 Minuten pro Anfrage.
Verifizierung (Stufe C): 8 Minuten pro Anfrage.
Das Team arbeitet derzeit sequentiell, aber Sie ziehen einen parallelen Arbeitsablauf in Betracht. Wenn Sie jeder Phase zwei Personen zuweisen und einen parallelen Arbeitsablauf zulassen, erhöht sich die Leistung pro Stunde um 20%. Das Hinzufügen eines parallelen Arbeitsablaufs kostet jedoch 15% mehr Betriebskosten. Sollten Sie unter Berücksichtigung von Zeit und Kosten einen parallelen Arbeitsablauf verwenden, um die Effizienz zu optimieren?
Qwen2.5-Max schließt die gesamte Inferenz in weniger als 30 Sekunden ab und unterteilt den Gesamtprozess klar in fünf Schritte: Analyse des aktuellen Arbeitsablaufs, Analyse paralleler Arbeitsabläufe, Kostenauswirkungen, Kosteneffizienz-Kompromisse und Schlussfolgerungen.
Das abschließende Fazit ist schnell gezogen: Es sollten parallele Arbeitsabläufe genutzt werden.
Im Vergleich zu DeepSeek-V3, das ebenfalls ein Nichtinferenzmodell ist, bietet Qwen2.5-Max eine präzisere und schnellere Reaktion.
Oder lassen Sie eine rotierende Kugel aus ASCII-Ziffern erzeugen. Die dem Betrachtungswinkel am nächsten gelegene Ziffer ist reinweiß, während die am weitesten entfernte Ziffer allmählich grau wird, mit schwarzem Hintergrund.
Noch einfacher ist es, die Anzahl bestimmter Buchstaben in einem Wort zu zählen.

Wenn Sie es selbst ausprobieren möchten, ist Qwen2.5-Max bereits auf der Qwen-Chat-Plattform online und kann kostenlos erlebt werden.
Unternehmensbenutzer können die Qwen2.5-Max-Modell-API auf Alibaba Cloud Bailian aufrufen.
