Ali Qwen2.5-Max überholt DeepSeek-V3! Netizen: Chinas KI schließt schnell die Lücke

Gerade wurde ein weiteres inländisches Modell zur Liste der Big Model Arena hinzugefügt

von Ali, Qwen2.5-Max, das DeepSeek-V3 übertraf und mit einer Gesamtpunktzahl von 1332 den siebten Platz in der Gesamtwertung belegte.

Außerdem übertraf es Modelle wie Claude 3.5 Sonnet und Llama 3.1 405B auf einen Schlag.

Insbesondere, es zeichnet sich durch Programmierung und Mathematik aus, und liegt neben Fullblood o1 und DeepSeek-R1 auf Platz eins.

Chatbot Arena ist eine große Plattform zum Testen der Modellleistung, die von LMSYS Org. Es integriert derzeit mehr als 190 Modelle und verwendet Modelle, die in Zweierteams gepaart sind und den Benutzern für Blindtests zur Verfügung gestellt werden, wobei die Benutzer über die Fähigkeiten der Modelle auf der Grundlage ihrer realen Gesprächserfahrungen abstimmen.

Aus diesem Grund ist das Chatbot Arena LLM Leaderboard die maßgeblichste und wichtigste Arena für die besten Topmodels der Welt.

Qwen 2.5-Max Auch auf der neu eröffneten WebEntwicklung Liste für die Entwicklung von Webanwendungen.

Der offizielle Kommentar von lmsys hierzu lautet: Chinesische KI schließt rasch die Lücke!

Internetnutzer, die es persönlich verwendet haben, sagen, dass die Leistung von Qwen stabiler sei.

Manche Leute sagen sogar, dass Qwen bald alle gewöhnlichen Models im Silicon Valley ersetzen wird.

Inhaltsübersicht

Vier individuelle Fähigkeiten erreichen die Spitze

Den ersten und zweiten Platz unter den ersten drei der Gesamtliste belegt die Google Gemini-Familie, während sich GPT-4o und DeepSeek-R1 den dritten Platz teilen.

Qwen2.5-Max belegte zusammen mit o1-preview den siebten Platz, knapp hinter dem vollständigen o1.

Als nächstes folgt die Leistung von Qwen2.5-Max in jeder einzelnen Kategorie.

Logischer Mathematik und Code Bei den oben genannten Aufgaben übertrafen die Ergebnisse von Qwen2.5-Max die von o1-mini und es teilte sich den ersten Platz mit dem vollständig aufgeladenen o1 und DeepSeek-R1.

Und unter den Modellen, die sich den ersten Platz auf der Mathematikliste teilen, ist Qwen2.5-Max das einzige nicht-logisch denkende Modell.

Wenn Sie sich die spezifischen Kampfaufzeichnungen genau ansehen, können Sie auch erkennen, dass Qwen2.5-Max eine Gewinnrate von 69% in der Code-Fähigkeit gegen den Vollblüter o1 hat.

Im komplexes Eingabewort task, Qwen2.5-Max und o1-preview teilen sich den zweiten Platz, und wenn es auf Englisch beschränkt ist, kann es den ersten Platz belegen, gleichauf mit o1-preview, DeepSeek-R1 usw.

Darüber hinaus liegt Qwen2.5-Max mit DeepSeek-R1 auf dem ersten Platz in Multiturn-Dialog; es liegt auf Platz drei in Langtext (nicht weniger als 500 Token), übertrifft o1-preview.

Darüber hinaus zeigte Ali im technischen Bericht auch die Leistung von Qwen2.5-Max auf einigen klassischen Listen.

Beim Vergleich der Befehlsmodelle liegt Qwen2.5-Max in Benchmarks wie Arena-Hard (ähnlich den menschlichen Vorlieben) und MMLU-Pro (Wissen auf Universitätsniveau) auf dem gleichen oder höheren Niveau als GPT-4o und Claude 3.5-Sonnet.

Auch im Vergleich der Open-Source-Basismodelle übertraf Qwen2.5-Max DeepSeek-V3 auf ganzer Linie und lag deutlich vor Llama 3.1-405B.

Was das Basismodell betrifft, zeigte Qwen2.5-Max in den meisten Benchmarktests auch einen deutlichen Vorteil (auf das Basismodell des Closed-Source-Modells kann nicht zugegriffen werden, daher ist nur ein Vergleich mit dem Open-Source-Modell möglich).

Hervorragender Code/Inferenz, unterstützt Artefakte

Nach der Einführung von Qwen2.5-Max kamen viele Internetnutzer, um es zu testen.

Es hat sich gezeigt, dass es in Bereichen wie Code und Inferenz herausragend ist.

Lassen Sie es beispielsweise ein Schachspiel in JavaScript schreiben.

Dank Artefakte, ein kleines Spiel, das in einem einzigen Satz entwickelt wurde und sofort gespielt werden kann:

Der generierte Code ist oft einfacher zu lesen und zu verwenden.

Qwen2.5-Max ist schnell und genau beim Ableiten komplexer Eingabeaufforderungen:

Ihr Team muss Kundenanfragen in 3 Schritten bearbeiten:

Datenerfassung (Phase A): 5 Minuten pro Anfrage.

Bearbeitung (Stufe B): 10 Minuten pro Anfrage.

Verifizierung (Stufe C): 8 Minuten pro Anfrage.

Das Team arbeitet derzeit sequentiell, aber Sie ziehen einen parallelen Arbeitsablauf in Betracht. Wenn Sie jeder Phase zwei Personen zuweisen und einen parallelen Arbeitsablauf zulassen, erhöht sich die Leistung pro Stunde um 20%. Das Hinzufügen eines parallelen Arbeitsablaufs kostet jedoch 15% mehr Betriebskosten. Sollten Sie unter Berücksichtigung von Zeit und Kosten einen parallelen Arbeitsablauf verwenden, um die Effizienz zu optimieren?

Qwen2.5-Max schließt die gesamte Inferenz in weniger als 30 Sekunden ab und unterteilt den Gesamtprozess klar in fünf Schritte: Analyse des aktuellen Arbeitsablaufs, Analyse paralleler Arbeitsabläufe, Kostenauswirkungen, Kosteneffizienz-Kompromisse und Schlussfolgerungen.

Das abschließende Fazit ist schnell gezogen: Es sollten parallele Arbeitsabläufe genutzt werden.

Im Vergleich zu DeepSeek-V3, das ebenfalls ein Nichtinferenzmodell ist, bietet Qwen2.5-Max eine präzisere und schnellere Reaktion.

Oder lassen Sie eine rotierende Kugel aus ASCII-Ziffern erzeugen. Die dem Betrachtungswinkel am nächsten gelegene Ziffer ist reinweiß, während die am weitesten entfernte Ziffer allmählich grau wird, mit schwarzem Hintergrund.

Noch einfacher ist es, die Anzahl bestimmter Buchstaben in einem Wort zu zählen.

Wenn Sie es selbst ausprobieren möchten, ist Qwen2.5-Max bereits auf der Qwen-Chat-Plattform online und kann kostenlos erlebt werden.

Unternehmensbenutzer können die Qwen2.5-Max-Modell-API auf Alibaba Cloud Bailian aufrufen.

Google hat gleich drei neue Modelle herausgebracht: Gemini-2.0-Pro ist kostenlos, hat eine hervorragende Bewertung, belegt den ersten Platz und eignet sich zum Kodieren und Verarbeiten komplexer Eingabeaufforderungen!

Vonzddeepseeker 8. Februar 20258. Februar 2025

Die Geschichte von Gemini 2.0 nimmt Fahrt auf. Die Flash Thinking Experimental-Version im Dezember brachte Entwicklern ein funktionierendes Modell mit geringer Latenz und hoher Leistung. Anfang dieses Jahres wurde 2.0 Flash Thinking Experimental im Google AI Studio aktualisiert, um die Leistung weiter zu verbessern, indem die Geschwindigkeit von Flash mit verbesserten Inferenzfunktionen kombiniert wurde. Letzte Woche…

Uncategorized

Was kann Deepseek? Das schafft nicht einmal OpenAI?

Vonzddeepseeker 10. Februar 202510. Februar 2025

Der wahre Wert von DeepSeek wird unterschätzt! DeepSeek-R1 hat zweifellos eine neue Welle der Begeisterung auf den Markt gebracht. Nicht nur steigen die relevanten sogenannten Begünstigtenziele stark an, sondern einige Leute haben sogar DeepSeek-bezogene Kurse und Software entwickelt, um damit Geld zu verdienen. Wir glauben, dass diese Phänomene zwar einen …

Uncategorized

Paper-DeepSeek-R1: Anreize für logisches Denken in LLMs durch Reinforcement Learning

Vondeepseeker Januar 29, 2025Januar 29, 2025

Zusammenfassung In diesem Beitrag werden die DeepSeek-Schlussfolgermodelle der ersten Generation vorgestellt: DeepSeek-R1-Zero und DeepSeek-R1. DeepSeek-R1-Zero, trainiert durch großangelegtes Reinforcement Learning (RL) ohne überwachte Feinabstimmung (SFT), zeigt bemerkenswerte Argumentationsfähigkeiten. Durch RL entwickelt es auf natürliche Weise ein leistungsfähiges Denkverhalten. Allerdings steht es vor Herausforderungen wie schlechter Lesbarkeit und Sprachmischung. Um diese Probleme zu lösen und die Argumentationsleistung zu verbessern, wurde DeepSeek-R1 entwickelt,...

Uncategorized

Cathie Wood: DeepSeek beschleunigt lediglich den Kostensenkungsprozess; die extrem konzentrierte Marktstruktur, vergleichbar mit der Großen Depression, wird sich ändern

Vonzddeepseeker 8. Februar 20258. Februar 2025

Highlights Der Wettbewerb mit DeepSeek ist gut für die USA Cathie Wood: Ich denke, es zeigt, dass die Kosten für Innovationen dramatisch sinken und dass dieser Trend bereits begonnen hat. Beispielsweise sanken vor DeepSeek die Kosten für das Training künstlicher Intelligenz um 75% pro Jahr und die Kosten für Inferenz sanken sogar um 85% auf…

Uncategorized

DeepSeek-R1-0528 Update: Tiefer denken, stärker argumentieren

Vonzddeepseeker 29. Mai 202529. Mai 2025

Das Modell DeepSeek R1 wurde einem kleinen Versionsupgrade unterzogen und ist aktuell DeepSeek-R1-0528. Aktivieren Sie beim Aufrufen der DeepSeek-Webseite oder -App die Funktion „Deep Thinking“ in der Dialogoberfläche, um die neueste Version zu erleben. Die Gewichte des Modells DeepSeek-R1-0528 wurden auf HuggingFace hochgeladen. In den letzten vier Monaten wurde DeepSeek-R1…

Uncategorized

Gemini 2.0 dominiert die Charts, während der Preis des DeepSeek V3 sinkt. Ein neuer Champion in Sachen Kosteneffizienz ist geboren!

Vonzddeepseeker 8. Februar 20258. Februar 2025

Die Google Gemini 2.0-Familie ist endlich komplett! Sie dominiert die Charts, sobald sie veröffentlicht wird. Inmitten der Verfolgung und Blockaden von Deepseek, Qwen und o3 hat Google heute früh drei Modelle auf einmal veröffentlicht: Gemini 2.0 Pro, Gemini 2.0 Flash und Gemini 2.0 Flash-Lite. In der Rangliste der großen Modelle LMSYS ist Gemini…

Vier individuelle Fähigkeiten erreichen die Spitze

Hervorragender Code/Inferenz, unterstützt Artefakte

Ähnliche Beiträge

Schreibe einen Kommentar Antworten abbrechen