Lige nu er endnu en indenlandsk model blevet tilføjet til listen over Big Model Arena
fra Ali, Qwen2.5-Max, som overgik DeepSeek-V3 og blev nummer syv i den samlede rangliste med en samlet score på 1332.
Den overgik også modeller som Claude 3.5 Sonnet og Llama 3.1 405B med ét hug.

Især det udmærker sig i programmering og matematik, og er rangeret først sammen med Fullblood o1 og DeepSeek-R1.

Chatbot Arena er en stor model præstationstestplatform lanceret af LMSYS Org. Den integrerer i øjeblikket mere end 190 modeller og bruger modeller parret i hold af to, der skal gives til brugere til blindtest, hvor brugerne stemmer om modellernes evner baseret på deres virkelige samtaleoplevelser.
Af denne grund er Chatbot Arena LLM Leaderboard den mest autoritative og vigtige arena for verdens største store modeller.
Qwen 2,5-Max brød også ind i top ti på den nyåbnede WebDev liste til udvikling af webapplikationer.

Den officielle lmsys kommentar til dette er det Kinesisk kunstig intelligens lukker hurtigt hullet!

Netizens, der personligt har brugt det, siger, at Qwens præstation er mere stabil.

Nogle siger endda, at Qwen snart vil erstatte alle almindelige modeller i Silicon Valley.

Fire individuelle evner når toppen
Første- og andenpladsen i top tre på den samlede liste blev taget af Google Gemini-familien, med GPT-4o og DeepSeek-R1 på tredjepladsen.
Qwen2.5-Max lige på en syvendeplads med o1-preview, lidt bagefter den fulde o1.

Dernæst er Qwen2.5-Max' præstation i hver enkelt kategori.
I det mere logiske matematik og kode opgaver oversteg Qwen2.5-Max's resultater resultaterne af o1-mini, og det endte på førstepladsen med den fuldt opladede o1 og DeepSeek-R1.
Og blandt de modeller, der er bundet til førstepladsen på matematiklisten, er Qwen2.5-Max den eneste ikke-ræsonnerende model.

Hvis du kigger nærmere på de specifikke kamprekorder, kan du også se, at Qwen2.5-Max har en 69% gevinstrate i kodeevne mod fuldblods o1.

I den komplekst promptord opgave, Qwen2.5-Max og o1-preview lige på andenpladsen, og hvis den er begrænset til engelsk, kan den placeres først på niveau med o1-preview, DeepSeek-R1 osv.

Derudover ligger Qwen2.5-Max på førstepladsen med DeepSeek-R1 ind multi-turn dialog; den ligger på tredjepladsen lang tekst (ikke mindre end 500 tokens), der overgår o1-preview.

Derudover viste Ali også Qwen2.5-Max' præstation på nogle klassiske lister i den tekniske rapport.
I sammenligningen af kommandomodeller er Qwen2.5-Max på samme niveau som eller højere end GPT-4o og Claude 3.5-Sonnet i benchmarks som Arena-Hard (svarende til menneskelige præferencer) og MMLU-Pro (viden på universitetsniveau).
I sammenligningen af open source-basismodeller klarede Qwen2.5-Max også DeepSeek-V3 over hele linjen og var et godt stykke foran Llama 3.1-405B.

Hvad angår basismodellen, viste Qwen2.5-Max også en betydelig fordel i de fleste benchmark-tests (den lukkede kildemodel-basismodellen er ikke tilgængelig, så kun open source-modellen kan sammenlignes).

Fremragende kode/inferens, understøtter artefakter
Efter Qwen2.5-Max blev lanceret, kom et stort antal netbrugere for at teste det.
Det har vist sig at udmærke sig inden for områder som kode og inferens.
Lad den for eksempel skrive et skakspil i JavaScript.
Tak til Artefakter, et lille spil udviklet i en enkelt sætning kan spilles med det samme:

koden, den genererer, er ofte lettere at læse og bruge.
Qwen2.5-Max er hurtig og præcis, når der udledes komplekse prompter:
Dit team har 3 trin til at håndtere kundeanmodninger:
Dataindsamling (trin A): 5 minutter pr. anmodning.
Behandling (trin B): 10 minutter pr. anmodning.
Verifikation (stadie C): 8 minutter pr. anmodning.
Teamet arbejder i øjeblikket sekventielt, men du overvejer en parallel arbejdsgang. Hvis du tildeler to personer til hvert trin og giver mulighed for en parallel arbejdsgang, vil output pr. time stige med 20%. Men tilføjelse af en parallel arbejdsgang vil koste 15% mere i form af driftsomkostninger. I betragtning af tid og omkostninger, bør du bruge en parallel arbejdsgang for at optimere effektiviteten?
Qwen2.5-Max fuldfører hele slutningen på mindre end 30 sekunder, og opdeler klart den overordnede proces i fem trin: analyse af den aktuelle arbejdsgang, analyse af parallelle arbejdsgange, omkostningsimplikationer, omkostningseffektivitets-afvejninger og konklusioner.
Den endelige konklusion er hurtigt nået: parallelle arbejdsgange bør anvendes.
Sammenlignet med DeepSeek-V3, som også er en ikke-inferensmodel, giver Qwen2.5-Max en mere kortfattet og hurtig respons.
Eller lad den generere en roterende kugle, der består af ASCII-cifre. Cifferet tættest på synsvinklen er rent hvidt, mens det fjerneste gradvist bliver gråt med sort baggrund.
At tælle antallet af specifikke bogstaver i et ord er endnu nemmere.

Hvis du vil prøve det selv, er Qwen2.5-Max allerede online på Qwen Chat-platformen og kan opleves gratis.
Enterprise-brugere kan kalde Qwen2.5-Max model API på Alibaba Cloud Bailian.
