Just nu lades ytterligare en inhemsk modell till på Big Model Arena-listan
från Ali, Qwen2.5-Max, som överträffade DeepSeek-V3 och rankades som sjua i den totala rankingen med en totalpoäng på 1332.
Den överträffade även modeller som Claude 3.5 Sonnet och Llama 3.1 405B i ett slag.

Särskilt, den utmärker sig i programmering och matematik, och rankas först tillsammans med Fullblood o1 och DeepSeek-R1.

Chatbot Arena är en plattform för prestandatestning av stor modell lanserad av LMSYS Org. Den integrerar för närvarande mer än 190 modeller och använder modeller parade i team om två som ska ges till användare för blindtestning, med användare som röstar om modellernas förmågor baserat på deras verkliga konversationsupplevelser.
Av denna anledning är Chatbot Arena LLM Leaderboard den mest auktoritativa och viktiga arenan för världens främsta stora modeller.
Qwen 2,5-Max tog sig även in bland de tio bästa på den nyöppnade WebDev lista för webbapplikationsutveckling.

Den officiella lmsys-kommentaren om detta är det Kinesisk AI minskar snabbt gapet!

Nätanvändare som personligen har använt det säger att Qwens prestanda är mer stabil.

Vissa säger till och med att Qwen snart kommer att ersätta alla vanliga modeller i Silicon Valley.

Fyra individuella förmågor når toppen
De första och andra platserna i topp tre på den totala listan togs av Google Gemini-familjen, med GPT-4o och DeepSeek-R1 delade på tredje plats.
Qwen2.5-Max delade på sjunde plats med o1-förhandsvisning, något bakom hela o1.

Nästa är Qwen2.5-Max prestation i varje enskild kategori.
I det mer logiska matematik och kod uppgifter överträffade Qwen2.5-Max resultat de för o1-mini, och det hamnade på första plats med den fulladdade o1 och DeepSeek-R1.
Och bland modellerna på första plats på mattelistan är Qwen2.5-Max den enda resonerande modellen.

Om du tittar noga på de specifika stridsrekorden kan du också se att Qwen2.5-Max har en vinstgrad på 69% i kodförmåga mot fullblods-o1.

I den komplicerat promptord uppgift, Qwen2.5-Max och o1-preview delade för andra plats, och om den är begränsad till engelska kan den rankas först, i paritet med o1-preview, DeepSeek-R1 osv.

Dessutom är Qwen2.5-Max delad på första plats med DeepSeek-R1 in dialog med flera varv; den ligger på tredje plats lång text (inte mindre än 500 tokens), överträffar o1-förhandsvisningen.

Dessutom visade Ali även Qwen2.5-Max prestation på några klassiska listor i den tekniska rapporten.
I jämförelsen av kommandomodeller ligger Qwen2.5-Max på samma nivå som eller högre än GPT-4o och Claude 3.5-Sonnet i benchmarks som Arena-Hard (liknar mänskliga preferenser) och MMLU-Pro (kunskap på universitetsnivå).
I jämförelsen av basmodeller med öppen källkod överträffade Qwen2.5-Max också DeepSeek-V3 över hela linjen och var långt före Llama 3.1-405B.

När det gäller basmodellen visade Qwen2.5-Max också en betydande fördel i de flesta benchmark-tester (basmodellen med sluten källkod är inte tillgänglig, så endast modellen med öppen källkod kan jämföras).

Enastående kod/inferens, stöder artefakter
Efter att Qwen2.5-Max lanserades kom ett stort antal nätanvändare för att testa den.
Det har visat sig utmärka sig inom områden som kod och slutledning.
Låt den till exempel skriva ett schackspel i JavaScript.
Tack vare Artefakter, ett litet spel utvecklat i en enda mening kan spelas omedelbart:

koden den genererar är ofta lättare att läsa och använda.
Qwen2.5-Max är snabb och exakt när man drar slutsatser om komplexa uppmaningar:
Ditt team har 3 steg för att hantera kundförfrågningar:
Datainsamling (steg A): 5 minuter per begäran.
Behandling (steg B): 10 minuter per begäran.
Verifiering (steg C): 8 minuter per begäran.
Teamet arbetar för närvarande sekventiellt, men du överväger ett parallellt arbetsflöde. Om du tilldelar två personer till varje steg och tillåter ett parallellt arbetsflöde, kommer produktionen per timme att öka med 20%. Men att lägga till ett parallellt arbetsflöde kommer att kosta 15% mer i termer av driftskostnader. Med tanke på tid och kostnad, bör du använda ett parallellt arbetsflöde för att optimera effektiviteten?
Qwen2.5-Max slutför hela slutsatsen på mindre än 30 sekunder, och delar tydligt upp den övergripande processen i fem steg: analys av det aktuella arbetsflödet, analys av parallella arbetsflöden, kostnadskonsekvenser, kostnadseffektivitetsavvägningar och slutsatser.
Den slutliga slutsatsen nås snabbt: parallella arbetsflöden bör användas.
Jämfört med DeepSeek-V3, som också är en icke-inferensmodell, ger Qwen2.5-Max en mer kortfattad och snabb respons.
Eller låt den generera en roterande sfär som består av ASCII-siffror. Siffran närmast betraktningsvinkeln är rent vit, medan den längst bort gradvis blir grå, med svart bakgrund.
Att räkna antalet specifika bokstäver i ett ord är ännu lättare.

Om du vill prova det själv är Qwen2.5-Max redan online på Qwen Chat-plattformen och kan upplevas gratis.
Företagsanvändare kan anropa Qwen2.5-Max-modellens API på Alibaba Cloud Bailian.
