Ali Qwen2.5-Max kör om DeepSeek-V3! Netizen: Kinas AI minskar snabbt gapet

Just nu lades ytterligare en inhemsk modell till på Big Model Arena-listan

från Ali, Qwen2.5-Max, som överträffade DeepSeek-V3 och rankades som sjua i den totala rankingen med en totalpoäng på 1332.

Den överträffade även modeller som Claude 3.5 Sonnet och Llama 3.1 405B i ett slag.

Särskilt, den utmärker sig i programmering och matematik, och rankas först tillsammans med Fullblood o1 och DeepSeek-R1.

Chatbot Arena är en plattform för prestandatestning av stor modell lanserad av LMSYS Org. Den integrerar för närvarande mer än 190 modeller och använder modeller parade i team om två som ska ges till användare för blindtestning, med användare som röstar om modellernas förmågor baserat på deras verkliga konversationsupplevelser.

Av denna anledning är Chatbot Arena LLM Leaderboard den mest auktoritativa och viktiga arenan för världens främsta stora modeller.

Qwen 2,5-Max tog sig även in bland de tio bästa på den nyöppnade WebDev lista för webbapplikationsutveckling.

Den officiella lmsys-kommentaren om detta är det Kinesisk AI minskar snabbt gapet!

Nätanvändare som personligen har använt det säger att Qwens prestanda är mer stabil.

Vissa säger till och med att Qwen snart kommer att ersätta alla vanliga modeller i Silicon Valley.

Innehållsförteckning

Fyra individuella förmågor når toppen

De första och andra platserna i topp tre på den totala listan togs av Google Gemini-familjen, med GPT-4o och DeepSeek-R1 delade på tredje plats.

Qwen2.5-Max delade på sjunde plats med o1-förhandsvisning, något bakom hela o1.

Nästa är Qwen2.5-Max prestation i varje enskild kategori.

I det mer logiska matematik och kod uppgifter överträffade Qwen2.5-Max resultat de för o1-mini, och det hamnade på första plats med den fulladdade o1 och DeepSeek-R1.

Och bland modellerna på första plats på mattelistan är Qwen2.5-Max den enda resonerande modellen.

Om du tittar noga på de specifika stridsrekorden kan du också se att Qwen2.5-Max har en vinstgrad på 69% i kodförmåga mot fullblods-o1.

I den komplicerat promptord uppgift, Qwen2.5-Max och o1-preview delade för andra plats, och om den är begränsad till engelska kan den rankas först, i paritet med o1-preview, DeepSeek-R1 osv.

Dessutom är Qwen2.5-Max delad på första plats med DeepSeek-R1 in dialog med flera varv; den ligger på tredje plats lång text (inte mindre än 500 tokens), överträffar o1-förhandsvisningen.

Dessutom visade Ali även Qwen2.5-Max prestation på några klassiska listor i den tekniska rapporten.

I jämförelsen av kommandomodeller ligger Qwen2.5-Max på samma nivå som eller högre än GPT-4o och Claude 3.5-Sonnet i benchmarks som Arena-Hard (liknar mänskliga preferenser) och MMLU-Pro (kunskap på universitetsnivå).

I jämförelsen av basmodeller med öppen källkod överträffade Qwen2.5-Max också DeepSeek-V3 över hela linjen och var långt före Llama 3.1-405B.

När det gäller basmodellen visade Qwen2.5-Max också en betydande fördel i de flesta benchmark-tester (basmodellen med sluten källkod är inte tillgänglig, så endast modellen med öppen källkod kan jämföras).

Enastående kod/inferens, stöder artefakter

Efter att Qwen2.5-Max lanserades kom ett stort antal nätanvändare för att testa den.

Det har visat sig utmärka sig inom områden som kod och slutledning.

Låt den till exempel skriva ett schackspel i JavaScript.

Tack vare Artefakter, ett litet spel utvecklat i en enda mening kan spelas omedelbart:

koden den genererar är ofta lättare att läsa och använda.

Qwen2.5-Max är snabb och exakt när man drar slutsatser om komplexa uppmaningar:

Ditt team har 3 steg för att hantera kundförfrågningar:

Datainsamling (steg A): 5 minuter per begäran.

Behandling (steg B): 10 minuter per begäran.

Verifiering (steg C): 8 minuter per begäran.

Teamet arbetar för närvarande sekventiellt, men du överväger ett parallellt arbetsflöde. Om du tilldelar två personer till varje steg och tillåter ett parallellt arbetsflöde, kommer produktionen per timme att öka med 20%. Men att lägga till ett parallellt arbetsflöde kommer att kosta 15% mer i termer av driftskostnader. Med tanke på tid och kostnad, bör du använda ett parallellt arbetsflöde för att optimera effektiviteten?

Qwen2.5-Max slutför hela slutsatsen på mindre än 30 sekunder, och delar tydligt upp den övergripande processen i fem steg: analys av det aktuella arbetsflödet, analys av parallella arbetsflöden, kostnadskonsekvenser, kostnadseffektivitetsavvägningar och slutsatser.

Den slutliga slutsatsen nås snabbt: parallella arbetsflöden bör användas.

Jämfört med DeepSeek-V3, som också är en icke-inferensmodell, ger Qwen2.5-Max en mer kortfattad och snabb respons.

Eller låt den generera en roterande sfär som består av ASCII-siffror. Siffran närmast betraktningsvinkeln är rent vit, medan den längst bort gradvis blir grå, med svart bakgrund.

Att räkna antalet specifika bokstäver i ett ord är ännu lättare.

Om du vill prova det själv är Qwen2.5-Max redan online på Qwen Chat-plattformen och kan upplevas gratis.

Företagsanvändare kan anropa Qwen2.5-Max-modellens API på Alibaba Cloud Bailian.

Liknande inlägg

Okategoriserade

Qwen2.5-max vs DeepSeek R1: En djupgående jämförelse av modeller: en fullständig analys av tillämpningsscenarier

Avzddeepseeker 14 februari 202514 februari 2025

Inledning Idag spelar stora språkmodeller (LLM) en avgörande roll. I början av 2025, när konkurrensen om AI intensifierades, lanserade Alibaba den nya Qwen2.5-max AI-modellen, och DeepSeek, ett företag från Hangzhou, Kina, lanserade R1-modellen, som representerar toppen av LLM-teknologin. Deepseek R1 är en AI-modell med öppen källkod som har lockat...

Okategoriserade

Altman: Vi hade fel om AI med öppen källkod! DeepSeek har gjort OpenAI mindre fördelaktigt, och nästa är GPT-5

Avzddeepseeker 1 februari 20251 februari 2025

o3-mini kom sent på kvällen, och OpenAI avslöjade äntligen sitt senaste trumfkort. Under en Reddit AMA Q&A erkände Altman djupt att han hade stått på fel sida av öppen källkod AI. Han sa att den interna strategin för öppen källkod övervägs och att modellen kommer att fortsätta att utvecklas, men ...

Okategoriserade

a16z dialog med 27-årig VD: AI Agent har en enorm hävstångseffekt, och långsiktig prissättning kommer att vara kopplad till arbetskostnader

Avzddeepseeker 8 februari 20258 februari 2025

Höjdpunkter AI Agent omformar kundupplevelsen Jesse Zhang: Hur är en agent egentligen konstruerad? Vår uppfattning är att det med tiden kommer att bli mer och mer som en naturlig språkbaserad Agent eftersom det är så de stora språkmodellerna (LLM) tränas. På lång sikt, om du har en superintelligent agent som...

Okategoriserade

DeepSeek R1 papperstolkning & viktiga tekniska punkter

Avzddeepseeker 9 februari 20259 februari 2025

1 Bakgrund Under vårfesten väckte DeepSeek R1 återigen stor uppmärksamhet, och även tolkningsartikeln DeepSeek V3 vi tidigare skrev återsändes och diskuterades mycket. Även om det har gjorts många analyser och reproduktioner av DeepSeek R1, har vi här beslutat att sammanställa några motsvarande läsanteckningar. Vi kommer att använda tre...

Okategoriserade

DeepSeek-R1-0528 Uppdatering: Djupare tänkande, starkare resonemang

Avzddeepseeker 29 maj 202529 maj 2025

DeepSeek R1-modellen har genomgått en mindre versionsuppgradering, där den nuvarande versionen är DeepSeek-R1-0528. När du öppnar DeepSeek-webbsidan eller appen, aktivera funktionen "Djuptänkande" i dialoggränssnittet för att uppleva den senaste versionen. DeepSeek-R1-0528-modellens vikter har laddats upp till HuggingFace. Under de senaste fyra månaderna har DeepSeek-R1 genomgått...

Okategoriserade

DeepSeek har gjort det! OpenAI erkänner misstag med sluten källkod, försprånget blir mindre

Avzddeepseeker 2 februari 20252 februari 2025

Efter att OpenAI släppte o3-minimodellen genomförde dess VD Sam Altman, Chief Research Officer Mark Chen, Chief Product Officer Kevin Weil; Vice President of Engineering Srinivas Narayanan, Head of API Research Michelle Pokrass och Head of Research Hongyu Ren, en teknisk Q&A online på reddit, ett av världens största omfattande forum. De viktigaste ämnena...

Fyra individuella förmågor når toppen

Enastående kod/inferens, stöder artefakter

Liknande inlägg

Lämna ett svar Avbryt svar