Pravkar je bil na seznam Big Model Arena dodan še en domači model

od Alija, Qwen2.5-Max, ki je presegel DeepSeek-V3 in se s skupno oceno 1332 uvrstil na sedmo mesto v skupni razvrstitvi.

Z enim zamahom je presegel tudi modele, kot sta Claude 3.5 Sonnet in Llama 3.1 405B.

zlasti blesti v programiranju in matematiki, in je uvrščen na prvo mesto poleg Fullblood o1 in DeepSeek-R1.

Chatbot Arena je velika platforma za testiranje zmogljivosti modelov, ki jo je lansiral LMSYS Org. Trenutno združuje več kot 190 modelov in uporablja modele, združene v skupine po dva, ki se dajo uporabnikom za slepo testiranje, pri čemer uporabniki glasujejo o sposobnostih modelov na podlagi svojih pogovornih izkušenj v resničnem življenju.

Iz tega razloga je Chatbot Arena LLM Leaderboard najbolj avtoritativno in pomembno prizorišče za najboljše svetovne modele.

Qwen 2,5-maks prebil med prvo deseterico tudi na novoodprti WebDev seznam za razvoj spletnih aplikacij.

Uradni komentar lmsys o tem je takšen Kitajska umetna inteligenca hitro zapolnjuje vrzel!

Uporabniki interneta, ki so ga osebno uporabljali, pravijo, da je delovanje Qwen bolj stabilno.

Nekateri celo pravijo, da bo Qwen kmalu zamenjal vse običajne modele v Silicijevi dolini.

Štiri individualne sposobnosti dosežejo vrh

Prvo in drugo mesto med prvimi tremi na skupnem seznamu je zasedla družina Google Gemini, GPT-4o in DeepSeek-R1 pa sta bila na tretjem mestu.

Qwen2.5-Max je izenačen na sedmo mesto s predogledom o1, rahlo zaostaja za polnim o1.

Sledi uspešnost Qwen2.5-Max v vsaki posamezni kategoriji.

V bolj logično matematika in koda nalog, so rezultati Qwen2.5-Max presegli rezultate o1-mini in se je na prvem mestu izenačil s popolnoma napolnjenima o1 in DeepSeek-R1.

In med modeli, ki so na prvem mestu na matematičnem seznamu, je Qwen2.5-Max edini model, ki ne razmišlja.

Če pozorno pogledate zapise o specifičnih bitkah, lahko vidite tudi, da ima Qwen2.5-Max zmagovalno stopnjo 69% v sposobnosti kodiranja proti polnokrvnemu o1.

V zapletena pozivna beseda naloga, Qwen2.5-Max in o1-preview izenačena z drugim mestom, in če je omejena na angleščino, se lahko uvrsti na prvo mesto, enako kot o1-preview, DeepSeek-R1 itd.

Poleg tega je Qwen2.5-Max izenačen na prvem mestu z DeepSeek-R1 v večobratni dialog; se uvršča na tretje mesto dolgo besedilo (ne manj kot 500 žetonov), ki presega o1-preview.

Poleg tega je Ali v tehničnem poročilu pokazal tudi zmogljivost Qwen2.5-Max na nekaterih klasičnih seznamih.

V primerjavi modelov ukazov je Qwen2.5-Max na enaki ali višji ravni kot GPT-4o in Claude 3.5-Sonnet v merilih, kot sta Arena-Hard (podobno človeškim preferencam) in MMLU-Pro (znanje na univerzitetni ravni).

V primerjavi z odprtokodnim osnovnim modelom je Qwen2.5-Max prav tako presegel DeepSeek-V3 na vseh področjih in bil precej pred Llamo 3.1-405B.

Kar zadeva osnovni model, je tudi Qwen2.5-Max pokazal pomembno prednost v večini primerjalnih testov (osnovni model zaprtokodnega modela ni dostopen, zato je mogoče primerjati le odprtokodni model).

Izjemna koda/sklep, podpira artefakte

Po predstavitvi Qwen2.5-Max ga je prišlo preizkusiti veliko število uporabnikov interneta.

Ugotovljeno je bilo, da je odličen na področjih, kot sta koda in sklepanje.

Na primer, naj napiše šahovsko partijo v JavaScriptu.

Hvala za Artefakti, majhno igro, razvito v enem stavku, je mogoče igrati takoj:

kodo, ki jo ustvari, je pogosto lažje brati in uporabljati.

Qwen2.5-Max je hiter in natančen pri sklepanju zapletenih pozivov:

Vaša ekipa ima 3 korake za obravnavo zahtev strank:

Zbiranje podatkov (faza A): 5 minut na zahtevo.

Obdelava (faza B): 10 minut na zahtevo.

Preverjanje (stopnja C): 8 minut na zahtevo.

Ekipa trenutno deluje zaporedno, vendar razmišljate o vzporednem delovnem toku. Če vsaki stopnji dodelite dve osebi in omogočite vzporedni potek dela, se bo proizvodnja na uro povečala za 20%. Vendar bo dodajanje vzporednega delovnega toka stalo 15% več v smislu operativnih režijskih stroškov. Ali bi morali glede na čas in stroške uporabiti vzporedni potek dela za optimizacijo učinkovitosti?

Qwen2.5-Max dokonča celotno sklepanje v manj kot 30 sekundah, pri čemer celoten proces jasno razdeli na pet korakov: analiza trenutnega delovnega toka, analiza vzporednih delovnih tokov, stroškovne posledice, kompromisi glede stroškovne učinkovitosti in zaključki.

Končni sklep je hitro dosežen: uporabiti je treba vzporedne delovne tokove.

V primerjavi z DeepSeek-V3, ki je prav tako model brez sklepanja, Qwen2.5-Max zagotavlja bolj jedrnat in hiter odziv.

Ali pa naj ustvari vrtečo se kroglo, sestavljeno iz števk ASCII. Številka, ki je najbližja kotu gledanja, je čisto bela, medtem ko najbolj oddaljena postopoma postane siva s črnim ozadjem.

Štetje števila določenih črk v besedi je še lažje.

Če ga želite preizkusiti sami, je Qwen2.5-Max že na spletu na platformi Qwen Chat in ga lahko izkusite brezplačno.

Podjetniški uporabniki lahko pokličejo API modela Qwen2.5-Max na Alibaba Cloud Bailian.

Podobne objave

Dodaj odgovor

Vaš e-naslov ne bo objavljen. * označuje zahtevana polja