Ką tik į „Big Model Arena“ sąrašą buvo įtrauktas dar vienas šalies modelis

nuo Ali, Qwen2.5-Max, kuris aplenkė DeepSeek-V3 ir bendroje įskaitoje užėmė septintąją vietą su 1332 balais.

Jis taip pat vienu ypu pranoko tokius modelius kaip Claude 3.5 Sonnet ir Llama 3.1 405B.

Visų pirma, jam puikiai sekasi programavimas ir matematika, ir yra pirmoje vietoje kartu su Fullblood o1 ir DeepSeek-R1.

„Chatbot Arena“ yra didelė modelių veikimo testavimo platforma, kurią pradėjo LMSYS Org. Šiuo metu jame integruota daugiau nei 190 modelių ir naudojami modeliai, suporuoti į dvi komandas, kad jie būtų duodami vartotojams akliesiems testams, o vartotojai balsuoja už modelių gebėjimus, remdamiesi savo realaus gyvenimo pokalbių patirtimi.

Dėl šios priežasties „Chatbot Arena LLM Leaderboard“ yra autoritetingiausia ir svarbiausia didžiausių pasaulio modelių arena.

Qwen 2.5-Max taip pat prasibrovė į dešimtuką naujai atidarytame WebDev interneto programų kūrimo sąrašas.

Oficialus lmsys komentaras šiuo klausimu yra toks Kinijos AI sparčiai mažina atotrūkį!

Asmeniškai juo pasinaudoję internautai teigia, kad Qweno veikla yra stabilesnė.

Kai kurie žmonės netgi sako, kad „Qwen“ netrukus pakeis visus įprastus modelius Silicio slėnyje.

Keturi individualūs sugebėjimai pasiekia viršūnę

Pirmąją ir antrąją vietas bendrojo sąrašo trejetuke užėmė „Google Gemini“ šeima, o trečią vietą užėmė GPT-4o ir DeepSeek-R1.

Qwen2.5-Max užėmė septintąją vietą su o1 peržiūra, šiek tiek atsiliekant nuo viso o1.

Kitas yra Qwen2.5-Max našumas kiekvienoje atskiroje kategorijoje.

Logiškiau matematika ir kodas „Qwen2.5-Max“ rezultatai viršijo „o1-mini“ rezultatus ir užėmė pirmąją vietą su visiškai įkrautu o1 ir DeepSeek-R1.

Ir tarp modelių, užėmusių pirmąją vietą matematikos sąraše, Qwen2.5-Max yra vienintelis nepagrįstas modelis.

Jei atidžiai pažvelgsite į konkrečius mūšio įrašus, taip pat galite pamatyti, kad „Qwen2.5-Max“ turi 69% laimėjimo koeficientą, palyginti su visaverčiu o1.

Į sudėtingas greitas žodis užduotis, Qwen2.5-Max ir o1-preview užėmė antrąją vietą, o jei ji apsiriboja anglų kalba, ji gali būti pirmoje vietoje, lygiavertė o1-preview, DeepSeek-R1 ir kt.

Be to, Qwen2.5-Max yra lygiai pirmoje vietoje su DeepSeek-R1. kelių posūkių dialogas; užima trečią vietą ilgas tekstas (ne mažiau kaip 500 žetonų), pranoksta o1 peržiūrą.

Be to, Ali taip pat parodė Qwen2.5-Max našumą kai kuriuose klasikiniuose techninės ataskaitos sąrašuose.

Lyginant komandų modelius, Qwen2.5-Max yra tokio paties lygio arba aukštesnis nei GPT-4o ir Claude 3.5-Sonnet pagal tokius etalonus kaip Arena-Hard (panašus į žmogaus pageidavimus) ir MMLU-Pro (universiteto lygio žinios).

Atvirojo kodo bazinio modelio palyginime Qwen2.5-Max taip pat pranoko DeepSeek-V3 ir gerokai lenkė Llama 3.1-405B.

Kalbant apie bazinį modelį, Qwen2.5-Max taip pat parodė didelį pranašumą daugumoje etaloninių testų (uždaro kodo modelio bazinis modelis nėra prieinamas, todėl galima palyginti tik atvirojo kodo modelį).

Išskirtinis kodas / išvada, palaiko artefaktus

Paleidus Qwen2.5-Max, daugybė internautų atėjo jo išbandyti.

Nustatyta, kad jis puikiai tinka tokiose srityse kaip kodas ir išvados.

Pavyzdžiui, leiskite jam parašyti šachmatų žaidimą JavaScript.

Ačiū Artefaktai, nedidelį žaidimą, sukurtą vienu sakiniu, galima žaisti iš karto:

jos sugeneruotą kodą dažnai lengviau skaityti ir naudoti.

Qwen2.5-Max yra greitas ir tikslus, kai nustato sudėtingus raginimus:

Jūsų komanda turi 3 veiksmus klientų užklausoms tvarkyti:

Duomenų rinkimas (A etapas): 5 minutės vienam užklausai.

Apdorojimas (B etapas): 10 minučių vienam prašymui.

Patikrinimas (C etapas): 8 minutės vienam prašymui.

Šiuo metu komanda dirba nuosekliai, bet jūs svarstote lygiagrečią darbo eigą. Jei kiekvienam etapui priskirsite du žmones ir leisite lygiagrečią darbo eigą, išeiga per valandą padidės 20%. Tačiau lygiagrečios darbo eigos pridėjimas kainuos 15% daugiau, atsižvelgiant į veiklos pridėtines išlaidas. Ar, atsižvelgiant į laiką ir išlaidas, turėtumėte naudoti lygiagrečią darbo eigą, kad optimizuotumėte efektyvumą?

Qwen2.5-Max užbaigia visą išvadą per mažiau nei 30 sekundžių, aiškiai padalydamas visą procesą į penkis etapus: dabartinės darbo eigos analizę, lygiagrečių darbo eigų analizę, sąnaudų padarinius, ekonominio efektyvumo kompromisus ir išvadas.

Greitai daroma galutinė išvada: turėtų būti naudojamos lygiagrečios darbo eigos.

Palyginti su DeepSeek-V3, kuris taip pat nėra išvados modelis, Qwen2.5-Max suteikia glaustesnį ir greitesnį atsaką.

Arba leiskite sugeneruoti besisukančią sferą, sudarytą iš ASCII skaitmenų. Arčiausiai žiūrėjimo kampo esantis skaitmuo yra visiškai baltas, o toliausiai esantis skaitmuo pamažu tampa pilkas ir juodas fonas.

Suskaičiuoti konkrečių raidžių skaičių žodyje yra dar lengviau.

Jei norite tai išbandyti patys, „Qwen2.5-Max“ jau yra prisijungęs prie „Qwen Chat“ platformos ir jas galite išbandyti nemokamai.

Įmonės vartotojai gali paskambinti Qwen2.5-Max modelio API Alibaba Cloud Bailian.

Panašios žinutės

Parašykite komentarą

El. pašto adresas nebus skelbiamas. Būtini laukeliai pažymėti *