Just nüüd lisandus Big Model Arena nimekirja veel üks kodumaine modell

Alilt, Qwen2.5-Max, mis ületas DeepSeek-V3 ja saavutas üldarvestuses seitsmenda koha koguskooriga 1332.

Samuti ületas see ühe hoobiga selliseid mudeleid nagu Claude 3.5 Sonnet ja Llama 3.1 405B.

Eelkõige see paistab silma programmeerimises ja matemaatikas, ning on Fullblood o1 ja DeepSeek-R1 kõrval esikohal.

Chatbot Arena on suur mudeli jõudluse testimise platvorm, mille käivitas LMSYS Org. Praegu integreerib see enam kui 190 mudelit ja kasutab kaheliikmelisteks meeskondadeks paaritud mudeleid, mis antakse kasutajatele pimetestimiseks, kusjuures kasutajad hääletavad mudelite võimete üle nende tegelike vestluskogemuste põhjal.

Sel põhjusel on Chatbot Arena LLM-i edetabel maailma tippmudelite jaoks kõige autoriteetsem ja olulisem areen.

Qwen 2.5-Max murdis ka äsjaavatud esikümnesse WebDev nimekiri veebirakenduste arendamiseks.

Ametlik lmsysi kommentaar selle kohta on selline Hiina tehisintellekt kahandab kiiresti vahet!

Seda isiklikult kasutanud netiinimesed ütlevad, et Qweni jõudlus on stabiilsem.

Mõned inimesed ütlevad isegi, et Qwen vahetab Silicon Valleys varsti välja kõik tavalised mudelid.

Neli individuaalset võimet jõuavad tippu

Üldnimekirja esikolmiku esimese ja teise koha hõivas perekond Google Gemini, kolmanda koha jagasid GPT-4o ja DeepSeek-R1.

Qwen2.5-Max jagas o1-eelvaatega seitsmendat kohta, jäädes veidi alla täielikule o1-le.

Järgmine on Qwen2.5-Maxi jõudlus igas individuaalses kategoorias.

Loogilisemas osas matemaatika ja kood Ülesannete täitmisel ületasid Qwen2.5-Maxi tulemused o1-mini tulemusi ja saavutas täislaetud o1 ja DeepSeek-R1 esikoha.

Ja matemaatika edetabelis esikohale jaganud mudelite hulgas on Qwen2.5-Max ainuke põhjendamatu mudel.

Kui vaatate tähelepanelikult konkreetseid lahingurekordeid, näete ka seda, et Qwen2.5-Maxil on koodivõime 69% võidumäär täisverelise o1 vastu.

Aastal keeruline käsksõna ülesanne, Qwen2.5-Max ja o1-preview jagasid teise koha ning kui see piirdub inglise keelega, võib see olla esikohal, samaväärselt o1-preview, DeepSeek-R1 jne.

Lisaks jagab Qwen2.5-Max esikohale DeepSeek-R1 mitme pöördega dialoog; see on kolmandal kohal pikk tekst (mitte vähem kui 500 märki), ületades o1-eelvaate.

Lisaks näitas Ali ka Qwen2.5-Maxi jõudlust mõnes klassikalises nimekirjas tehnilises aruandes.

Käsumudelite võrdluses on Qwen2.5-Max GPT-4o ja Claude 3.5-Sonnetiga samal või kõrgemal tasemel sellistes benchmarkides nagu Arena-Hard (sarnane inimese eelistustele) ja MMLU-Pro (ülikoolitaseme teadmised).

Avatud lähtekoodiga baasmudelite võrdluses ületas Qwen2.5-Max ka DeepSeek-V3 ja edestas tublisti Llama 3.1-405B.

Mis puutub baasmudelisse, siis Qwen2.5-Max näitas ka enamikes võrdlustestides olulist eelist (suletud lähtekoodiga mudeli baasmudel pole ligipääsetav, seega saab võrrelda ainult avatud lähtekoodiga mudelit).

Silmapaistev kood/järeldus, toetab artefakte

Pärast Qwen2.5-Maxi turule toomist tuli seda testima suur hulk netikülastajaid.

On leitud, et see paistab silma sellistes valdkondades nagu kood ja järeldused.

Näiteks lase tal kirjutada JavaScriptis malemäng.

Tänu Artefaktid, ühes lauses arendatud väikest mängu saab kohe mängida:

selle loodud koodi on sageli lihtsam lugeda ja kasutada.

Qwen2.5-Max on keerukate viipade järeldamisel kiire ja täpne:

Teie meeskonnal on klientide taotluste käsitlemiseks kolm sammu:

Andmete kogumine (etapp A): 5 minutit päringu kohta.

Töötlemine (etapp B): 10 minutit taotluse kohta.

Kontrollimine (C-etapp): 8 minutit taotluse kohta.

Meeskond töötab praegu järjestikku, kuid te kaalute paralleelset töövoogu. Kui määrate igale etapile kaks inimest ja võimaldate paralleelset töövoogu, suureneb tunni väljund 20% võrra. Paralleelse töövoo lisamine maksab aga üldkulude osas 15% rohkem. Kas aega ja kulusid arvestades tuleks tõhususe optimeerimiseks kasutada paralleelset töövoogu?

Qwen2.5-Max lõpetab kogu järelduse vähem kui 30 sekundiga, jagades kogu protsessi selgelt viieks etapiks: praeguse töövoo analüüs, paralleelsete töövoogude analüüs, kulumõjud, kulutõhususe kompromissid ja järeldused.

Kiiresti jõutakse lõplikule järeldusele: tuleks kasutada paralleelseid töövooge.

Võrreldes mudeliga DeepSeek-V3, mis on samuti mittetulemuslik mudel, pakub Qwen2.5-Max lakoonilisemat ja kiiremat reageeringut.

Või laske sellel luua ASCII-numbritest koosnev pöörlev sfäär. Vaatenurgale lähim number on puhas valge, kaugeim number muutub järk-järgult halliks ja musta taustaga.

Konkreetsete tähtede loendamine sõnas on veelgi lihtsam.

Kui soovite seda ise proovida, on Qwen2.5-Max juba Qwen Chati platvormil võrgus ja seda saab tasuta kogeda.

Ettevõtluskasutajad saavad Alibaba Cloud Bailianis helistada Qwen2.5-Max mudeli API-le.

Sarnased postitused

Lisa kommentaar

Sinu e-postiaadressi ei avaldata. Nõutavad väljad on tähistatud *-ga