Juuri nyt Big Model Arena -listalle lisättiin toinen kotimainen malli

Alilta, Qwen 2.5-Max, joka ohitti DeepSeek-V3:n ja sijoittui seitsemänneksi kokonaispistemäärällä 1332.

Se ohitti myös mallit, kuten Claude 3.5 Sonnet ja Llama 3.1 405B yhdellä iskulla.

Erityisesti, se on erinomainen ohjelmoinnissa ja matematiikassa, ja se on ensimmäisellä sijalla Fullblood o1:n ja DeepSeek-R1:n rinnalla.

Chatbot Arena on suuri mallien suorituskyvyn testausalusta, jonka on lanseerannut LMSYS Org. Se integroi tällä hetkellä yli 190 mallia ja käyttää malleja, jotka on yhdistetty kahden hengen ryhmiin, jotka annetaan käyttäjille sokkotestaukseen, jolloin käyttäjät äänestävät mallien kyvyistä tosielämän keskustelukokemustensa perusteella.

Tästä syystä Chatbot Arena LLM Leaderboard on arvovaltaisin ja tärkein areena maailman suurimmille suurille malleille.

Qwen 2.5-Max myös murtautui kymmenen parhaan joukkoon juuri avatulla WebDev luettelo verkkosovellusten kehittämiseen.

Virallinen lmsys-kommentti tähän on tämä Kiinalainen tekoäly kaventaa eroa nopeasti!

Sitä henkilökohtaisesti käyttäneet nettimiehet sanovat, että Qwenin suorituskyky on vakaampi.

Jotkut jopa sanovat, että Qwen korvaa pian kaikki tavalliset mallit Piilaaksossa.

Neljä yksilöllistä kykyä saavuttaa huipulle

Kokonaislistan kolmen parhaan joukon ensimmäiset ja toiset sijoittuivat Google Gemini -perheelle, ja GPT-4o ja DeepSeek-R1 jakavat kolmannen sijan.

Qwen2.5-Max sijoittui seitsemänneksi o1-esikatselulla, hieman jäljessä koko o1:stä.

Seuraavana on Qwen2.5-Maxin suorituskyky kussakin yksittäisessä kategoriassa.

Loogisemmin matematiikka ja koodi Tehtävissä Qwen2.5-Maxin tulokset ylittivät o1-minin tulokset, ja se sijoittui ensimmäiseksi täyteen ladatuilla o1:llä ja DeepSeek-R1:llä.

Ja matematiikan listan ensimmäiselle sijalle sijoittuneiden mallien joukossa Qwen2.5-Max on ainoa ei-järkevä malli.

Jos tarkastelet tarkkaan tiettyjä taisteluennätyksiä, voit myös nähdä, että Qwen2.5-Maxilla on 69%:n voittoprosentti koodikyvyssä täysiveristä o1:tä vastaan.

Vuonna monimutkainen kehotussana tehtävä, Qwen2.5-Max ja o1-preview sijoittuvat toiselle sijalle, ja jos se rajoittuu englannin kieleen, se voi sijoittua ensimmäiselle tasolle o1-esikatselun, DeepSeek-R1:n jne. kanssa.

Lisäksi Qwen2.5-Max jakaa ykkössijan DeepSeek-R1:n kanssa. usean kierroksen dialogia; se on kolmannella sijalla pitkä teksti (vähintään 500 merkkiä), ylittää o1-esikatselun.

Lisäksi Ali näytti myös Qwen2.5-Maxin suorituskyvyn joissakin klassisissa teknisissä raporteissa.

Komentomallien vertailussa Qwen2.5-Max on samalla tasolla tai korkeampi kuin GPT-4o ja Claude 3.5-Sonnet sellaisissa vertailuissa kuin Arena-Hard (samanlainen kuin ihmisen mieltymykset) ja MMLU-Pro (yliopistotason tieto).

Avoimen lähdekoodin perusmallivertailussa Qwen2.5-Max ylitti myös DeepSeek-V3:n kautta linjan ja oli selvästi Llama 3.1-405B:tä edellä.

Mitä tulee perusmalliin, Qwen2.5-Max osoitti myös merkittävän edun useimmissa vertailutesteissä (suljetun lähdekoodin mallin perusmalli ei ole käytettävissä, joten vain avoimen lähdekoodin mallia voidaan verrata).

Erinomainen koodi/päätelmä, tukee artefakteja

Kun Qwen2.5-Max lanseerattiin, suuri joukko verkkovieraita tuli testaamaan sitä.

Sen on havaittu olevan erinomaisia sellaisilla aloilla kuin koodi ja päättely.

Anna sen esimerkiksi kirjoittaa shakkipeli JavaScriptillä.

Ansiosta Artefaktit, yhdellä lauseella kehitettyä pientä peliä voidaan pelata heti:

sen luoma koodi on usein helpompi lukea ja käyttää.

Qwen2.5-Max on nopea ja tarkka, kun se päättelee monimutkaisia kehotteita:

Tiimilläsi on 3 vaihetta asiakkaiden pyyntöjen käsittelemiseksi:

Tiedonkeruu (vaihe A): 5 minuuttia per pyyntö.

Käsittely (vaihe B): 10 minuuttia per pyyntö.

Varmentaminen (vaihe C): 8 minuuttia per pyyntö.

Tiimi työskentelee tällä hetkellä peräkkäin, mutta harkitset rinnakkaista työnkulkua. Jos määrität kaksi henkilöä kuhunkin vaiheeseen ja sallit rinnakkaisen työnkulun, tunnin tuotto kasvaa 20%. Rinnakkaisen työnkulun lisääminen maksaa kuitenkin 15% enemmän käyttökulujen osalta. Kun otetaan huomioon aika ja kustannukset, pitäisikö sinun käyttää rinnakkaista työnkulkua tehokkuuden optimoimiseksi?

Qwen2.5-Max suorittaa koko päättelyn alle 30 sekunnissa jakaa koko prosessin selvästi viiteen vaiheeseen: nykyisen työnkulun analyysi, rinnakkaisten työnkulkujen analyysi, kustannusvaikutukset, kustannustehokkuuden kompromissit ja johtopäätökset.

Lopullinen johtopäätös tehdään nopeasti: rinnakkaisia työnkulkuja tulisi käyttää.

Verrattuna DeepSeek-V3:een, joka on myös ei-päätelmämalli, Qwen2.5-Max tarjoaa tiiviimmän ja nopeamman vastauksen.

Tai anna sen luoda pyörivä pallo, joka koostuu ASCII-numeroista. Katselukulmaa lähinnä oleva numero on puhtaan valkoinen, kun taas kauimpana oleva numero muuttuu vähitellen harmaaksi ja taustalla on musta.

Tiettyjen kirjainten määrän laskeminen sanassa on vielä helpompaa.

Jos haluat kokeilla sitä itse, Qwen2.5-Max on jo verkossa Qwen Chat -alustalla ja voit kokea sen ilmaiseksi.

Yrityskäyttäjät voivat soittaa Qwen2.5-Max-mallin API:lle Alibaba Cloud Bailianissa.

Samankaltaisia viestejä

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *