Netnou is nog 'n huishoudelike model by die Big Model Arena-lys gevoeg

van Ali, Qwen2.5-Maks, wat DeepSeek-V3 verbygesteek het en die sewende plek op die algehele ranglys beklee met 'n totale telling van 1332.

Dit het ook modelle soos Claude 3.5 Sonnet en Llama 3.1 405B in een klap verbygesteek.

In die besonder, dit blink uit in programmering en wiskunde, en is eerste gerangskik langs Fullblood o1 en DeepSeek-R1.

Chatbot Arena is 'n groot model prestasietoetsplatform wat deur LMSYS Org. Dit integreer tans meer as 190 modelle, en gebruik modelle wat in spanne van twee gepaar is om aan gebruikers gegee te word vir blinde toetsing, met gebruikers wat oor die vermoëns van die modelle stem op grond van hul werklike gesprekservarings.

Om hierdie rede is die Chatbot Arena LLM Leaderboard die mees gesaghebbende en belangrikste arena vir die wêreld se top groot modelle.

Qwen 2.5-Maks het ook by die toptien ingebreek op die nuut geopen WebDev lys vir webtoepassingsontwikkeling.

Die amptelike lmsys kommentaar hierop is dat Chinese KI is vinnig besig om die gaping te sluit!

Netizens wat dit persoonlik gebruik het, sê dat Qwen se prestasie meer stabiel is.

Sommige mense sê selfs dat Qwen binnekort alle gewone modelle in Silicon Valley gaan vervang.

Vier individuele vermoëns bereik die top

Die eerste en tweede plekke in die top drie van die algehele lys is deur die Google Gemini-familie ingeneem, met GPT-4o en DeepSeek-R1 gelykop vir die derde plek.

Qwen2.5-Max gelykop vir die sewende plek met o1-voorskou, effens agter die volle o1.

Volgende is Qwen2.5-Max se prestasie in elke individuele kategorie.

In die meer logiese wiskunde en kode take, het Qwen2.5-Max se resultate dié van o1-mini oortref, en dit het gelykop vir die eerste plek met die volgelaaide o1 en DeepSeek-R1.

En onder die modelle wat gelyk is vir die eerste plek op die wiskundelys, is Qwen2.5-Max die enigste nie-redenerende model.

As jy noukeurig na die spesifieke gevegsrekords kyk, kan jy ook sien dat Qwen2.5-Max 'n 69% wenkoers het in kodevermoë teenoor die volbloed o1.

In die komplekse vinnige woord taak, Qwen2.5-Max en o1-voorskou gelykop vir die tweede plek, en as dit beperk is tot Engels, kan dit eerste rangskik, op gelyke voet met o1-voorskou, DeepSeek-R1, ens.

Daarbenewens is Qwen2.5-Max gelykop vir die eerste plek met DeepSeek-R1 in multi-draai dialoog; dit beklee die derde plek lang teks (nie minder nie as 500 tokens), wat o1-voorskou oortref.

Daarbenewens het Ali ook Qwen2.5-Max se prestasie op 'n paar klassieke lyste in die tegniese verslag gewys.

In die vergelyking van bevelmodelle is Qwen2.5-Max op dieselfde vlak as of hoër as GPT-4o en Claude 3.5-Sonnet in maatstawwe soos Arena-Hard (soortgelyk aan menslike voorkeure) en MMLU-Pro (universiteitsvlakkennis).

In die oopbron-basismodelvergelyking het Qwen2.5-Max ook beter as DeepSeek-V3 oor die hele linie gevaar en was ver voor Llama 3.1-405B.

Wat die basismodel betref, het Qwen2.5-Max ook 'n beduidende voordeel in die meeste maatstaftoetse getoon (die geslotebronmodelbasismodel is nie toeganklik nie, dus kan slegs die oopbronmodel vergelyk word).

Uitstekende kode/afleiding, ondersteun artefakte

Nadat Qwen2.5-Max bekend gestel is, het 'n groot aantal netizens dit kom toets.

Daar is gevind dat dit uitblink op gebiede soos kode en afleiding.

Laat dit byvoorbeeld 'n skaakspeletjie in JavaScript skryf.

Danksy Artefakte, 'n klein speletjie wat in 'n enkele sin ontwikkel is, kan onmiddellik gespeel word:

die kode wat dit genereer is dikwels makliker om te lees en te gebruik.

Qwen2.5-Max is vinnig en akkuraat wanneer komplekse opdragte afgelei word:

Jou span het 3 stappe om kliënteversoeke te hanteer:

Data-insameling (stadium A): 5 minute per versoek.

Verwerking (stadium B): 10 minute per versoek.

Verifikasie (stadium C): 8 minute per versoek.

Die span werk tans opeenvolgend, maar jy oorweeg 'n parallelle werkvloei. As jy twee mense aan elke stadium toewys en voorsiening maak vir 'n parallelle werkvloei, sal die uitset per uur met 20% toeneem. Die byvoeging van 'n parallelle werkvloei sal egter 15% meer kos in terme van bedryfsbokoste. As u die tyd en koste in ag neem, moet u 'n parallelle werkvloei gebruik om doeltreffendheid te optimaliseer?

Qwen2.5-Max voltooi die hele afleiding in minder as 30 sekondes, wat die algehele proses duidelik in vyf stappe verdeel: ontleding van die huidige werkvloei, ontleding van parallelle werkvloeie, koste-implikasies, kostedoeltreffendheid-afwegings en gevolgtrekkings.

Die finale gevolgtrekking word vinnig bereik: parallelle werkstrome moet gebruik word.

In vergelyking met DeepSeek-V3, wat ook 'n nie-afleidingsmodel is, bied Qwen2.5-Max 'n meer bondige en vinnige reaksie.

Of laat dit 'n roterende sfeer genereer wat uit ASCII-syfers bestaan. Die syfer naaste aan die kykhoek is spierwit, terwyl die verste geleidelik grys word, met 'n swart agtergrond.

Om die aantal spesifieke letters in 'n woord te tel is selfs makliker.

As jy dit self wil probeer, is Qwen2.5-Max reeds aanlyn op die Qwen Chat-platform en kan dit gratis ervaar word.

Ondernemingsgebruikers kan die Qwen2.5-Max-model-API op Alibaba Cloud Bailian bel.

Soortgelyke plasings

Maak 'n opvolg-bydrae

Jou e-posadres sal nie gepubliseer word nie. Verpligte velde word met * aangedui