Most újabb hazai modell került fel a Big Model Arena listájára
Alitól, Qwen2.5-Max, amely megelőzte az DeepSeek-V3-at, és 1332 összpontszámmal a hetedik helyen végzett az összesített rangsorban.
Egy csapásra felülmúlta az olyan modelleket is, mint a Claude 3.5 Sonnet és a Llama 3.1 405B.

Különösen, programozásban és matematikában jeleskedik, és az első helyen szerepel a Fullblood o1 és az DeepSeek-R1 mellett.

A Chatbot Arena egy nagy modellek teljesítménytesztelő platformja, amelyet az LMSYS Org. Jelenleg több mint 190 modellt integrál, és kétfős csapatokban párosított modelleket használ, amelyeket vaktesztre adnak át a felhasználóknak, és a felhasználók valós beszélgetési tapasztalataik alapján szavaznak a modellek képességeire.
Emiatt a Chatbot Arena LLM Leaderboard a leghitelesebb és legfontosabb színtér a világ legnagyobb nagymodelljei számára.
Qwen 2.5-Max is betört az első tízbe az újonnan nyílt WebDev lista a webalkalmazások fejlesztéséhez.

A hivatalos lmsys megjegyzés erről szól A kínai mesterséges intelligencia gyorsan csökkenti a különbséget!

Azok a netezők, akik személyesen használták, azt mondják, hogy Qwen teljesítménye stabilabb.

Vannak, akik azt is mondják, hogy a Qwen hamarosan az összes szokásos modellt lecseréli a Szilícium-völgyben.

Négy egyéni képesség éri el a csúcsot
Az összesített lista első három helyén az első és második helyet a Google Gemini család szerezte meg, a harmadik helyen holtversenyben a GPT-4o és az DeepSeek-R1 végzett.
A Qwen2.5-Max holtversenyben a hetedik helyen végzett az o1-előzetessel, kissé lemaradva a teljes o1-től.

A következő a Qwen2.5-Max teljesítménye az egyes kategóriákban.
A logikusabbnál matematika és kód feladatokban a Qwen2.5-Max eredménye meghaladta az o1-miniét, és holtversenyben az első helyen végzett a teljesen feltöltött o1-el és DeepSeek-R1-gyel.
A matematikai lista első helyén holtversenyben álló modellek közül pedig a Qwen2.5-Max az egyetlen nem okoskodó modell.

Ha alaposan megnézzük a konkrét csatarekordokat, azt is láthatjuk, hogy a Qwen2.5-Max 69% nyerési arányú kódképességgel rendelkezik a teljes vérű o1-gyel szemben.

A összetett felszólító szó feladat, a Qwen2.5-Max és az o1-preview holtversenyben a második helyen áll, és ha csak angolra korlátozódik, akkor első helyen állhat, egyenrangú az o1-preview, DeepSeek-R1 stb.

Ezenkívül a Qwen2.5-Max holtversenyben az első helyen áll az DeepSeek-R1-gyel többfordulós párbeszéd; a harmadik helyen áll hosszú szöveg (nem kevesebb, mint 500 token), felülmúlva az o1-előzetet.

Ezenkívül Ali a Qwen2.5-Max teljesítményét is megmutatta néhány klasszikus listán a technikai jelentésben.
A parancsmodellek összehasonlításában a Qwen2.5-Max a GPT-4o-val és a Claude 3.5-Sonnet-tel azonos vagy magasabb szinten van olyan benchmarkokban, mint az Arena-Hard (hasonlóan az emberi preferenciákhoz) és az MMLU-Pro (egyetemi szintű tudás).
A nyílt forráskódú alapmodell-összehasonlításban a Qwen2.5-Max is felülmúlta az DeepSeek-V3-at, és jóval megelőzte a Llama 3.1-405B-t.

Ami az alapmodellt illeti, a Qwen2.5-Max is jelentős előnyt mutatott a legtöbb benchmark tesztben (a zárt forráskódú modell alapmodellje nem érhető el, így csak a nyílt forráskódú modellt lehet összehasonlítani).

Kiváló kód/következtetés, támogatja az Artifacts-t
A Qwen2.5-Max megjelenése után rengeteg netező érkezett tesztelni.
Úgy találták, hogy kiváló olyan területeken, mint a kódolás és a következtetés.
Például írjon egy sakkjátszmát JavaScriptben.
Köszönhetően Műtárgyak, az egyetlen mondatban kidolgozott kis játék azonnal játszható:

az általa generált kód gyakran könnyebben olvasható és használható.
A Qwen2.5-Max gyors és pontos, amikor összetett utasításokra következtet:
Csapatának 3 lépése van az ügyfelek kérésének kezelésére:
Adatgyűjtés (A szakasz): kérésenként 5 perc.
Feldolgozás (B szakasz): kérésenként 10 perc.
Ellenőrzés (C szakasz): kérésenként 8 perc.
A csapat jelenleg szekvenciálisan dolgozik, de Ön párhuzamos munkafolyamatot fontolgat. Ha minden szakaszhoz két embert rendel, és lehetővé teszi a párhuzamos munkafolyamatot, az óránkénti teljesítmény 20%-vel nő. A párhuzamos munkafolyamat hozzáadása azonban 15%-vel többe fog kerülni az üzemeltetési általános költségek tekintetében. Figyelembe véve az időt és a költségeket, érdemes párhuzamos munkafolyamatot alkalmazni a hatékonyság optimalizálása érdekében?
A Qwen2.5-Max kevesebb, mint 30 másodperc alatt elvégzi a teljes következtetést, egyértelműen öt lépésre osztva a teljes folyamatot: az aktuális munkafolyamat elemzése, a párhuzamos munkafolyamatok elemzése, a költségvonzatok, a költséghatékonysági kompromisszumok és a következtetések.
A végső következtetés gyorsan levonható: párhuzamos munkafolyamatokat kell alkalmazni.
Az DeepSeek-V3-hoz képest, amely szintén nem következtetési modell, a Qwen2.5-Max tömörebb és gyorsabb választ ad.
Vagy hagyja, hogy ASCII számjegyekből álló forgó gömböt generáljon. A látószöghez legközelebb eső számjegy tiszta fehér, a legtávolabbi pedig fokozatosan szürkül, fekete háttérrel.
Még egyszerűbb megszámolni egy szóban szereplő betűk számát.

Ha szeretnéd kipróbálni magad, a Qwen2.5-Max már online is elérhető a Qwen Chat platformon, és ingyenesen kipróbálhatod.
A vállalati felhasználók hívhatják a Qwen2.5-Max modell API-t az Alibaba Cloud Bailian webhelyen.
