Току-що друг домашен модел беше добавен към списъка на Big Model Arena
от Али, Qwen2.5-Макс, който надмина DeepSeek-V3 и се класира на седмо място в общата класация с общ резултат от 1332.
Той също така надмина модели като Claude 3.5 Sonnet и Llama 3.1 405B с един замах.

по-специално, той е отличен в програмирането и математиката, и е класиран на първо място заедно с Fullblood o1 и DeepSeek-R1.

Chatbot Arena е голяма платформа за тестване на производителността на модели, стартирана от LMSYS Org. Понастоящем той интегрира повече от 190 модела и използва модели, сдвоени в екипи от по двама, за да бъдат дадени на потребителите за сляпо тестване, като потребителите гласуват за способностите на моделите въз основа на техния опит в разговор в реалния живот.
Поради тази причина Chatbot Arena LLM Leaderboard е най-авторитетната и важна арена за най-големите световни модели.
Qwen 2.5-Макс също проби в челната десетка на новооткритите WebDev списък за разработка на уеб приложения.

Официалният коментар на lmsys за това е следният Китайският AI бързо намалява разликата!

Нетизени, които лично са го използвали, казват, че работата на Qwen е по-стабилна.

Някои хора дори казват, че Qwen скоро ще замени всички обикновени модели в Силиконовата долина.

Четири индивидуални способности достигат върха
Първото и второто място в челната тройка на общия списък бяха заети от семейството на Google Gemini, като GPT-4o и DeepSeek-R1 бяха обвързани за третото място.
Qwen2.5-Max е на седмо място с o1-preview, малко зад пълния o1.

Следва представянето на Qwen2.5-Max във всяка отделна категория.
В по-логичното математика и код задачи, резултатите на Qwen2.5-Max надминаха тези на o1-mini и той изравни първото място с напълно заредените o1 и DeepSeek-R1.
И сред моделите, обвързани за първо място в математическия списък, Qwen2.5-Max е единственият модел без разсъждение.

Ако се вгледате внимателно в записите за конкретни битки, можете също да видите, че Qwen2.5-Max има 69% процент на победа в способността за код срещу пълнокръвния o1.

В сложна подканваща дума задача, Qwen2.5-Max и o1-preview обвързани за второ място, и ако е ограничено до английски, може да се класира на първо място, наравно с o1-preview, DeepSeek-R1 и т.н.

В допълнение, Qwen2.5-Max е равен на първото място с DeepSeek-R1 в многооборотен диалог; се нарежда на трето място в дълъг текст (не по-малко от 500 жетона), надминавайки o1-preview.

Освен това Али също показа представянето на Qwen2.5-Max в някои класически списъци в техническия доклад.
При сравнението на командните модели Qwen2.5-Max е на същото или по-високо ниво от GPT-4o и Claude 3.5-Sonnet в бенчмаркове като Arena-Hard (подобно на човешките предпочитания) и MMLU-Pro (знание на университетско ниво).
В сравнението на базовия модел с отворен код, Qwen2.5-Max също превъзхожда DeepSeek-V3 като цяло и е доста пред Llama 3.1-405B.

Що се отнася до базовия модел, Qwen2.5-Max също показа значително предимство в повечето бенчмарк тестове (базовият модел със затворен код не е достъпен, така че може да се сравнява само моделът с отворен код).

Изключителен код/извод, поддържа артефакти
След пускането на пазара на Qwen2.5-Max голям брой нетизени дойдоха да го тестват.
Установено е, че превъзхожда в области като код и извод.
Например, оставете го да напише игра на шах в JavaScript.
Благодарение на Артефакти, малка игра, разработена в едно изречение, може да се играе веднага:

кодът, който генерира, често е по-лесен за четене и използване.
Qwen2.5-Max е бърз и точен при извеждане на сложни подкани:
Вашият екип има 3 стъпки за обработка на клиентски заявки:
Събиране на данни (етап A): 5 минути на заявка.
Обработка (етап B): 10 минути на заявка.
Проверка (етап C): 8 минути на заявка.
В момента екипът работи последователно, но вие обмисляте паралелен работен процес. Ако назначите двама души на всеки етап и позволите паралелен работен процес, продукцията на час ще се увеличи с 20%. Добавянето на паралелен работен поток обаче ще струва 15% повече по отношение на оперативните разходи. Имайки предвид времето и разходите, трябва ли да използвате паралелен работен процес, за да оптимизирате ефективността?
Qwen2.5-Max завършва целия извод за по-малко от 30 секунди, като ясно разделя цялостния процес на пет стъпки: анализ на текущия работен процес, анализ на паралелни работни потоци, последици за разходите, компромиси за ефективност на разходите и заключения.
Крайният извод се стига бързо: трябва да се използват паралелни работни процеси.
В сравнение с DeepSeek-V3, който също е модел без изводи, Qwen2.5-Max осигурява по-кратък и бърз отговор.
Или го оставете да генерира въртяща се сфера, съставена от ASCII цифри. Цифрата, която е най-близо до зрителния ъгъл, е чисто бяла, докато най-отдалечената постепенно става сива с черен фон.
Преброяването на броя на конкретните букви в една дума е още по-лесно.

Ако искате да го изпробвате сами, Qwen2.5-Max вече е онлайн в платформата Qwen Chat и можете да го изпробвате безплатно.
Корпоративните потребители могат да се обадят на API на модела Qwen2.5-Max на Alibaba Cloud Bailian.
