Ali Qwen2.5-Max изпреварва DeepSeek-V3! Netizen: Китайският изкуствен интелект бързо намалява пропастта

Току-що друг домашен модел беше добавен към списъка на Big Model Arena

от Али, Qwen2.5-Макс, който надмина DeepSeek-V3 и се класира на седмо място в общата класация с общ резултат от 1332.

Той също така надмина модели като Claude 3.5 Sonnet и Llama 3.1 405B с един замах.

по-специално, той е отличен в програмирането и математиката, и е класиран на първо място заедно с Fullblood o1 и DeepSeek-R1.

Chatbot Arena е голяма платформа за тестване на производителността на модели, стартирана от LMSYS Org. Понастоящем той интегрира повече от 190 модела и използва модели, сдвоени в екипи от по двама, за да бъдат дадени на потребителите за сляпо тестване, като потребителите гласуват за способностите на моделите въз основа на техния опит в разговор в реалния живот.

Поради тази причина Chatbot Arena LLM Leaderboard е най-авторитетната и важна арена за най-големите световни модели.

Qwen 2.5-Макс също проби в челната десетка на новооткритите WebDev списък за разработка на уеб приложения.

Официалният коментар на lmsys за това е следният Китайският AI бързо намалява разликата!

Нетизени, които лично са го използвали, казват, че работата на Qwen е по-стабилна.

Някои хора дори казват, че Qwen скоро ще замени всички обикновени модели в Силиконовата долина.

Съдържание

Четири индивидуални способности достигат върха

Първото и второто място в челната тройка на общия списък бяха заети от семейството на Google Gemini, като GPT-4o и DeepSeek-R1 бяха обвързани за третото място.

Qwen2.5-Max е на седмо място с o1-preview, малко зад пълния o1.

Следва представянето на Qwen2.5-Max във всяка отделна категория.

В по-логичното математика и код задачи, резултатите на Qwen2.5-Max надминаха тези на o1-mini и той изравни първото място с напълно заредените o1 и DeepSeek-R1.

И сред моделите, обвързани за първо място в математическия списък, Qwen2.5-Max е единственият модел без разсъждение.

Ако се вгледате внимателно в записите за конкретни битки, можете също да видите, че Qwen2.5-Max има 69% процент на победа в способността за код срещу пълнокръвния o1.

В сложна подканваща дума задача, Qwen2.5-Max и o1-preview обвързани за второ място, и ако е ограничено до английски, може да се класира на първо място, наравно с o1-preview, DeepSeek-R1 и т.н.

В допълнение, Qwen2.5-Max е равен на първото място с DeepSeek-R1 в многооборотен диалог; се нарежда на трето място в дълъг текст (не по-малко от 500 жетона), надминавайки o1-preview.

Освен това Али също показа представянето на Qwen2.5-Max в някои класически списъци в техническия доклад.

При сравнението на командните модели Qwen2.5-Max е на същото или по-високо ниво от GPT-4o и Claude 3.5-Sonnet в бенчмаркове като Arena-Hard (подобно на човешките предпочитания) и MMLU-Pro (знание на университетско ниво).

В сравнението на базовия модел с отворен код, Qwen2.5-Max също превъзхожда DeepSeek-V3 като цяло и е доста пред Llama 3.1-405B.

Що се отнася до базовия модел, Qwen2.5-Max също показа значително предимство в повечето бенчмарк тестове (базовият модел със затворен код не е достъпен, така че може да се сравнява само моделът с отворен код).

Изключителен код/извод, поддържа артефакти

След пускането на пазара на Qwen2.5-Max голям брой нетизени дойдоха да го тестват.

Установено е, че превъзхожда в области като код и извод.

Например, оставете го да напише игра на шах в JavaScript.

Благодарение на Артефакти, малка игра, разработена в едно изречение, може да се играе веднага:

кодът, който генерира, често е по-лесен за четене и използване.

Qwen2.5-Max е бърз и точен при извеждане на сложни подкани:

Вашият екип има 3 стъпки за обработка на клиентски заявки:

Събиране на данни (етап A): 5 минути на заявка.

Обработка (етап B): 10 минути на заявка.

Проверка (етап C): 8 минути на заявка.

В момента екипът работи последователно, но вие обмисляте паралелен работен процес. Ако назначите двама души на всеки етап и позволите паралелен работен процес, продукцията на час ще се увеличи с 20%. Добавянето на паралелен работен поток обаче ще струва 15% повече по отношение на оперативните разходи. Имайки предвид времето и разходите, трябва ли да използвате паралелен работен процес, за да оптимизирате ефективността?

Qwen2.5-Max завършва целия извод за по-малко от 30 секунди, като ясно разделя цялостния процес на пет стъпки: анализ на текущия работен процес, анализ на паралелни работни потоци, последици за разходите, компромиси за ефективност на разходите и заключения.

Крайният извод се стига бързо: трябва да се използват паралелни работни процеси.

В сравнение с DeepSeek-V3, който също е модел без изводи, Qwen2.5-Max осигурява по-кратък и бърз отговор.

Или го оставете да генерира въртяща се сфера, съставена от ASCII цифри. Цифрата, която е най-близо до зрителния ъгъл, е чисто бяла, докато най-отдалечената постепенно става сива с черен фон.

Преброяването на броя на конкретните букви в една дума е още по-лесно.

Ако искате да го изпробвате сами, Qwen2.5-Max вече е онлайн в платформата Qwen Chat и можете да го изпробвате безплатно.

Корпоративните потребители могат да се обадят на API на модела Qwen2.5-Max на Alibaba Cloud Bailian.

Подобни публикации

Без категория

Сблъсъкът на четирите най-добри модела! Ревю показва колко мощен е Deepseek R1

Отzddeepseeker 1 юни 2025 г.1 юни 2025 г.

През последните няколко дни Deepseek-R1 0528 беше официално пуснат в отворен код. В LiveCodeBench производителността му е почти наравно с o3 (високо) на OpenAI; в многоезичния бенчмарк тест на Aider, той се справя добре с Claude Opus. Когато беше пуснат на официалния уебсайт, бързо тествахме възможностите му от предния край и установихме, че те са изключително...

Без категория

Изчерпателно сравнение на новоиздадените o3-mini и DeepSeek R1 на OpenAI

Отzddeepseeker февруари 1, 2025 г.февруари 1, 2025 г.

OpenAI пусна най-новия си модел за изводи - o3-mini, който е оптимизиран за области като наука, математика и програмиране, като осигурява по-бърза реакция, по-висока точност и по-ниска цена. В сравнение с предшественика си o1-mini, o3-mini значително е подобрил възможностите си за изводи, особено при решаването на сложни проблеми. Тестващите предпочитат отговорите на o3-mini с 56%, а процентът на грешките е...

Без категория

DeepSeek ТОП17 Най-добри алтернативи: Цялостен анализ (2025)

Отdeepseeker 6 февруари 2025 г6 февруари 2025 г

Въведение В бързо развиващия се пейзаж на изкуствения интелект DeepSeek се очертава като мощен езиков модел. Този изчерпателен анализ изследва 17-те най-добри алтернативи на DeepSeek, разглеждайки техните уникални характеристики, възможности и случаи на употреба. Нашето изследване се фокусира върху международни и китайски платформи, които предлагат DeepSeek интеграция или подобни възможности. Анализ на най-добрите алтернативи 1...

Без категория

Какво е FlashMLA? Изчерпателно ръководство за неговото въздействие върху AI декодиращите ядра

Отdeepseeker 24 февруари 2025 г24 февруари 2025 г

FlashMLA бързо привлече вниманието в света на изкуствения интелект, особено в областта на големите езикови модели (LLM). Този иновативен инструмент, разработен от DeepSeek, служи като оптимизирано ядро за декодиране, предназначено за графични процесори Hopper – чипове с висока производителност, често използвани в изчисленията с изкуствен интелект. FlashMLA се фокусира върху ефективната обработка на последователности с променлива дължина, което го прави особено подходящ...

Без категория

DeepSeek пусна своя изходен код, подробно обяснение на FlashMLA

Отzddeepseeker 24 февруари 2025 г24 февруари 2025 г

Миналата седмица DeepSeek обяви, че ще отвори пет проекта през следващата седмица: Нетизени казаха: „Този път OpenAI наистина е тук.“ Току-що дойде първият проект с отворен код, свързан с ускоряване на извода, FlashMLA: Адрес на проекта с отворен код: DeepSeek FlashMLA Той е с отворен код от два часа и Github вече има 2,7k+ звезди: The...

Без категория

Основните продукти на AI в света се фокусират върху анализ и цялостни насоки за потребителско изживяване (включително DeepSeek и GPT)

Отzddeepseeker 10 февруари 2025 г10 февруари 2025 г

Позициониране на функцията и анализ на основните предимства ChatGPT (OpenAI) – глобален еталон за универсални ChatGPT Технически гени: генеративен AI, базиран на GPT серия от големи модели, с общи умения за разговор и логическо мислене като негови основни предимства. Многоезична обработка: работи най-добре на английски, с непрекъснато подобрение на китайски; но ние препоръчваме да използвате английски за...

Ali Qwen2.5-Max изпреварва DeepSeek-V3! Netizen: Китайският AI бързо намалява разликата

Четири индивидуални способности достигат върха

Изключителен код/извод, поддържа артефакти

Сблъсъкът на четирите най-добри модела! Ревю показва колко мощен е Deepseek R1

Изчерпателно сравнение на новоиздадените o3-mini и DeepSeek R1 на OpenAI

DeepSeek ТОП17 Най-добри алтернативи: Цялостен анализ (2025)

Какво е FlashMLA? Изчерпателно ръководство за неговото въздействие върху AI декодиращите ядра

DeepSeek пусна своя изходен код, подробно обяснение на FlashMLA

Основните продукти на AI в света се фокусират върху анализ и цялостни насоки за потребителско изживяване (включително DeepSeek и GPT)

Вашият коментар Отказ