Только что в список Big Model Arena была добавлена еще одна отечественная модель.
от Али, Qwen2.5-Макс, который превзошел DeepSeek-V3 и занял седьмое место в общем рейтинге с общим счетом 1332.
Он также одним махом превзошел такие модели, как Claude 3.5 Sonnet и Llama 3.1 405B.

В частности, он преуспевает в программировании и математикеи занимает первое место наряду с Fullblood o1 и DeepSeek-R1.

Chatbot Arena — это крупная платформа для тестирования производительности модели, запущенная LMSYS ОргВ настоящее время он объединяет более 190 моделей и использует модели, объединенные в команды по два человека, которые предоставляются пользователям для слепого тестирования, при этом пользователи голосуют за возможности моделей на основе своего реального опыта общения.
По этой причине таблица лидеров Chatbot Arena LLM является самой авторитетной и важной ареной для крупнейших мировых моделей.
Qwen 2.5-Макс также ворвался в десятку лучших на недавно открытом Веб-разработка список для разработки веб-приложений.

Официальный комментарий lmsys по этому поводу таков: Китайский ИИ быстро сокращает разрыв!

Пользователи сети, которые лично использовали его, говорят, что производительность Qwen стала более стабильной.

Некоторые даже говорят, что Квен скоро заменит всех обычных моделей в Кремниевой долине.

Четыре индивидуальных способности достигают вершины
Первое и второе места в тройке лидеров общего списка заняло семейство Google Gemini, а GPT-4o и DeepSeek-R1 разделили третье место.
Qwen2.5-Max разделили седьмое место с o1-preview, немного отстав от полного o1.

Далее следуют результаты Qwen2.5-Max в каждой отдельной категории.
В более логичном математика и код В ходе выполнения заданий результаты Qwen2.5-Max превзошли результаты o1-mini и разделили первое место с полностью заряженными o1 и DeepSeek-R1.
А среди моделей, претендующих на первое место в математическом списке, Qwen2.5-Max — единственная модель, не обладающая способностью рассуждать.

Если внимательно посмотреть на конкретные записи сражений, то можно также увидеть, что у Qwen2.5-Max процент побед по кодовым способностям составляет 69% против чистокровного o1.

В сложное слово-подсказка task, Qwen2.5-Max и o1-preview разделили второе место, а если ограничиться только английским языком, то он может занять первое место, наравне с o1-preview, DeepSeek-R1 и т. д.

Кроме того, Qwen2.5-Max делит первое место с DeepSeek-R1 в многооборотный диалог; он занимает третье место в длинный текст (не менее 500 токенов), превосходящее o1-preview.

Кроме того, в техническом отчете Али также продемонстрировал эффективность Qwen2.5-Max в некоторых классических списках.
При сравнении командных моделей Qwen2.5-Max находится на том же уровне или выше, чем GPT-4o и Claude 3.5-Sonnet в таких бенчмарках, как Arena-Hard (аналогично человеческим предпочтениям) и MMLU-Pro (знания университетского уровня).
В сравнении базовых моделей с открытым исходным кодом Qwen2.5-Max также превзошла DeepSeek-V3 по всем показателям и значительно опередила Llama 3.1-405B.

Что касается базовой модели, то Qwen2.5-Max также показала значительное преимущество в большинстве тестов производительности (базовая модель с закрытым исходным кодом недоступна, поэтому сравнивать можно только модель с открытым исходным кодом).

Выдающийся код/вывод, поддерживает артефакты
После запуска Qwen2.5-Max большое количество пользователей сети пришло протестировать его.
Было обнаружено, что он преуспевает в таких областях, как кодирование и вывод.
Например, пусть он напишет шахматную партию на JavaScript.
Благодаря Артефакты, небольшая игра, состоящая из одного предложения, может быть запущена немедленно:

генерируемый им код зачастую проще читать и использовать.
Qwen2.5-Max быстро и точно распознает сложные подсказки:
Ваша команда должна выполнить 3 шага для обработки запросов клиентов:
Сбор данных (этап A): 5 минут на запрос.
Обработка (этап B): 10 минут на запрос.
Проверка (этап C): 8 минут на запрос.
В настоящее время команда работает последовательно, но вы рассматриваете параллельный рабочий процесс. Если вы назначаете двух человек на каждый этап и допускаете параллельный рабочий процесс, производительность в час увеличится на 20%. Однако добавление параллельного рабочего процесса обойдется на 15% дороже с точки зрения операционных накладных расходов. Учитывая время и стоимость, следует ли использовать параллельный рабочий процесс для оптимизации эффективности?
Qwen2.5-Max завершает весь вывод менее чем за 30 секунд, четко разделяя весь процесс на пять этапов: анализ текущего рабочего процесса, анализ параллельных рабочих процессов, последствия для затрат, компромиссы между затратами и эффективностью и выводы.
Окончательный вывод напрашивается быстро: следует использовать параллельные рабочие процессы.
По сравнению с DeepSeek-V3, которая также является моделью без вывода, Qwen2.5-Max обеспечивает более краткий и быстрый ответ.
Или пусть он сгенерирует вращающуюся сферу, состоящую из цифр ASCII. Цифра, ближайшая к углу обзора, чисто белая, а самая дальняя постепенно становится серой, с черным фоном.
Подсчитать количество определенных букв в слове еще проще.

Если вы хотите попробовать сами, Qwen2.5-Max уже доступен на платформе Qwen Chat и может быть протестирован бесплатно.
Корпоративные пользователи могут вызывать API модели Qwen2.5-Max в Alibaba Cloud Bailian.
