Agora mesmo, outra modelo nacional foi adicionada à lista da Big Model Arena
de Ali, Qwen2.5-Máx., que superou o DeepSeek-V3 e ficou em sétimo lugar no ranking geral com uma pontuação total de 1332.
Ele também superou modelos como o Claude 3.5 Sonnet e o Llama 3.1 405B de uma só vez.

Em particular, ele se destaca em programação e matemática, e está classificado em primeiro lugar ao lado de Fullblood o1 e DeepSeek-R1.

O Chatbot Arena é uma grande plataforma de teste de desempenho de modelos lançada pela Organização LMSYS. Atualmente, ele integra mais de 190 modelos e usa modelos pareados em equipes de dois para serem entregues aos usuários para testes cegos, com os usuários votando nas habilidades dos modelos com base em suas experiências de conversação na vida real.
Por esse motivo, o Chatbot Arena LLM Leaderboard é a arena mais confiável e importante para as principais modelos do mundo.
Qwen 2.5-Máx. também entrou no top dez no recém-inaugurado Desenvolvimento Web lista para desenvolvimento de aplicações web.

O comentário oficial do lmsys sobre isso é que A IA chinesa está rapidamente fechando a lacuna!

Internautas que o usaram pessoalmente dizem que o desempenho do Qwen é mais estável.

Algumas pessoas até dizem que o Qwen em breve substituirá todos os modelos comuns no Vale do Silício.

Quatro habilidades individuais chegam ao topo
O primeiro e o segundo lugares entre os três primeiros da lista geral foram ocupados pela família Google Gemini, com GPT-4o e DeepSeek-R1 empatados em terceiro lugar.
Qwen2.5-Max empatou em sétimo lugar com o1-preview, um pouco atrás do o1 completo.

A seguir está o desempenho do Qwen2.5-Max em cada categoria individual.
No mais lógico matemática e código tarefas, os resultados do Qwen2.5-Max superaram os do o1-mini, e ele empatou em primeiro lugar com o o1 totalmente carregado e o DeepSeek-R1.
E entre os modelos empatados em primeiro lugar na lista de matemática, Qwen2.5-Max é o único modelo não raciocinador.

Se você observar atentamente os registros de batalha específicos, também poderá ver que Qwen2.5-Max tem uma taxa de vitória de 69% na habilidade de código contra o puro-sangue o1.

No palavra complexa de prompt tarefa, Qwen2.5-Max e o1-preview empataram em segundo lugar, e se for limitado ao inglês, pode ficar em primeiro lugar, no mesmo nível de o1-preview, DeepSeek-R1, etc.

Além disso, Qwen2.5-Max está empatado em primeiro lugar com DeepSeek-R1 em diálogo multi-turno; ocupa o terceiro lugar em texto longo (não menos que 500 tokens), superando o1-preview.

Além disso, Ali também mostrou o desempenho do Qwen2.5-Max em algumas listas clássicas no relatório técnico.
Na comparação de modelos de comando, o Qwen2.5-Max está no mesmo nível ou acima do GPT-4o e do Claude 3.5-Sonnet em benchmarks como Arena-Hard (semelhante às preferências humanas) e MMLU-Pro (conhecimento de nível universitário).
Na comparação do modelo base de código aberto, o Qwen2.5-Max também superou o DeepSeek-V3 em todos os aspectos e ficou bem à frente do Llama 3.1-405B.

Quanto ao modelo base, o Qwen2.5-Max também mostrou uma vantagem significativa na maioria dos testes de benchmark (o modelo base de código fechado não é acessível, então apenas o modelo de código aberto pode ser comparado).

Código/inferência excelente, suporta artefatos
Após o lançamento do Qwen2.5-Max, um grande número de internautas veio testá-lo.
Foi descoberto que ele se destaca em áreas como codificação e inferência.
Por exemplo, deixe-o escrever um jogo de xadrez em JavaScript.
Obrigado a Artefatos, um pequeno jogo desenvolvido em uma única frase pode ser jogado imediatamente:

o código gerado geralmente é mais fácil de ler e usar.
O Qwen2.5-Max é rápido e preciso ao inferir prompts complexos:
Sua equipe tem 3 etapas para lidar com as solicitações dos clientes:
Coleta de dados (etapa A): 5 minutos por solicitação.
Processamento (etapa B): 10 minutos por solicitação.
Verificação (etapa C): 8 minutos por solicitação.
A equipe atualmente trabalha sequencialmente, mas você está considerando um fluxo de trabalho paralelo. Se você atribuir duas pessoas a cada estágio e permitir um fluxo de trabalho paralelo, a saída por hora aumentará em 20%. No entanto, adicionar um fluxo de trabalho paralelo custará 15% a mais em termos de sobrecarga operacional. Considerando o tempo e o custo, você deve usar um fluxo de trabalho paralelo para otimizar a eficiência?
O Qwen2.5-Max conclui toda a inferência em menos de 30 segundos, dividindo claramente o processo geral em cinco etapas: análise do fluxo de trabalho atual, análise de fluxos de trabalho paralelos, implicações de custo, compensações de custo-eficiência e conclusões.
A conclusão final é rapidamente alcançada: fluxos de trabalho paralelos devem ser usados.
Comparado ao DeepSeek-V3, que também é um modelo não inferencial, o Qwen2.5-Max oferece uma resposta mais concisa e rápida.
Ou deixe-o gerar uma esfera rotativa composta de dígitos ASCII. O dígito mais próximo do ângulo de visão é branco puro, enquanto o mais distante gradualmente se torna cinza, com um fundo preto.
Contar o número de letras específicas em uma palavra é ainda mais fácil.

Se você quiser experimentar por si mesmo, o Qwen2.5-Max já está online na plataforma Qwen Chat e pode ser experimentado gratuitamente.
Usuários corporativos podem chamar a API do modelo Qwen2.5-Max no Alibaba Cloud Bailian.
