Hace poco, otro modelo nacional se agregó a la lista de Big Model Arena.

De Alí, Qwen2.5-Máximo, que superó a DeepSeek-V3 y ocupó el séptimo lugar en la clasificación general con una puntuación total de 1332.

También superó de un plumazo a modelos como Claude 3.5 Sonnet y Llama 3.1 405B.

En particular, Se destaca en programación y matemáticas., y ocupa el primer lugar junto a Fullblood o1 y DeepSeek-R1.

Chatbot Arena es una gran plataforma de prueba de rendimiento de modelos lanzada por Organización LMSYSActualmente integra más de 190 modelos y utiliza modelos agrupados en equipos de dos para entregar a los usuarios para pruebas a ciegas, donde los usuarios votan sobre las habilidades de los modelos en función de sus experiencias de conversación en la vida real.

Por este motivo, el Chatbot Arena LLM Leaderboard es el escenario más prestigioso e importante para las grandes modelos más importantes del mundo.

Qwen 2.5-Máximo También irrumpió entre los diez primeros en el recién inaugurado Desarrollo web Lista para el desarrollo de aplicaciones web.

El comentario oficial de lmsys sobre esto es que La IA china está cerrando rápidamente la brecha!

Los internautas que lo han usado personalmente dicen que el rendimiento de Qwen es más estable.

Algunos incluso dicen que Qwen pronto reemplazará a todos los modelos habituales en Silicon Valley.

Cuatro habilidades individuales llegan a la cima

El primer y segundo lugar de los tres primeros de la lista general fueron ocupados por la familia Google Gemini, con GPT-4o y DeepSeek-R1 empatados en el tercer lugar.

Qwen2.5-Max empató en el séptimo lugar con o1-preview, ligeramente detrás del o1 completo.

A continuación se muestra el rendimiento de Qwen2.5-Max en cada categoría individual.

En el sentido más lógico Matemáticas y código En las tareas, los resultados de Qwen2.5-Max superaron los de o1-mini y empató en el primer lugar con o1 y DeepSeek-R1 completamente cargados.

Y entre los modelos empatados en el primer lugar en la lista de matemáticas, Qwen2.5-Max es el único modelo que no razona.

Si miras de cerca los registros de batalla específicos, también puedes ver que Qwen2.5-Max tiene una tasa de victorias de 69% en habilidad de código contra el o1 de pura sangre.

En el Palabra de indicación compleja tarea, Qwen2.5-Max y o1-preview empataron en el segundo lugar, y si se limita al inglés, puede ocupar el primer lugar, a la par con o1-preview, DeepSeek-R1, etc.

Además, Qwen2.5-Max está empatado en el primer lugar con DeepSeek-R1 en diálogo de múltiples turnos; ocupa el tercer lugar en texto largo (no menos de 500 tokens), superando a o1-preview.

Además, Ali también mostró el rendimiento de Qwen2.5-Max en algunas listas clásicas en el informe técnico.

En la comparación de modelos de comando, Qwen2.5-Max está al mismo nivel o por encima de GPT-4o y Claude 3.5-Sonnet en puntos de referencia como Arena-Hard (similar a las preferencias humanas) y MMLU-Pro (conocimiento de nivel universitario).

En la comparación del modelo base de código abierto, Qwen2.5-Max también superó a DeepSeek-V3 en todos los aspectos y estuvo muy por delante de Llama 3.1-405B.

En cuanto al modelo base, Qwen2.5-Max también mostró una ventaja significativa en la mayoría de las pruebas comparativas (el modelo base del modelo de código cerrado no es accesible, por lo que solo se puede comparar el modelo de código abierto).

Código/inferencia excepcionales, compatible con artefactos

Después del lanzamiento de Qwen2.5-Max, una gran cantidad de internautas vinieron a probarlo.

Se ha demostrado que destaca en áreas como código e inferencia.

Por ejemplo, dejemos que escriba un juego de ajedrez en JavaScript.

Gracias a Artefactos, un pequeño juego desarrollado en una sola frase se puede jugar inmediatamente:

El código que genera suele ser más fácil de leer y utilizar.

Qwen2.5-Max es rápido y preciso al inferir indicaciones complejas:

Su equipo tiene 3 pasos para gestionar las solicitudes de los clientes:

Recolección de datos (etapa A): 5 minutos por solicitud.

Procesamiento (etapa B): 10 minutos por solicitud.

Verificación (etapa C): 8 minutos por solicitud.

Actualmente, el equipo trabaja de manera secuencial, pero usted está considerando un flujo de trabajo paralelo. Si asigna dos personas a cada etapa y permite un flujo de trabajo paralelo, la producción por hora aumentará en 20%. Sin embargo, agregar un flujo de trabajo paralelo costará 15% más en términos de gastos operativos generales. Teniendo en cuenta el tiempo y el costo, ¿debería utilizar un flujo de trabajo paralelo para optimizar la eficiencia?

Qwen2.5-Max completa toda la inferencia en menos de 30 segundos, dividiendo claramente el proceso general en cinco pasos: análisis del flujo de trabajo actual, análisis de flujos de trabajo paralelos, implicaciones de costos, compensaciones entre costos y eficiencia y conclusiones.

La conclusión final se alcanza rápidamente: se deben utilizar flujos de trabajo paralelos.

En comparación con DeepSeek-V3, que también es un modelo de no inferencia, Qwen2.5-Max proporciona una respuesta más concisa y rápida.

O bien, que genere una esfera giratoria formada por dígitos ASCII. El dígito más cercano al ángulo de visión es blanco puro, mientras que el más alejado se torna gradualmente gris, con un fondo negro.

Contar el número de letras específicas de una palabra es aún más fácil.

Si quieres probarlo tú mismo, Qwen2.5-Max ya está en línea en la plataforma Qwen Chat y puedes probarlo de forma gratuita.

Los usuarios empresariales pueden llamar a la API del modelo Qwen2.5-Max en Alibaba Cloud Bailian.

Entradas Similares

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *