Ali Qwen2.5-Max supera a DeepSeek-V3. Internauta: la IA de China está acortando la brecha rápidamente

Hace poco, otro modelo nacional se agregó a la lista de Big Model Arena.

De Alí, Qwen2.5-Máximo, que superó a DeepSeek-V3 y ocupó el séptimo lugar en la clasificación general con una puntuación total de 1332.

También superó de un plumazo a modelos como Claude 3.5 Sonnet y Llama 3.1 405B.

En particular, Se destaca en programación y matemáticas., y ocupa el primer lugar junto a Fullblood o1 y DeepSeek-R1.

Chatbot Arena es una gran plataforma de prueba de rendimiento de modelos lanzada por Organización LMSYSActualmente integra más de 190 modelos y utiliza modelos agrupados en equipos de dos para entregar a los usuarios para pruebas a ciegas, donde los usuarios votan sobre las habilidades de los modelos en función de sus experiencias de conversación en la vida real.

Por este motivo, el Chatbot Arena LLM Leaderboard es el escenario más prestigioso e importante para las grandes modelos más importantes del mundo.

Qwen 2.5-Máximo También irrumpió entre los diez primeros en el recién inaugurado Desarrollo web Lista para el desarrollo de aplicaciones web.

El comentario oficial de lmsys sobre esto es que La IA china está cerrando rápidamente la brecha!

Los internautas que lo han usado personalmente dicen que el rendimiento de Qwen es más estable.

Algunos incluso dicen que Qwen pronto reemplazará a todos los modelos habituales en Silicon Valley.

Índice

Cuatro habilidades individuales llegan a la cima

El primer y segundo lugar de los tres primeros de la lista general fueron ocupados por la familia Google Gemini, con GPT-4o y DeepSeek-R1 empatados en el tercer lugar.

Qwen2.5-Max empató en el séptimo lugar con o1-preview, ligeramente detrás del o1 completo.

A continuación se muestra el rendimiento de Qwen2.5-Max en cada categoría individual.

En el sentido más lógico Matemáticas y código En las tareas, los resultados de Qwen2.5-Max superaron los de o1-mini y empató en el primer lugar con o1 y DeepSeek-R1 completamente cargados.

Y entre los modelos empatados en el primer lugar en la lista de matemáticas, Qwen2.5-Max es el único modelo que no razona.

Si miras de cerca los registros de batalla específicos, también puedes ver que Qwen2.5-Max tiene una tasa de victorias de 69% en habilidad de código contra el o1 de pura sangre.

En el Palabra de indicación compleja tarea, Qwen2.5-Max y o1-preview empataron en el segundo lugar, y si se limita al inglés, puede ocupar el primer lugar, a la par con o1-preview, DeepSeek-R1, etc.

Además, Qwen2.5-Max está empatado en el primer lugar con DeepSeek-R1 en diálogo de múltiples turnos; ocupa el tercer lugar en texto largo (no menos de 500 tokens), superando a o1-preview.

Además, Ali también mostró el rendimiento de Qwen2.5-Max en algunas listas clásicas en el informe técnico.

En la comparación de modelos de comando, Qwen2.5-Max está al mismo nivel o por encima de GPT-4o y Claude 3.5-Sonnet en puntos de referencia como Arena-Hard (similar a las preferencias humanas) y MMLU-Pro (conocimiento de nivel universitario).

En la comparación del modelo base de código abierto, Qwen2.5-Max también superó a DeepSeek-V3 en todos los aspectos y estuvo muy por delante de Llama 3.1-405B.

En cuanto al modelo base, Qwen2.5-Max también mostró una ventaja significativa en la mayoría de las pruebas comparativas (el modelo base del modelo de código cerrado no es accesible, por lo que solo se puede comparar el modelo de código abierto).

Código/inferencia excepcionales, compatible con artefactos

Después del lanzamiento de Qwen2.5-Max, una gran cantidad de internautas vinieron a probarlo.

Se ha demostrado que destaca en áreas como código e inferencia.

Por ejemplo, dejemos que escriba un juego de ajedrez en JavaScript.

Gracias a Artefactos, un pequeño juego desarrollado en una sola frase se puede jugar inmediatamente:

El código que genera suele ser más fácil de leer y utilizar.

Qwen2.5-Max es rápido y preciso al inferir indicaciones complejas:

Su equipo tiene 3 pasos para gestionar las solicitudes de los clientes:

Recolección de datos (etapa A): 5 minutos por solicitud.

Procesamiento (etapa B): 10 minutos por solicitud.

Verificación (etapa C): 8 minutos por solicitud.

Actualmente, el equipo trabaja de manera secuencial, pero usted está considerando un flujo de trabajo paralelo. Si asigna dos personas a cada etapa y permite un flujo de trabajo paralelo, la producción por hora aumentará en 20%. Sin embargo, agregar un flujo de trabajo paralelo costará 15% más en términos de gastos operativos generales. Teniendo en cuenta el tiempo y el costo, ¿debería utilizar un flujo de trabajo paralelo para optimizar la eficiencia?

Qwen2.5-Max completa toda la inferencia en menos de 30 segundos, dividiendo claramente el proceso general en cinco pasos: análisis del flujo de trabajo actual, análisis de flujos de trabajo paralelos, implicaciones de costos, compensaciones entre costos y eficiencia y conclusiones.

La conclusión final se alcanza rápidamente: se deben utilizar flujos de trabajo paralelos.

En comparación con DeepSeek-V3, que también es un modelo de no inferencia, Qwen2.5-Max proporciona una respuesta más concisa y rápida.

O bien, que genere una esfera giratoria formada por dígitos ASCII. El dígito más cercano al ángulo de visión es blanco puro, mientras que el más alejado se torna gradualmente gris, con un fondo negro.

Contar el número de letras específicas de una palabra es aún más fácil.

Si quieres probarlo tú mismo, Qwen2.5-Max ya está en línea en la plataforma Qwen Chat y puedes probarlo de forma gratuita.

Los usuarios empresariales pueden llamar a la API del modelo Qwen2.5-Max en Alibaba Cloud Bailian.

Entradas Similares

Sin categoría

¿Qué es FlashMLA? Una guía completa sobre su impacto en los núcleos de decodificación de IA

Pordeepseeker 24 de febrero de 202524 de febrero de 2025

FlashMLA ha ganado rápidamente atención en el mundo de la inteligencia artificial, particularmente en el campo de los modelos de lenguaje grandes (LLM). Esta innovadora herramienta, desarrollada por DeepSeek, sirve como un núcleo de decodificación optimizado diseñado para GPU Hopper, chips de alto rendimiento que se usan comúnmente en cálculos de IA. FlashMLA se centra en el procesamiento eficiente de secuencias de longitud variable, lo que lo hace particularmente adecuado…

Sin categoría

¡DeepSeek lo ha conseguido! OpenAI admite un error de código cerrado, la ventaja de la vanguardia se reduce

Porzddeepseeker 2 de febrero de 20252 de febrero de 2025

Después de que OpenAI lanzara el modelo o3-mini, su consejero delegado, Sam Altman; el director de investigación, Mark Chen; el director de producto, Kevin Weil; el vicepresidente de ingeniería, Srinivas Narayanan; la directora de investigación de API, Michelle Pokrass, y el director de investigación, Hongyu Ren, llevaron a cabo una sesión de preguntas y respuestas técnicas en línea en reddit, uno de los foros más completos del mundo. Los temas principales...

Sin categoría

DeepSeek TOP17 Mejores alternativas: análisis exhaustivo (2025)

Pordeepseeker 6 de febrero de 20256 de febrero de 2025

Introducción En el panorama de la inteligencia artificial, que evoluciona rápidamente, DeepSeek ha surgido como un modelo de lenguaje poderoso. Este análisis exhaustivo explora las 17 principales alternativas a DeepSeek y examina sus características, capacidades y casos de uso únicos. Nuestra investigación se centra en plataformas internacionales y chinas que ofrecen integración con DeepSeek o capacidades similares. Análisis de las principales alternativas 1….

Sin categoría

Cathie Wood: DeepSeek simplemente está acelerando el proceso de reducción de costos; la estructura de mercado extremadamente concentrada comparable a la Gran Depresión cambiará

Porzddeepseeker 8 de febrero de 20258 de febrero de 2025

Lo más destacado La competencia con DeepSeek es buena para EE. UU. Cathie Wood: Creo que demuestra que el coste de la innovación está cayendo drásticamente y que esta tendencia ya ha comenzado. Por ejemplo, antes de DeepSeek, el coste de entrenamiento de la inteligencia artificial se reducía en 75% por año, y el coste de la inferencia incluso se redujo en 85%…

Sin categoría

¡Primer lanzamiento! ¡SiliconFlow X Huawei Cloud lanzan conjuntamente servicios de inferencia DeepSeek R1 & V3 basados en Ascend Cloud!

Porzddeepseeker 1 de febrero de 20251 de febrero de 2025

DeepSeek-R1 y DeepSeek-V3 han causado sensación en todo el mundo desde su lanzamiento en código abierto. Son un regalo del equipo DeepSeek a toda la humanidad, y nos alegramos sinceramente de su éxito. Tras días de duro trabajo por parte de los equipos de Silicon Mobility y Huawei Cloud, hoy también ofrecemos a los usuarios chinos...

Sin categoría

DeepSeek R1 quedó primero en la prueba de escritura creativa, ¡y o3 mini fue incluso peor que o1 mini!

Porzddeepseeker 3 de febrero de 20253 de febrero de 2025

DeepSeek R1 ha ganado el campeonato de la prueba de referencia de escritura creativa de relatos cortos, superando con éxito al anterior dominador, Claude 3.5 Sonnet. Prueba de referencia La prueba de referencia diseñada por el investigador Lech Mazur no es una competición de escritura al uso. Cada modelo de IA debía completar 500 relatos cortos, y cada relato tenía que incorporar ingeniosamente...

Ali Qwen2.5-Max supera a DeepSeek-V3. Internauta: La IA de China está acortando la brecha rápidamente

Cuatro habilidades individuales llegan a la cima

Código/inferencia excepcionales, compatible con artefactos

¿Qué es FlashMLA? Una guía completa sobre su impacto en los núcleos de decodificación de IA

¡DeepSeek lo ha conseguido! OpenAI admite un error de código cerrado, la ventaja de la vanguardia se reduce

DeepSeek TOP17 Mejores alternativas: análisis exhaustivo (2025)

Cathie Wood: DeepSeek simplemente está acelerando el proceso de reducción de costos; la estructura de mercado extremadamente concentrada comparable a la Gran Depresión cambiará

¡Primer lanzamiento! ¡SiliconFlow X Huawei Cloud lanzan conjuntamente servicios de inferencia DeepSeek R1 & V3 basados en Ascend Cloud!

DeepSeek R1 quedó primero en la prueba de escritura creativa, ¡y o3 mini fue incluso peor que o1 mini!

Deja una respuesta Cancelar la respuesta