DeepSeek R1 quedó primero en la prueba de escritura creativa, ¡y o3 mini fue incluso peor que o1 mini!

DeepSeek R1 ha ganado el campeonato de la prueba de referencia de escritura creativa de relatos cortos, superando con éxito al anterior dominador, Claude 3.5 Sonnet.

Índice

Prueba comparativa

La prueba de referencia diseñada por el investigador Lech Mazur no es un concurso de escritura al uso.

Cada modelo de IA debía completar 500 relatos cortos, y cada relato tenía que incorporar ingeniosamente 10 elementos asignados al azar. Se trataba de una ardua tarea de escritura abierta para la IA, que no sólo exigía un argumento completo, sino también que todos los elementos asignados se integraran de forma natural.

Método de evaluación

Esta prueba de referencia utiliza un sistema de puntuación único: seis de los mejores modelos lingüísticos actúan como jueces, puntuando diversos aspectos de la historia. En otras palabras, los líderes del sector de la IA juzgan a la propia IA, lo que en conjunto proporciona un estándar de evaluación relativamente justo y sistemático.

Contenido de la prueba

El gráfico anterior muestra el análisis de correlación de las puntuaciones en la prueba de referencia de escritura creativa. DeepSeek tiene un coeficiente de correlación de más de 0,93 con otros modelos principales (Claude, GPT-4o, Gemini y Grok), lo que indica que tiene criterios de juicio muy coherentes con otros modelos principales a la hora de juzgar la calidad de la escritura creativa, lo que confirma indirectamente su fiabilidad en esta prueba.

El gráfico anterior muestra los resultados de la prueba comparativa de escritura creativa de relatos cortos. Cada modelo de IA debía escribir 500 relatos, cada uno de los cuales debía contener 10 elementos aleatorios especificados. Los puntos del gráfico muestran la distribución de la puntuación de cada modelo de IA participante para distintos modelos de puntuación (representados por colores diferentes).

En la prueba, Profundo S eek (puntos azul oscuro) obtuvo buenos resultados, con la mayoría de sus puntos de puntuación concentrados en la mitad superior del gráfico y relativamente concentrados, lo que demuestra un nivel estable y elevado de capacidad de escritura creativa.

Este extraordinario rendimiento le ha permitido superar con éxito al anterior campeón, Claude 3.5 Sonnet, y convertirse en el nuevo líder de las pruebas de referencia.

En este gráfico, cada fila representa un modelo de IA, y cada columna representa una dimensión de evaluación (como caracterización, coherencia de la trama, etc.). DeepSeek se sitúa en la parte superior central del gráfico, con un tono general naranja-amarillo, lo que indica que ha obtenido excelentes resultados en la mayoría de las dimensiones de evaluación. En concreto, ha obtenido puntuaciones altas, de casi 8 puntos, en las dimensiones clave de ejecución (P6), caracterización (TA) y desarrollo de la trama (TJ). Aunque no sea el amarillo más brillante en las dimensiones individuales, no presenta debilidades evidentes.

Como puede verse en el gráfico, las puntuaciones de los reportajes de DeepSeek se distribuyen mayoritariamente entre 7 y 9 puntos, y la distribución está relativamente concentrada. Curiosamente, su línea de tendencia es casi horizontal, lo que indica que la calidad del relato de DeepSeek no está estrechamente relacionada con la longitud del mismo. En otras palabras, tanto si se trata de un relato largo como de uno corto, DeepSeek puede mantener una calidad alta y constante. Esto demuestra que DeepSeek se centra más en la calidad que en la cantidad a la hora de crear, y puede mantener un rendimiento excelente en historias de diferente duración.

¿Por qué DeepSeek R1 ganar?

A juzgar por los resultados de las pruebas, DeepSeek R1 tuvo un rendimiento asombroso:

Amplias posibilidades de integración de historias: R1 demostró una flexibilidad y creatividad asombrosas a la hora de abordar diferentes combinaciones de elementos de la historia.
Calidad de salida estable: A juzgar por el gráfico de distribución de las puntuaciones, R1 no sólo obtuvo una puntuación media elevada, sino también un rendimiento estable con menos fluctuaciones.
Rendimiento creativo sobresaliente: En esta prueba de referencia, los relatos creados por R1 se clasificaron entre los tres primeros de la general, lo que demuestra su extraordinaria capacidad de escritura creativa.

¿Qué tal lo hicieron los demás concursantes?

Además del emocionante enfrentamiento entre DeepSeek R1 y Claude 3.5 Sonnet, cabe destacar el rendimiento de otros modelos:

La serie Gemini obtuvo buenos resultados
La serie Llama 3.x tuvo algunos problemas en esta prueba
La o3-mini no obtuvo buenos resultados, ocupando el puesto 22º.

Por último

El gran avance de DeepSeek R1 en esta prueba nos ha mostrado las infinitas posibilidades de la IA en el campo de la creatividad. Aunque la creación de IA sigue en el camino de la mejora continua, estos resultados ya nos han llenado de expectativas para el futuro.

Quienes deseen conocer más detalles de la prueba, pueden visitar el GitHub de Lech Mazur para ver los datos completos y ejemplos de las mejores historias. Esperemos seguir avanzando juntos en la escritura creativa con IA.

DeepSeek R1 quedó primero en la prueba de escritura creativa, ¡y o3 mini fue incluso peor que o1 mini!

Prueba comparativa

Método de evaluación

Contenido de la prueba

¿Por qué DeepSeek R1 ganar?

¿Qué tal lo hicieron los demás concursantes?

Por último

¡Últimas noticias! Un investigador de DeepSeek revela en línea: el entrenamiento de R1 solo tomó dos o tres semanas, y se observó una poderosa evolución de R1 cero durante las vacaciones del Año Nuevo chino

¡Primer lanzamiento! ¡SiliconFlow X Huawei Cloud lanzan conjuntamente servicios de inferencia DeepSeek R1 & V3 basados en Ascend Cloud!

¡El duelo de los cuatro mejores modelos! Un análisis demuestra la potencia del Deepseek R1.

Cathie Wood: DeepSeek simplemente está acelerando el proceso de reducción de costos; la estructura de mercado extremadamente concentrada comparable a la Gran Depresión cambiará

OpenAI o3-mini vs. DeepSeek-R1: ¿Quién es el rey de la nueva generación de modelos de IA?

Altman: ¡Nos equivocamos con la IA de código abierto! DeepSeek ha hecho OpenAI menos ventajoso, y el próximo es GPT-5

Deja una respuesta Cancelar la respuesta

Prueba comparativa

Método de evaluación

Contenido de la prueba

¿Por qué DeepSeek R1 ganar?

¿Qué tal lo hicieron los demás concursantes?

Por último

Entradas Similares

Deja una respuesta Cancelar la respuesta