
DeepSeek R1 ha ganado el campeonato de la prueba de referencia de escritura creativa de relatos cortos, superando con éxito al anterior dominador, Claude 3.5 Sonnet.
Prueba comparativa
La prueba de referencia diseñada por el investigador Lech Mazur no es un concurso de escritura al uso.
Cada modelo de IA debía completar 500 relatos cortos, y cada relato tenía que incorporar ingeniosamente 10 elementos asignados al azar. Se trataba de una ardua tarea de escritura abierta para la IA, que no sólo exigía un argumento completo, sino también que todos los elementos asignados se integraran de forma natural.
Método de evaluación
Esta prueba de referencia utiliza un sistema de puntuación único: seis de los mejores modelos lingüísticos actúan como jueces, puntuando diversos aspectos de la historia. En otras palabras, los líderes del sector de la IA juzgan a la propia IA, lo que en conjunto proporciona un estándar de evaluación relativamente justo y sistemático.
Contenido de la prueba

El gráfico anterior muestra el análisis de correlación de las puntuaciones en la prueba de referencia de escritura creativa. DeepSeek tiene un coeficiente de correlación de más de 0,93 con otros modelos principales (Claude, GPT-4o, Gemini y Grok), lo que indica que tiene criterios de juicio muy coherentes con otros modelos principales a la hora de juzgar la calidad de la escritura creativa, lo que confirma indirectamente su fiabilidad en esta prueba.

El gráfico anterior muestra los resultados de la prueba comparativa de escritura creativa de relatos cortos. Cada modelo de IA debía escribir 500 relatos, cada uno de los cuales debía contener 10 elementos aleatorios especificados. Los puntos del gráfico muestran la distribución de la puntuación de cada modelo de IA participante para distintos modelos de puntuación (representados por colores diferentes).
En la prueba, ProfundoSeek (puntos azul oscuro) obtuvo buenos resultados, con la mayoría de sus puntos de puntuación concentrados en la mitad superior del gráfico y relativamente concentrados, lo que demuestra un nivel estable y elevado de capacidad de escritura creativa.
Este extraordinario rendimiento le ha permitido superar con éxito al anterior campeón, Claude 3.5 Sonnet, y convertirse en el nuevo líder de las pruebas de referencia.

En este gráfico, cada fila representa un modelo de IA, y cada columna representa una dimensión de evaluación (como caracterización, coherencia de la trama, etc.). DeepSeek se sitúa en la parte superior central del gráfico, con un tono general naranja-amarillo, lo que indica que ha obtenido excelentes resultados en la mayoría de las dimensiones de evaluación. En concreto, ha obtenido puntuaciones altas, de casi 8 puntos, en las dimensiones clave de ejecución (P6), caracterización (TA) y desarrollo de la trama (TJ). Aunque no sea el amarillo más brillante en las dimensiones individuales, no presenta debilidades evidentes.

Como puede verse en el gráfico, las puntuaciones de los reportajes de DeepSeek se distribuyen mayoritariamente entre 7 y 9 puntos, y la distribución está relativamente concentrada. Curiosamente, su línea de tendencia es casi horizontal, lo que indica que la calidad del relato de DeepSeek no está estrechamente relacionada con la longitud del mismo. En otras palabras, tanto si se trata de un relato largo como de uno corto, DeepSeek puede mantener una calidad alta y constante. Esto demuestra que DeepSeek se centra más en la calidad que en la cantidad a la hora de crear, y puede mantener un rendimiento excelente en historias de diferente duración.
¿Por qué DeepSeek R1 ganar?
A juzgar por los resultados de las pruebas, DeepSeek R1 tuvo un rendimiento asombroso:
- Amplias posibilidades de integración de historias: R1 demostró una flexibilidad y creatividad asombrosas a la hora de abordar diferentes combinaciones de elementos de la historia.
- Calidad de salida estable: A juzgar por el gráfico de distribución de las puntuaciones, R1 no sólo obtuvo una puntuación media elevada, sino también un rendimiento estable con menos fluctuaciones.
- Rendimiento creativo sobresaliente: En esta prueba de referencia, los relatos creados por R1 se clasificaron entre los tres primeros de la general, lo que demuestra su extraordinaria capacidad de escritura creativa.
¿Qué tal lo hicieron los demás concursantes?
Además del emocionante enfrentamiento entre DeepSeek R1 y Claude 3.5 Sonnet, cabe destacar el rendimiento de otros modelos:
- La serie Gemini obtuvo buenos resultados
- La serie Llama 3.x tuvo algunos problemas en esta prueba
- La o3-mini no obtuvo buenos resultados, ocupando el puesto 22º.

Por último
El gran avance de DeepSeek R1 en esta prueba nos ha mostrado las infinitas posibilidades de la IA en el campo de la creatividad. Aunque la creación de IA sigue en el camino de la mejora continua, estos resultados ya nos han llenado de expectativas para el futuro.
Quienes deseen conocer más detalles de la prueba, pueden visitar el GitHub de Lech Mazur para ver los datos completos y ejemplos de las mejores historias. Esperemos seguir avanzando juntos en la escritura creativa con IA.