En los últimos días, Deepseek-R1 0528 se ha publicado oficialmente en código abierto.
En LiveCodeBench, su rendimiento está casi a la par con el o3 (alto) de OpenAI; en la prueba comparativa multilingüe de Aider, se mantiene a la altura de Claude Opus.
Tras su lanzamiento en el sitio web oficial, probamos rápidamente sus capacidades de interfaz y las descubrimos excepcionalmente robustas, lo que dio lugar a las pruebas que se describen en este artículo. Nuestro objetivo es compartir con ustedes el rendimiento específico de los diferentes modelos.
Es importante tener en cuenta que esta prueba se centra principalmente en las capacidades del frontend, por lo que es fundamental analizar objetivamente el rendimiento de los diferentes modelos. Puede usar las indicaciones que proporcionamos para realizar sus propias pruebas y compartir sus ideas y hallazgos.
Usando el mismo mensaje, lo enviamos a Claude Opus 4, Sonnet 4, Gemini 2.5 Pro y DeepSeek R1-0528y los hizo competir en seis tareas de desarrollo front-end cada vez más desafiantes.
Para aquellos que no pueden esperar, aquí está la conclusión:
Deepseek-R1-0528 está ligeramente por detrás de Opus 4 en capacidades front-end, pero supera Soneto 4 y Géminis 2.5 Pro.
Básicamente, cualquier tarea que Opus puede completar, R1 también puede completarla, e incluso tareas que Opus 4 no puede completar, R1 puede manejarlas, aunque con tasas de finalización y calidad de resultados ligeramente inferiores.
Teniendo en cuenta la diferencia de precio entre el R1 y los otros tres, este rendimiento ya es excelente, y sólo podemos imaginar lo impresionante que será el R2.
Prueba 1: Sistema de gestión de almacenes
Solicitud: Ayúdenme a crear una herramienta de gestión de productos completa basada en web con los siguientes requisitos:
Requisitos funcionales
- Gestión de productos
- Entrada de información del producto: Nombre del producto, tipo/categoría, número de SKU, precio, cantidad de inventario
- Gestión de imágenes de productos: Admite carga y vista previa de imágenes (simuladas con un selector de archivos)
- Visualización de la lista de productos:Muestra todos los productos en formato de tabla, con soporte de búsqueda y filtrado.
- Edición de productos:Apoya la modificación de la información del producto
- Eliminación de producto: Admite la eliminación del producto (con solicitud de confirmación)
- Gestión de inventario
- Operaciones de entrada:Aumentar la cantidad del inventario de productos, registrar el tiempo y la cantidad de entrada
- Operaciones de salida: Disminuir la cantidad de inventario de productos, registrar el tiempo y la cantidad de salida
- registros de inventario:Muestra el historial de cambios de inventario para cada producto
- Características de la interfaz
- Cuadro de mandos:Muestra estadísticas como el número total de productos, el valor total del inventario, alertas de inventario bajo, etc.
- Diseño responsivo:Adaptable a dispositivos de escritorio y móviles.
- Persistencia de datos:Utiliza localStorage para guardar datos
Requisitos técnicos
Estilos e iconos
- Marco CSS:Utiliza TailwindCSS 3.0+ CDN
- Biblioteca de iconos:Utiliza Heroicons o Feather Icons CDN
- Fuente:Utilice fuentes de Google
Estructura del código
- Solicitud de una sola página:HTML + CSS + JavaScript
- Diseño modular: Dividir las funciones en diferentes módulos de JavaScript
- Formato de datos: Utilice el formato JSON para almacenar datos del producto
Requisitos de diseño de interfaz
- Interfaz de usuario moderna:Diseño de interfaz simple y hermoso.
- Esquema de colores:Utilice combinaciones de colores comerciales profesionales
- Retroalimentación interactiva:Clics de botones, validación de formularios y otros efectos interactivos
- Validación de formulario: Validación de campos obligatorios, validación de formato de datos
Ejemplo de estructura de datos
Genere un archivo HTML completo que contenga todo el código CSS y JavaScript necesario, garantizando que todas las funciones sean funcionales y puedan ejecutarse directamente en un navegador.
Analicemos los resultados de la prueba. La lógica es bastante compleja y pone a prueba la longitud del contexto, la estética y la capacidad de procesamiento lógico del modelo.
En este caso, todos los modelos excepto Deepseek fallaron. La traducción de Claude 4 Estaba bastante fuera de lugar, para ser honesto.
Búsqueda profunda-R1-0528: La versión mejorada de R1 es muy potente. Como puede ver, la interfaz es muy profesional y permite crear nuevos productos, realizar operaciones normales de entrada y salida, y dividir la gestión de productos, inventario e informes de inventario en tres páginas, lo cual es muy claro en general. También incluye una página de panel dedicada, y se crearon algunos datos de muestra para pruebas. Los otros modelos no tienen datos y no es posible añadir productos, por lo que las pruebas son completamente imposibles.
Claude Opus 4: Comienza con una interfaz amplia y muy sencilla, que utiliza una barra de navegación superior en lugar de la barra lateral habitual en las plataformas SaaS. Al añadir productos, se produce un error al guardar, lo que imposibilita las pruebas.
Soneto 4 de Claude: En comparación con Opus 4, la interfaz es aún más básica. Al hacer clic en el botón "Añadir producto", no se activa y no aparece ningún formulario emergente. Las demás páginas son básicamente marcadores de posición.
Géminis 2.5 Pro: La versión de Google es mejor que la de Claude. Permite añadir productos y ejecutarlos, pero tiene errores. Funcionó la primera vez que lo probé, pero no al grabar un vídeo. Sin embargo, el diseño de interacción de Gemini es bastante complejo, ya que la gestión del inventario y el registro se concentran en una sola tabla, lo que añade cierta dificultad.
Prueba 2: Editor de animación de píxeles
A continuación, una prueba de capacidad visual. Les pedí que crearan un editor de animación de pixel art con P5.js, compatible con modos de movimiento y que ajustara la forma, el tamaño, la velocidad y otras condiciones de los puntos.
Indicación: Crear un generador de animaciones de pixel art interactivo de pantalla completa basado en P5.js, que cumpla con los siguientes requisitos técnicos:
Características principales
- Implemente una animación de pixel art en pantalla completa usando P5.js, con la animación cubriendo toda el área de la ventana gráfica
- El área total de la cuadrícula de píxeles debe ser al menos 10 veces el área visible para garantizar una cobertura completa incluso con el espaciado de cuadrícula más pequeño.
- Proporciona múltiples modos de animación: Onda, Pulso, Ondulación, Ruido
- Admite múltiples opciones de forma de punto: círculo, cuadrado, cruz, triángulo, diamante, etc.
- Todos los paneles de control están ubicados en el lado derecho de la página y se pueden contraer hacia abajo en dispositivos móviles.
Parámetros ajustables
- Densidad de puntos: controla la cantidad de puntos por fila/columna
- Tamaño de la forma: ajusta el tamaño de los puntos
- Velocidad de animación: controla la velocidad y la amplitud del efecto de animación.
- Espaciado de cuadrícula: ajusta la distancia entre puntos
Especificaciones técnicas
- Utilice HTML5, TailwindCSS 3.0+ (introducido a través de CDN) y P5.js
- Implementar la funcionalidad completa de cambio de modo oscuro/claro, con la configuración predeterminada del sistema
- El código debe incluir lógica de optimización del rendimiento, representando solo puntos dentro del área visible y cerca de los bordes
- Las animaciones deben ejecutarse fluidamente y sin retrasos.
Diseño responsivo
- Las páginas deben mostrarse perfectamente en todos los dispositivos (móviles, tabletas, computadoras de escritorio)
- Los paneles de control deben ser plegables/expandibles en la vista móvil
- Optimice el diseño y el tamaño de fuente para diferentes tamaños de pantalla
- Asegúrese de tener una buena experiencia táctil en dispositivos móviles
Elementos de la interfaz
- Selector de modo de animación (onda, pulso, ondulación, ruido)
- Selector de formas (muestra varias formas con iconos)
- Controles deslizantes: densidad, tamaño, velocidad, espaciado
- Botón de cambio de tema
- Mostrar información de superposición de matriz y número total de puntos
Echa un vistazo a los resultados. Siendo sincero, no esperaba que los demás modelos tuvieran un rendimiento tan bajo en esta prueba. A excepción de Deepseek-R1, las animaciones de los demás modelos no funcionaron en absoluto.
Búsqueda profunda-R1-0528: Impecable. Todos los botones y controles deslizantes funcionan con normalidad, y los puntos se mueven con fluidez. Incluso se han añadido datos de matriz de puntos, y los colores se mantienen consistentes tras cambiar al modo nocturno. El único pequeño inconveniente es que el estado seleccionado de la selección de color presenta un ligero problema, pero es insignificante comparado con el pésimo rendimiento de los otros modelos.
Claude Opus 4: Buenas noticias: tiene pixel art. Malas noticias: no se mueve. El contenido del lado derecho funciona con normalidad, pero la paleta de colores es incorrecta al cambiar al modo nocturno.
Soneto 4 de Claude: Este es un desastre. No tiene pixel art, e incluso falta el botón de selección. Los controles deslizantes son solo puntos; mejor usar los componentes predeterminados.
Géminis 2.5 Pro: También se informa de un error por falta de cuadrícula de píxeles. El contenido del lado derecho funciona correctamente y el cambio de tema funciona correctamente, pero los componentes predeterminados son un poco feos.
Prueba 3: Herramienta de extracción de color de degradado de imagen
Esta es una herramienta que desarrollé anteriormente. No hay mucha descripción de la lógica, pero sí del estilo. Su función principal es extraer cinco conjuntos de colores degradados de una imagen.
Aviso: Genere una página web HTML basada en el siguiente contenido de archivo, permita la extracción de cinco conjuntos de colores degradados de las imágenes cargadas y permita a los usuarios copiar directamente los cinco conjuntos de colores degradados hexadecimales. Es necesario implementar la función de extracción de color.
- Utilice el diseño visual estilo NetEase Cloud Music, fondo blanco con un color similar a #FE1110 como resaltado
- Enfatiza fuentes o números grandes para destacar puntos clave. Incluye elementos visuales de gran tamaño para destacar áreas de enfoque, creando contraste con elementos más pequeños.
- Combina texto en chino e inglés. Usa caracteres chinos grandes y en negrita, y texto en inglés más pequeño como acento.
- Utilice gráficos simples dibujados con líneas para la visualización de datos o como elementos decorativos.
- Utilice el degradado de transparencia de los colores destacados para crear un efecto inspirado en la tecnología, pero asegúrese de que los diferentes colores destacados no se mezclen entre sí.
- Imita las animaciones del sitio web oficial de Apple, con el desplazamiento del mouse activando animaciones
- Se puede hacer referencia a los datos desde componentes de gráficos en línea, con estilos coherentes con el tema.
- Utilice Framer Motion (a través de CDN)
- Utilice HTML5, TailwindCSS 3.0+ (a través de CDN) y el JavaScript necesario
- Utilice bibliotecas de iconos profesionales como Font Awesome o Material Icons (a través de CDN)
- Evite usar emojis como íconos principales
- El botón de cápsula en la esquina inferior izquierda muestra el nombre de usuario de Twitter del autor.
En este caso, Claude finalmente hizo un gran trabajo. Los detalles y la estética de la página de Deepseek-R1-0528 son impresionantes, pero la funcionalidad no está implementada. Las páginas de Opus 4 y Sonnet 4 son más sencillas, pero al menos funcionales, mientras que Gemini no es funcional en absoluto.
Búsqueda profunda-R1-0528: Tras volver a usar mi solicitud, la estética de la página de Deepseek es realmente inigualable. Además, añadió mucho contenido optimizado para SEO, como escenarios de aplicación y tiempos de procesamiento. Las tarjetas de visualización con degradados también son muy detalladas, pero no se implementa la lógica de selección de color.
Claude Opus 4: Esta vez, Claude finalmente no decepcionó, completando la funcionalidad de la página, pero el contenido es muy básico, con solo un espacio para subir imágenes y los resultados, y la lógica de selección de colores también es deficiente. Sin embargo, al menos funciona.
Soneto 4 de Claude: Sonnet 4 también completó la funcionalidad, e incluso creo que los resultados de Sonnet son mejores que los de Opus, aunque todavía no es tan rico como Deepseek.
Géminis 2.5 Pro: Este es el peor. No solo le faltan detalles de página y estética, sino que la funcionalidad tampoco está implementada y se bloquea al iniciar.
Prueba 4: Sitio web de citas diarias de White Noise
A continuación, se presenta un generador de citas diarias de ruido blanco para sitios web, ideal para un complemento de página de nueva pestaña. Permite reproducir ruido blanco desde Spotify y la página web muestra...
Solicitud: Ayúdenme a crear un sitio web de cotizaciones diarias simple y elegante con los siguientes requisitos:
Diseño visual
- Imagen de fondo:Seleccione aleatoriamente imágenes de paisajes de alta calidad de los siguientes enlaces como imagen de fondo
- Enlaces de imágenes:XXXX
- Procesamiento de imágenes:Agregue una máscara negra 25% y un ligero desenfoque gaussiano para garantizar que el texto permanezca claro y legible.
- Estilo general: Minimalista y moderno, con imágenes de paisajes como fondo de la página web para mejorar la inmersión.
- Utilice anime.js (introducido a través de CDN: JsDelivr jsdelivr.com) para el marco de animación, HTML5, TailwindCSS 3.0+ (introducido a través de CDN) y JavaScript necesario, y utilice bibliotecas de íconos profesionales como Font Awesome o Material Icons (introducido a través de CDN).
Módulo de visualización de la hora
- Arriba: Muestra el formato de mes y día (por ejemplo, “29 de mayo”), en una fuente más pequeña, centrada
- Segunda fila: Muestra el formato “Semana X · Calendario lunar X mes X día” en una fuente más pequeña
- Centro:Resalta la fecha actual en fuente blanca grande, centrada
Módulo de visualización de cotizaciones
- Contenido:Muestra aleatoriamente citas clásicas de filósofos y escritores chinos y extranjeros.
- Disposición:Las citas están centradas, el tamaño de fuente es moderado y el interlineado es cómodo.
- Atribución:“Escritor, XXX” o “Filósofo, XXX” se muestra en la parte inferior derecha
- Biblioteca de cotizaciones:Contiene citas sobre diversos temas como motivación, perspectivas de vida y sabiduría.
Función de reproducción de música
- Ubicación:Esquina inferior izquierda de la página, contraída de forma predeterminada
- Contenido:Incrustar lista de reproducción de ruido blanco de Spotify
- Código:
Implementación técnica
- Diseño responsivo:Adaptado para computadoras de escritorio y dispositivos móviles.
- Selección de fuente:Utilice fuentes chinas elegantes, introducidas por Google Fonts
- Esquema de colores:Utilice principalmente texto blanco para garantizar la legibilidad en todos los fondos.
- Optimización de carga: Carga diferida de imágenes para mejorar el rendimiento de la página
Funciones interactivas
- Actualización automática: Cambia automáticamente la imagen de fondo y la cita todos los días.
- Actualización manual:Proporciona un botón de actualización para permitir que los usuarios cambien manualmente el contenido.
Estilo de redacción publicitaria
- Selección de cotizaciones:Prefiere citas cortas, positivas y filosóficas.
- Estilo del lenguaje: Conciso y contundente, evitando la extensión excesiva.
- Clasificación de temas:Perspectivas de vida, crecimiento inspirador, pensamientos sabios, expresión emocional, etc.
Genere un sitio web HTML/CSS/JavaScript completo de acuerdo con los requisitos anteriores, asegurándose de que la interfaz sea estéticamente agradable, funcional y brinde una buena experiencia de usuario.
Esta prueba tiene como único objetivo evaluar la comprensión de la estética de cada modelo. Este tipo de página web orientada a la visualización es generalmente factible.
Cabe destacar que Claude Opus 4 sigue siendo una autoridad en este ámbito, con una excelente atención al detalle. Gemini 2.5 Pro también es bueno, incluso añadiendo efectos de animación a las transiciones de imagen. Deepseek y Sonnet 4 están al mismo nivel.
Búsqueda profunda-R1-0528: Primero jugué Deepseek y me pareció bastante bueno. El primer problema estético general fue el botón de música en la esquina inferior izquierda, que era demasiado plano. La sección de citas también tenía problemas: no debería haberse añadido la máscara negra y la alineación del texto estaba un poco desalineada. Sin embargo, sí añadió un efecto de animación para la actualización.
Claude Opus 4: La estética de Opus 4 es realmente impecable. El tamaño y el espaciado de todas las fuentes son muy cómodos, y las citas de dichos famosos se han gestionado con transparencia, tanto en el texto como en las comillas. Incluso el reproductor de Spotify se ha integrado en una interfaz con animación de expansión/contracción. Es perfecto.
Soneto 4 de Claude: El efecto de Sonnet 4 es similar al de Deepseek. El botón de reproducción de música, el tamaño del texto, la alineación y el espaciado se pueden optimizar aún más.
Géminis 2.5 Pro: El efecto de Gemini también es bueno, pero eliminar la sombra del texto lo mejoraría. También se ha personalizado la interfaz del reproductor de Spotify, y los detalles del texto son correctos. El efecto de transición es notable, con un efecto de estiramiento en la imagen.
Prueba 5: Generación de la página de la aplicación Sleep
A continuación, se realiza la prueba de la aplicación móvil. Pida a cada uno que cree una aplicación de monitorización del sueño. La solicitud especificará la pila técnica y los requisitos de diseño, y requerirá la generación de varias páginas interactivas.
Indicación: Requisitos para el desarrollo de una aplicación de monitorización del sueño
Descripción general del proyecto
Por favor, ayúdenme a crear una aplicación completa para monitorizar el sueño con cuatro páginas funcionales principales. La interfaz debe ser estéticamente agradable y profesional.
Requisitos de la pila técnica
Tecnologías frontend
– HTML5 – Estructura de la página
– TailwindCSS v3.0+ – Marco de estilo (introducido a través de CDN)
– JavaScript – Lógica de interacción necesaria
– Anime.js v4.0.2 – Biblioteca de efectos de animación
- CDN:
https://cdn.jsdelivr.net/npm/animejs@4.0.2/+esm
Iconos y gráficos
- Biblioteca de iconos: Font Awesome o Material Icons (CDN)
- Componentes del gráfico: Componentes del gráfico en línea, los estilos deben ser coherentes con el tema
- Visualización de datos: Admite la visualización de gráficos de datos del sueño.
Requisitos de diseño
Diseño responsivo
- Diseño totalmente adaptable
- Diseño que prioriza los dispositivos móviles
- Buena visualización tanto en computadoras de escritorio como en dispositivos móviles
Efectos de interacción
- Interacción del botón: efecto ligeramente ampliado al pasar el cursor
Interacción del formulario: Mostrar un borde degradado cuando el campo de entrada esté enfocado
Interacción de cartas: Oscurece la sombra al pasar el cursor.
Efectos de animación: usa Anime.js para lograr animaciones de página fluidas
Requisitos de la página funcional
Genere todas las páginas necesarias para una aplicación de monitoreo del sueño, incluidas, entre otras:
- Página de inicio/panel de control
- Página de registro del sueño
- Página de análisis de datos
- Página de configuración
- Otras páginas funcionales relacionadas
Requisitos de salida del código
- Cada página es un archivo HTML independiente
- Estructura de código clara con comentarios completos
- Asegúrese de que todos los enlaces CDN sean accesibles
- Proporcionar código completo y ejecutable
En cuanto a la lógica y la interfaz móvil, Cluade Opus 4 demostró una vez más su potencia, completando varias páginas con buena lógica. Los otros modelos solo generaban una página, pero Deepseek R1 0528 dio en el clavo en cuanto a estética, con un estilo atractivo. Aunque solo generó una página, era muy completo.
Búsqueda profunda-R1-0528: Solo se generó una página, pero la estética general es buena. Los detalles de las tarjetas y el manejo de los íconos están bien logrados, y la página es completa y extensa. Además, se implementó un diseño adaptable para la navegación, lo que resultó en diseños completamente diferentes en dispositivos móviles y de escritorio.
Claude Opus 4: Realmente potente, solo Opus4 generó todas las páginas por completo, pero el diseño estético esta vez no es muy bueno, ya que utiliza la lógica de página web, con íconos de navegación demasiado pequeños.
Soneto 4 de Claude: Solo generó una sola página y reportó errores, con un diseño estético pobre, solo completando la tarea.
Géminis 2.5 Pro: Google siempre hace las cosas de forma diferente. Genera cada página individualmente, proporcionando cuatro archivos que no pueden interactuar entre sí. Además, todas las páginas reportaron errores, ya que cada una contenía solo navegación y nada de contenido, lo cual es bastante decepcionante.
Prueba 6: Funcionalidad compleja: Tetris
Finalmente, terminé con una pequeña prueba de juego. Diseñé un juego de Tetris relativamente complejo con bloques especiales, cambio de tema, predicción de caída de bloques, almacenamiento de bloques y más: un verdadero desafío.
Solicitud: Ayúdenme a crear un juego web de Tetris totalmente funcional y visualmente atractivo con los siguientes requisitos:
Características principales del juego
- Mecanismo completo de Tetris:7 bloques estándar (I, O, T, S, Z, J, L)
- Controles suaves: movimiento de izquierda a derecha, rotación, caída rápida, caída instantánea
- Sistema de eliminación inteligente:Admite la eliminación de 1 a 4 filas a la vez con efectos de animación especiales
- Sistema de dificultad progresiva: aumenta automáticamente la velocidad de caída y el nivel según la cantidad de filas eliminadas
Funciones avanzadas
- Sistema de vista previa: muestra los bloques siguiente y siguiente-siguiente
- Función de retenciónMantén pulsada la tecla Hold para guardar temporalmente el bloque actual. Solo se puede usar una vez por ronda.
- Bloques fantasma: Muestra la posición de aterrizaje de los bloques en forma semitransparente.
- Sistema combinado:La limpieza continua otorga puntos adicionales y efectos visuales.
- Habilidades especiales:
- Bloqueo de bombas (limpia el área circundante)
- Laser Clear (limpia toda la fila)
- Pausa de tiempo (los bloques dejan de caer durante 3 segundos)
Requisitos de diseño visual
- Interfaz de usuario moderna:
- Efectos de partículas o fondo degradado
- Panel de juego con efecto vidrio
- Transiciones de animación suaves
- Diseño responsivo para diferentes pantallas
- Ricos efectos visuales:
- Animación fluida de bloques cayendo y girando.
- Efectos de explosión o destello al ser eliminado
- Efecto de vibración de pantalla cuando se logra el combo
- Animación de celebración al subir de nivel
- Sistema de temas:Al menos 3 temas visuales diferentes para alternar
Sistema de efectos de sonido
- Retroalimentación de sonido completa: movimiento, rotación, aterrizaje, eliminación, fin del juego, etc.
- Música de fondo: música de fondo del juego en bucle
- Control de volumen: efectos de sonido y volumen de música de fondo ajustables de forma independiente
Modos de juego
- Modo clásico:juego tradicional de Tetris
- Modo de tiempo limitado:conseguir la puntuación más alta dentro de un límite de tiempo específico
- Modo desafío: obstáculos preestablecidos para aumentar la dificultad
- Modo zen:sin presión de tiempo, puro disfrute del juego
Funciones de estadísticas de datos
- Estadísticas en tiempo real: puntuación actual, nivel, número de líneas despejadas, tiempo de juego
- Historia: puntuación más alta, mejor nivel, tiempo total de juego
- Sistema de logros: desbloquea varios logros del juego
- Almacenamiento local:guardar registros y configuraciones del juego
Requisitos técnicos
- Utiliza HTML5/CSS3/JavaScript puro, no se requieren marcos externos
- Estructura de código clara:programación orientada a objetos, diseño modular
- Optimización del rendimiento: animación fluida de 60 FPS, sin retrasos
- Compatibilidad: compatible con los principales navegadores modernos
- Diseño responsivo: Compatible con PC y dispositivos móviles
Experiencia del usuario
- Instrucciones intuitivas:Tutorial integrado y avisos de botones
- Función de pausa/reanudación:Pausa el juego en cualquier momento
- Menú de configuración:Ajusta la dificultad del juego, los efectos de sonido, los efectos visuales, etc.
- Guardado del estado del juego:Admite guardar y reanudar el juego.
Requisitos de calidad del código
- Comentarios detallados:Cada función y segmento de código importante debe tener una descripción
- Manejo de erroresMecanismo integral de captura y manejo de excepciones
- Código elegante:Siga las mejores prácticas, fácil de entender y mantener.
- Extensibilidad:Es fácil agregar nuevas funciones en el futuro
Proporcione archivos HTML completos con todo el código CSS y JavaScript para garantizar que se ejecuten directamente en un navegador. El código debe demostrar habilidades profesionales de programación y un profundo conocimiento del desarrollo de videojuegos.
En el minijuego, Claude tiene algo entre manos. Tanto Opus como Sonnet generaron los bloques de Tetris correspondientes según lo requerido, especialmente la lógica de los bloques especiales. Deepseek abordó el tema que Claude pasó por alto, pero omitió los bloques especiales, lo que provocó que Gemini 2.5 Pro generara bloques injugables.
Búsqueda profunda-R1-0528: La tarea se completó muy bien y según las especificaciones, pero se omitió el diseño especial de bloques y no se implementó. Esto podría deberse a problemas para seguir las instrucciones. Toda la página web se asemeja a la interfaz de un juego, con todos los botones como componentes estándar.
Claude Opus 4: Completó la lógica de los bloques especiales y otras lógicas sin problemas, pero ignoró la solicitud para cambiar de tema, que no implementó. Comparado con los problemas de DeepSeek, este es un problema menor, pero la interfaz está codificada sin lógica responsiva, por lo que las proporciones son ligeramente incorrectas, lo que impide hacer clic en algunos botones.
Soneto 4 de Claude: Similar a Opus, pero creo que Sonnet 4 es mejor. La adaptación de la página también es buena. Parece que Sonnet ganó, ya que completó todas las funciones necesarias.
Géminis 2.5 Pro: Géminis siempre tiene dificultades con la lógica compleja. Esta vez, fue completamente inutilizable porque la colocación de los ladrillos tenía un error que impedía predecir dónde caerían. Es lo peor.
A estas alturas, creo que estás tan sorprendido como yo por el rendimiento del DeepSeek-R1.
Cuesta creer que se trate solo de una pequeña actualización de modelo. Comparemos los precios de estos modelos con los del DeepSeek R1 0528.
Opus 4 es 30 veces más caro, y eso usando los precios de Openrouter: el precio oficial sería aún más asombroso.
modelo | Longitud del contexto | Precio de entrada ($/M tokens) | Precio de salida ($/M tokens) | Precio de la imagen (1 token TP12T/K) |
DeepSeek R1 0528 | 160k | 0.50 | 2.18 | – |
Vista previa de Gemini 2.5 pro | 1000k | 1.25 | 10 | 5.16 |
Soneto 4 de Claude | 200k | 3.00 | 15 | 4.80 |
Claude Opus 4 | 200k | 15.00 | 75 | 24.00 |
Como alguien que se ocupa a diario de noticias sobre IA, he presenciado innumerables avances que, al final, resultan decepcionantes. Pero esta vez es diferente. DeepSeek-R1 me ha dado una verdadera esperanza.
Una diferencia de precio de 30 veces y un rendimiento casi equivalente.
Ya no tenemos que pagar precios exorbitantes para usar los mejores modelos de programación de IA, ni tenemos que hacer dolorosos sacrificios entre coste y calidad. Lo que es aún más inspirador es que este es nuestro propio modelo.
Esta frase la escribió AI y me parece genial: La verdadera revolución a menudo comienza cuando la gente común puede alcanzar las estrellas.