En Modelo DeepSeek R1 Se ha actualizado la versión, siendo la DeepSeek-R1-0528. Al acceder a la página web o la aplicación de DeepSeek, active la función "Pensamiento profundo" en la interfaz de diálogo para disfrutar de la última versión.
Los pesos del modelo DeepSeek-R1-0528 se han cargado en HuggingFace

En los últimos cuatro meses, el DeepSeek-R1 ha experimentado una superevolución, alcanzando capacidades de codificación excepcionales y tiempos de reflexión significativamente más largos. Si bien puede que no sea... DeepSeek-R2 Como todos esperaban, las mejoras en el modelo DeepSeek-R1-0528 son sustanciales.
Según los informes, el nuevo modelo está entrenado en DeepSeek-V3-0324 (con parámetros 660B).
Primero, echemos un vistazo rápido a las actualizaciones clave en esta versión a través de una tabla.
Dimensión de capacidad | deepseek-R1 | Búsqueda profunda-R1-0528 |
Contexto máximo | 64k (API) | 128K(API)aún más |
Generación de código | liveCodeBench cierra openai O1 | Cerca de O3 |
Profundidad del razonamiento | Las preguntas complejas requieren indicaciones segmentadas. | Admite de 30 a 60 minutos de reflexión profunda. |
Naturalidad del lenguaje | bastante largo | Estructura compacta, escritura similar a O3 |
Costo de uso | Código abierto o API$0.5/M | Código abierto o API$0.5/M |
Capacidades mejoradas de pensamiento profundo
DeepSeek-R1-0528 todavía utiliza el modelo base DeepSeek V3 lanzado en diciembre de 2024 como base, pero durante el entrenamiento posterior se invirtió más potencia informática, lo que mejoró significativamente la profundidad de pensamiento y las capacidades de razonamiento del modelo.
El modelo R1 actualizado ha logrado un rendimiento de primer nivel entre todos los modelos nacionales en múltiples evaluaciones comparativas, incluidas matemáticas, programación y lógica general, y su rendimiento general ahora está a la par con otros modelos internacionales de primer nivel como o3 y Gemini-2.5-Pro.
- Capacidades de matemáticas y programación: En la competencia de matemáticas AIME 2025, la precisión mejoró de 70% en la versión anterior a 87.5%; las capacidades de generación de código en la prueba comparativa LiveCodeBench están casi a la par con el modelo o3-high de OpenAI, logrando una puntuación de aprobado@1 es 73.3%.
Las pruebas de usuarios muestran que el nuevo DeepSeek-R1 es simplemente asombroso en programación.
El experto en IA "karminski-dentist" probó DeepSeek-R1-0528 y Claude 4 Sonnet usando el mismo mensaje y descubrió que:

Ya sea el reflejo difuso de la luz en una pared, la dirección del movimiento de una pelota después del impacto o el atractivo estético de un panel de control, R1 claramente supera a la competencia.
El usuario Haider hizo que el modelo construyera un sistema de puntuación de palabras. R1 consideró brevemente la tarea e inmediatamente generó dos archivos (uno para el código y otro para las pruebas de trabajo) que se ejecutaron sin problemas en el primer intento.

Anteriormente, o3 era el único modelo capaz de completar esta tarea. Ahora, R1 es, sin duda, el mejor modelo para esta tarea.
Tenga en cuenta que el rendimiento de R1 es tan notable porque los dos archivos que devuelve se ejecutan sin problemas en el primer intento, sin ninguna edición ni reintentos, lo cual es extremadamente raro.
Anteriormente, la mayoría de los modelos terminaban en casos extremos, complicaban excesivamente la solución o carecían de una cobertura de pruebas adecuada.
- Profundidad de inferencia: el tiempo de pensamiento en una sola tarea se extendió a 30-60 minutos, con capacidades de resolución de problemas significativamente mejoradas para cuestiones complejas (por ejemplo, simulaciones de física, rompecabezas lógicos de varios pasos).
Un mayor tiempo de reflexión se ha convertido en la característica más comentada en línea. Algunos usuarios informaron que el tiempo de reflexión de R1 superó los 25 minutos en pruebas reales.

Además, este parece ser el único modelo capaz de responder correcta y consistentemente a la pregunta "¿Cuánto es 9,9 menos 9,11?".


DeepSeek-R1-0528 logró un rendimiento excelente en todos los conjuntos de datos de evaluación
En comparación con la versión anterior de R1, el nuevo modelo muestra mejoras significativas en tareas de razonamiento complejo. Por ejemplo, en la prueba AIME 2025, la precisión del nuevo modelo aumentó de 70% a 87,5%.
Esta mejora se debe a la mayor profundidad de razonamiento del modelo: en el conjunto de pruebas AIME 2025, el modelo anterior utilizaba un promedio de 12 000 tokens por pregunta, mientras que el nuevo modelo utilizaba un promedio de 23 000 tokens por pregunta, lo que indica un pensamiento más detallado y profundo en el proceso de resolución de problemas.
Además, el equipo deepseek destiló la cadena de razonamiento de DeepSeek-R1-0528 y ajustó la base Qwen3-8B, dando como resultado DeepSeek-R1-0528-Qwen3-8B.
Este modelo 8B ocupó el segundo lugar, detrás de DeepSeek-R1-0528 en la prueba de matemáticas AIME 2024, superando a Qwen3-8B (+10.0%) e igualando a Qwen3-235B.
Las cadenas de razonamiento de DeepSeek-R1-0528 tendrán implicaciones significativas para la investigación académica sobre modelos de razonamiento y el desarrollo industrial de modelos a pequeña escala.
Algunos internautas elogiaron a DeepSeek-R1 por ser capaz de corregir cadenas de razonamiento como o3 y construir mundos creativamente como Claude.

Es importante señalar que DeepSeek es un modelo de código abierto, lo que marca una gran victoria para los modelos de código abierto.

Resultados de la comparación AIME 2024 para modelos de código abierto como DeepSeek-R1-0528-Qwen3-8B
Otras actualizaciones de capacidades
- Mejora de las alucinaciones: La nueva versión de DeepSeek R1 ha optimizado el rendimiento para problemas de alucinaciones. En comparación con la versión anterior, el modelo actualizado logra una reducción del 45 al 50% en las tasas de alucinaciones en tareas como reescritura y pulido, resumen y comprensión lectora, lo que proporciona resultados más precisos y fiables.
- Escritura creativa: Basado en la versión R1 anterior, el modelo R1 actualizado se ha optimizado aún más para los estilos de escritura de ensayos, novelas y prosa, lo que le permite generar obras más largas y estructuralmente más completas, al tiempo que presenta un estilo de escritura más alineado con las preferencias humanas.
- Invocación de herramientas: DeepSeek-R1-0528 admite la invocación de herramientas (no se admite en el pensamiento). Las puntuaciones de la evaluación Tau-Bench del modelo actual son 53,5% para aerolíneas y 63,9% para comercio minorista, comparables a las de OpenAI o1-high, pero aún por debajo de las de o3-high y Claude 4 Sonnet.
El ejemplo muestra un resumen de un artículo web generado mediante la invocación de la herramienta DeepSeek-R1-0528 a través de LobeChat. Además, DeepSeek-R1-0528 se ha actualizado y mejorado en áreas como la generación de código frontend y el juego de roles.

El ejemplo muestra una aplicación de tarjeta de palabras moderna y minimalista desarrollada con HTML/CSS/JavaScript invocando DeepSeek-R1-0528 en una página web.

Aspectos destacados de la actualización DeepSeek-R1-0528
- Capacidades de razonamiento profundo comparables a los modelos de Google
- Optimización de la generación de texto: más natural y mejor formateado
- Estilo de razonamiento único: no sólo más rápido sino también más riguroso
- Apoyo al pensamiento a largo plazo: el tiempo de procesamiento de una sola tarea puede alcanzar entre 30 y 60 minutos.

Hemos probado las capacidades de la nueva versión del DeepSeek-R1. Aunque se trata de una actualización menor, su rendimiento ha mejorado notablemente.
Especialmente en cuanto a capacidades de programación, da la impresión de haber superado o incluso igualado a Claude 4 y Gemini 2.5 Pro. Todas las indicaciones son de una sola ejecución, sin necesidad de modificaciones. Además, se puede ejecutar directamente en un navegador web para demostrar sus capacidades.
Se puede sentir claramente que el proceso de pensamiento de la nueva versión DeepSeek-R1 es más estable.
Puedes hacerle a deepseek-R1 cualquier pregunta que quieras responder. Incluso si tu pregunta es un poco absurda, el sistema analizará cuidadosamente y organizará la lógica. Te recomendamos encarecidamente que pruebes el último modelo de deepseek-R1.
Información de actualización de la API
La API se ha actualizado, pero la interfaz y los métodos de llamada permanecen sin cambios. La nueva API R1 aún permite visualizar el proceso de pensamiento del modelo y ahora también admite llamadas a funciones y JsonOutput.
El equipo de deepseek ha ajustado el significado del parámetro max_tokens en la nueva API R1: max_tokens ahora limita la longitud total de la salida única del modelo (incluido el proceso de pensamiento), con un valor predeterminado de 32 K y un máximo de 64 K. Se recomienda a los usuarios de la API que ajusten el parámetro max_tokens lo antes posible para evitar que la salida se trunque prematuramente.
Para obtener instrucciones detalladas sobre el uso del modelo R1, consulte la Guía de la API deepseek R1:
Tras esta actualización R1, la longitud del contexto del modelo en el sitio web oficial, el miniprograma, la aplicación y la API se mantendrá en 64 KB. Si los usuarios necesitan una longitud de contexto mayor, pueden acceder a la versión de código abierto del modelo R1-0528 con una longitud de contexto de 128 KB a través de plataformas de terceros.
Código abierto
DeepSeek-R1-0528 utiliza el mismo modelo base que el DeepSeek-R1 anterior, con solo mejoras en los métodos de post-entrenamiento.
Al implementar de forma privada, solo es necesario actualizar el punto de control y tokenizer_config.json (cambios relacionados con las llamadas a la herramienta). Los parámetros del modelo son 685 B (de los cuales 14 B corresponden a la capa MTP), y la versión de código abierto tiene una longitud de contexto de 128 K (se proporciona una longitud de contexto de 64 K para la web, la aplicación y la API).