Hoy compartiremos DeepSeek R1Título: DeepSeek-R1: Incentivar la capacidad de razonamiento en los LLM mediante aprendizaje de refuerzo: Incentivar la capacidad de razonamiento en los LLM mediante aprendizaje de refuerzo.
Este artículo presenta la primera generación de modelos de razonamiento de DeepSeek, DeepSeek-R1-Cero y DeepSeek-R1El modelo DeepSeek-R1-Zero fue entrenado a través de aprendizaje de refuerzo a gran escala (RL) sin ajuste fino supervisado (SFT) como paso inicial, lo que demuestra el potencial del RL y las capacidades de razonamiento superiores Aporta. A través del aprendizaje por refuerzo, DeepSeek-R1-Zero emergió naturalmente con muchos comportamientos de razonamiento poderosos e interesantes.Para optimizar aún más algunos de los problemas con R1-Zero (confusiones lingüísticas, capacidad de generalización mejorada), lanzaron DeepSeek-R1, que combina entrenamiento en múltiples etapas y ajuste fino de datos de inicio en frío antes del aprendizaje de refuerzo. DeepSeek-R1 logró un rendimiento comparable sobre la tarea de razonamiento con OpenAI-01-1217. Para apoyar a la comunidad de investigación, han DeepSeek-R1-Zero de código abierto, DeepSeek-R1 y seis modelos densos (1.5B, 7B, 8B, 14B, 32B, 70B) derivados de DeepSeek-R1, que se basan en Qwen y Llama.
Las características del método se resumen a continuación:
- El aprendizaje de refuerzo se aplica directamente al modelo base, sin depender del ajuste fino supervisado (SFT) como paso inicial.
- Se presenta el proceso de desarrollo DeepSeek-R1, que Combina dos fases de aprendizaje de refuerzo y dos fases de ajuste supervisado para sentar las bases de las capacidades de razonamiento y no razonamiento del modelo..
- El rendimiento de los modelos pequeños en tareas de razonamiento se mejora al transferir los patrones de razonamiento de los modelos grandes a los modelos pequeños a través de Técnicas de destilación.
Descripción general
- Título: DeepSeek-R1: Incentivo de la capacidad de razonamiento en los LLM mediante aprendizaje por refuerzo
- Autores: DeepSeek-AI
- Github: deepseek R1
Motivación
- Los modelos de lenguaje grande (LLM) actuales han logrado avances significativos en las tareas de inferencia, pero aún enfrentan desafíos.
- El potencial de lo puro El aprendizaje por refuerzo (RL) para mejorar la capacidad de razonamiento de los LLM no se ha explorado por completo, especialmente sin depender de datos supervisados.
- Modelos entrenados a través de RL, como DeepSeek-R1-Zero, tiene problemas de legibilidad y mezcla de idiomas (por ejemplo, habla chino e inglés mezclados) y necesita más mejoras para mejorar la facilidad de uso..
Métodos

DeepSeek-R1-Cero: Utiliza DeepSeek-V3-Base como modelo base y GRPO (Optimización de políticas relativas a grupos) como aprendizaje de refuerzo estructura, Sin datos supervisados para mejorar el rendimiento del modelo en la inferencia.
DeepSeek-R1:
- Arranque en frío: Recopila una pequeña cantidad de datos CoT (cadena de pensamiento) largos y de alta calidad y los ajusta Modelo base DeepSeek-V3 como actor inicial para el aprendizaje de refuerzo.
- Aprendizaje por refuerzo orientado al razonamiento: Lo mismo Se aplica un proceso de entrenamiento de aprendizaje de refuerzo como DeepSeek-R1-Zero, pero con el foco puesto en mejorar las capacidades de razonamiento del modelo. En áreas como la codificación, las matemáticas, la ciencia y el razonamiento lógico, se introducen recompensas por coherencia lingüística para mitigar el problema de la mezcla lingüística que se produce en CoT.
- Muestreo de rechazo y ajuste fino supervisado: Utiliza el punto de control convergente del aprendizaje de refuerzo para Recopilar datos de ajuste fino supervisado (SFT) para formación posterior.
- Aprendizaje de refuerzo para todos los escenarios: Implementa una fase de aprendizaje de refuerzo de segundo nivel, que tiene como objetivo mejorar la utilidad e inocuidad del modelo y al mismo tiempo optimizando su capacidad de razonamiento.
- Destilación del conocimiento: Ajusta los modelos de código abierto Qwen y Llama directamente utilizando las 800k muestras seleccionadas por DeepSeek-R1.
Métodos y procedimientos detallados:

DeepSeek-R1-Zero: Aprendizaje por refuerzo para modelos base
- Algoritmo de aprendizaje por refuerzo: Utiliza el algoritmo de Optimización de Política Relativa de Grupo (GRPO), que no requiere una crítico modelo, estima la línea base por puntajes de grupo y reduce los costos de capacitación.
- Modelado de recompensas: Utiliza un sistema de recompensa basado en reglas, incluido

- Recompensa por precisión: Evalúa si la respuesta es correcta, como por ejemplo la exactitud del resultado final de la Respuesta al problema de matemáticas, retroalimentación del compilador para problemas de código.
- Formato de recompensa: Incentiva al modelo a situar el proceso de pensamiento entre
y
etiquetas.
Plantilla de formación: Una plantilla que contiene y
Las etiquetas están diseñadas para Guíe el modelo para generar primero el proceso de pensamiento y luego la respuesta final..

- Proceso autoevolutivo: DeepSeek-R1-Zero demostrado características autoevolutivas durante el entrenamiento y fue capaz de aprender de forma autónoma estrategias de razonamiento más complejas, como la reflexión y la exploración de múltiples caminos para la resolución de problemas..

DeepSeek-R1: Aprendizaje por refuerzo combinado con arranque en frío

- Arranque en frío: Para resolver DeepSeek-R1-Zero Problema de legibilidad, DeepSeek-R1 primero recoge una pequeña cantidad de Datos de CoT de alta calidad y ajusta el modelo DeepSeek-V3-Base a Servir como actor inicial para el aprendizaje de refuerzo.. Los datos de arranque en frío Contiene etiquetas de resumen y respuestas hostiles. se filtran.
- Método: 1) Seleccione datos COT largos de alta calidad. 2) Agregue etiquetas.
- Ventajas: 1) Legibilidad optimizada (resuelve el problema multilingüe de R1-Zero o el problema del formato Markdown). 2) Los datos preferidos por los humanos cuidadosamente seleccionados pueden seguir mejorando el rendimiento en R1-Zero.
- Pregunta: ¿Por qué resolver el problema de legibilidad? ¿No es posible hacerlo mejor sin resolverlo (por ejemplo, reduciendo la longitud de la salida y haciendo inferencias de manera más eficiente)?
- RL orientado al razonamiento: Basado en el modelo de arranque en frío, un proceso de aprendizaje de refuerzo similar a Se aplica DeepSeek-R1-Zero, centrándose en mejorar la capacidad del modelo en tareas como codificación, matemáticas, razonamiento científico y lógico.Para resolver el problema de las lenguas mixtas (razonamiento multilingüe), Recompensas por la coherencia del lenguaje se introducen.
- Pregunta: ¿Cómo se entrenan las tareas y los conjuntos de datos de razonamiento científico y lógico?
- Muestreo de rechazo y SFT: Después de que el aprendizaje de refuerzo guiado por inferencia converge, el punto de control obtenido se utiliza para muestreo de rechazo para generar nuevos datos SFT, que se combinan con los datos de DeepSeek-V3 para mejorar las capacidades del modelo en escritura, juegos de roles y tareas generales.
- Objetivo:
- Esta fase se inicia después de la El proceso de aprendizaje por refuerzo (RL) orientado a la inferencia converge.
- El objetivo principal es Recopilar datos de ajuste fino supervisado (SFT) para utilizar en rondas de entrenamiento posteriores.
- A diferencia de los datos iniciales de arranque en frío, que se centran únicamente en la inferencia, esta fase tiene como objetivo ampliar las capacidades del modelo para cubrir la escritura, los juegos de rol y otras tareas de propósito general, no solo la inferencia.
- Recopilación de datos – Datos de inferencia:
- Método: Utilice los puntos de control obtenidos de la fase de RL orientada a la inferencia para generar trayectorias de inferencia mediante muestreo de rechazo.
- Expansión del conjunto de datos: A diferencia de la fase anterior de RL, que solo utilizaba datos de recompensa basados en reglas, aquí se introducen datos de recompensa no basados en reglas. En algunos casos, se utiliza un modelo de recompensa generativo (DeepSeek-V3) para determinar la respuesta.
- Filtrado de datos: Para garantizar la calidad y la legibilidad, la salida se filtra para eliminar:
- Cadenas de pensamiento que contienen lenguajes mixtos
- párrafos largos
- bloques de código
- Muestreo y selección: Para cada pregunta se generaron múltiples respuestas. Solo la respuesta “correcta” se conservó para el conjunto de datos.
- Tamaño del conjunto de datos: Aproximadamente 600.000 muestras de entrenamiento relacionadas con la inferencia Fueron recogidos de esta manera.
- Recopilación de datos: datos no inferenciales:
- Cobertura: Redacción, respuesta a preguntas factuales (QA), autoconciencia y traducción.
- El artículo menciona el uso de El proceso de DeepSeek-V3 y reutiliza parte del conjunto de datos SFT de DeepSeek-V3 para manejar estas tareas que no implican inferencia. 200.000 muestras independientes de la inferencia fueron recogidos. (Nota: Los detalles de la recopilación de datos no inferenciales se describen con más detalle en la Sección 2.3.4)
- Uso de los datos recopilados:
- Los datos de razonamiento y no razonamiento recopilados (un total de aproximadamente 800.000 muestras: 600.000 muestras de razonamiento + 200.000 muestras de no razonamiento) se utilizaron luego para Ajustar el modelo DeepSeek-V3-Base para dos épocasEste modelo perfeccionado se utilizó luego en la fase final de RL descrita en la Sección 2.3.4.
- Resumen Este paso utiliza las capacidades de inferencia. aprendido a través del RL para generar un conjunto de datos SFT diverso y de alta calidad. Este conjunto de datos fortalece las capacidades de inferencia y también amplía las capacidades generales de el modelo de formación en la fase final de alineación y mejora.
- Objetivo:
- Aprendizaje de refuerzo para todos los escenarios: para alinear aún más las preferencias humanas, se implementa una segunda fase de aprendizaje de refuerzo para mejorar la utilidad e inocuidad del modelo.
- Datos de inferencia: por ejemplo, matemáticas, código, inferencia lógica o supervisados con métodos de base de reglas.
- Datos generales: los modelos de recompensa se siguen utilizando para proporcionar información sobre preferencias en situaciones complejas y sutiles. También se estiman los modelos entrenados con datos por pares.
- Utilidad: centrarse únicamente en los resultados finales del resumen, reduciendo la interferencia con el proceso de inferencia.
- Inocuidad: supervisar toda la respuesta para reducir cualquier riesgo.
Modelo de destilación (Destilación):
- Para obtener un modelo de inferencia pequeño más eficiente, el artículo destila la capacidad de inferencia de DeepSeek-R1 en los modelos de código abierto de las series Qwen y Llama. El proceso de destilación Solo utiliza ajuste fino supervisado (SFT) y no utiliza la etapa de aprendizaje de refuerzo.
Conclusión
DeepSeek-R1-Cero:Demuestra el potencial de El aprendizaje de refuerzo puro motiva la capacidad de inferencia de LLM y puede lograr un rendimiento sólido. sin depender de datos supervisados.


- Momento ajá: La belleza del aprendizaje por refuerzo (el momento de iluminación del modelo, donde Asigna más tiempo para pensar en un problema al aprender a reevaluarlo. el enfoque inicial)
- La longitud de salida continúa aumentando (el tiempo de reflexión continúa aumentando)
- La precisión continúa mejorando (muestreando 16 respuestas para calcular la precisión)

- DeepSeek-R1:Mejora aún más el rendimiento del modelo al combinar datos de inicio en frío y un ajuste fino del aprendizaje de refuerzo iterativo. Alcanzar un nivel comparable a OpenAI-01-1217 en varias tareas.

- Destilación del conocimiento:Utilizando DeepSeek-R1 como modelo docente, se generaron 800 000 muestras de entrenamiento y se ajustaron varios modelos pequeños y densos. Los resultados muestran que esto El método de destilación puede mejorar significativamente la capacidad de inferencia de Modelos pequeños.
Limitación
- Limitación 1: Es necesario mejorar la capacidad general de DeepSeek-R1. DeepSeek-R1 todavía es inferior a DeepSeek-V3 en tareas como llamadas de funciones, diálogo multiturno, juegos de roles complejos y salida JSON.
- Limitación 2: Problema de mezcla de idiomas. DeepSeek-R1 puede encontrar un problema de mezcla de idiomas al procesar consultas que no están en chino ni en inglés, por ejemplo, al razonar y responder en inglés.
- Limitación 3: Sensibilidad inmediata. DeepSeek-R1 es sensible a las palabras clave, y unas pocas indicaciones reducirán su rendimiento.
- Limitación 4: Aplicación limitada a tareas de ingeniería de software. Debido al largo tiempo de evaluación, el aprendizaje de refuerzo a gran escala no se ha aplicado plenamente a las tareas de ingeniería de software, y DeepSeek-R1 tiene una mejora limitada con respecto a DeepSeek-V3 en los puntos de referencia de ingeniería de software.