Interpretación del artículo DeepSeek R1 y puntos técnicos clave

1 Antecedentes

Durante el Festival de Primavera, DeepSeek R1 Una vez más atrajo amplia atención, e incluso el artículo de interpretación de DeepSeek V3 que escribimos anteriormente también fue retransmitido y discutido mucho.

Aunque han sido muchos los análisis y reproducciones de DeepSeek R1, aquí hemos decidido recopilar algunas notas de lectura correspondientes.

Utilizaremos tres diagramas esquemáticos centrales para demostrar la construcción del modelo y los puntos técnicos clave, destilando la esencia de la serie DeepSeek-R1 para proporcionar una comprensión más intuitiva de sus ideas de diseño.

El documento correspondiente es [2501.12948] DeepSeek-R1: Incentivo de la capacidad de razonamiento en los LLM mediante aprendizaje por refuerzo

y el modelo de código abierto correspondiente es DeepSeek-R1

2 Introducción

2.1 Algoritmos de razonamiento común

Como se muestra en la Figura 2 a continuación, el autor explica los cuatro algoritmos de razonamiento más comunes. Aunque difieren en detalles específicos, todos incluyen dos operaciones básicas:

Expansión: generar tokens para ampliar la ruta de la solución.
Agregación: integrar los resultados de cada ruta para obtener la respuesta final. Aumentar los recursos computacionales en la fase de expansión puede mejorar normalmente la calidad de la respuesta en la fase de agregación.

Autoconsistencia (SC). Como se muestra en la Figura 2a, la idea central de la SC es generar múltiples resultados diferentes (lo que se puede lograr modificando los parámetros de muestreo, etc.) y luego votar por todas las respuestas para seleccionar la respuesta con la mayor tasa de éxito. El parámetro clave es la cantidad de respuestas candidatas n.

Algoritmo Rebase: como se muestra en la Figura 2b a continuación, Rebase también genera múltiples resultados, pero se generan en múltiples pasos. Cada paso se califica utilizando el modelo Reward y el resultado con el puntaje más alto se utiliza para continuar generando. Finalmente, se genera un árbol de razonamiento con múltiples ramas. La respuesta con el puntaje más alto (Best-of-N) se selecciona en la etapa de agregación.

Búsqueda de árboles de Monte Carlo (MCTS): como se muestra en la Figura 2c a continuación, MCTS es un poderoso algoritmo de razonamiento que expande los nodos mediante un muestreo gradual y construye un árbol de soluciones hasta que llega a un nodo de hoja que contiene una solución candidata. Cada solución se califica a través de un modelo de recompensa o simulación, y la puntuación se propaga de nuevo a sus nodos antecesores para actualizar sus valores de recompensa, completando así una iteración. El parámetro clave también es n, y el aumento de n permite una exploración más profunda y amplia de las soluciones potenciales.

Cadena cognitiva internalizada (ICoT). Como se muestra en la Figura 2d a continuación, los últimos LLM, como OpenAI o1 y Qwen-QWQ, pueden internalizar el comportamiento de razonamiento durante el entrenamiento sin la necesidad de un algoritmo de razonamiento explícito. La idea central es generar una secuencia CoT, descomponer problemas complejos en múltiples subproblemas y luego optimizar iterativamente estas respuestas reflexionando sobre los resultados anteriores para finalmente llegar a una solución.

2.2 Métodos de alineación de razonamiento

2.2.1 Descripción general del método Best-of-N

En resumen, Best-of-N es un método de alineamiento ampliamente utilizado en la inferencia LLM, que tiene como objetivo garantizar la alta calidad de los resultados generados mediante la generación de múltiples respuestas candidatas y la selección de la mejor. Consta de tres procesos principales:

Proceso de generación: para una solicitud X dada, el método Best-of-N genera N respuestas IID (Y₁, Y₂, …, Yₙ), donde N a menudo se denomina “tamaño del lote”.
Mecanismo de puntuación: cada respuesta generada se califica mediante un modelo de recompensa para obtener una puntuación correspondiente {s(Y₁), s(Y₂), …, s(Yₙ)}.
Selección de la mejor respuesta: Finalmente, se selecciona como salida la respuesta con la puntuación más alta entre todas las respuestas generadas, es decir, Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}.

Las ventajas de este método son:

Puede evitar de forma eficaz pasos complejos de ajuste fino, lo que facilita la implementación de modelos de lenguaje que han sido previamente entrenados o ajustados con instrucciones.
Es fácil de implementar, fácil de entender y esencialmente libre de hiperparámetros: el hiperparámetro principal es N, que puede ajustarse dinámicamente durante la inferencia.
Es altamente competitivo en términos de calidad de generación e incluso puede rivalizar con algunas técnicas complejas de post-entrenamiento como RLHF o DPO. Las investigaciones muestran que el método Best-of-N funciona bien en la curva de compensación entre recompensa y divergencia KL, superando incluso a otras estrategias de alineamiento complejas.

Las desventajas de este método son:

La inferencia requiere generar N secuencias, lo que puede generar una sobrecarga computacional significativa. En la práctica, un valor razonable para N varía de 4 a 128, pero para competir con los métodos de post-entrenamiento más avanzados, pueden requerirse valores N más altos, como 1000 a 60000, lo que puede generar una sobrecarga computacional casi inaceptable.

El método best-of-N se utiliza a menudo para generar conjuntos de datos de alta calidad para un ajuste fino supervisado posterior y jugó un papel clave en el proceso de alineación de LLaMA-2 y LLaMA-3.

2.2.2 Método de mejor de N de OpenAI

OpenAI propuso por primera vez el muestreo Best-of-N en [2009.01325] Aprendiendo a resumir a partir de la retroalimentación humana En concreto, se utiliza para evaluar y optimizar el rendimiento del modelo de resumen mediante la selección del mejor resumen generado a partir de varios modelos. Este método ayuda a los investigadores a comprender mejor la relación entre las diferentes métricas de evaluación y las preferencias de los evaluadores humanos, y se utiliza para guiar el entrenamiento y la optimización del modelo.

OpenAI también utiliza el muestreo Best-of-N (muestreo de rechazo) en el seguimiento [2112.09332] WebGPT: Preguntas y respuestas asistidas por navegador con retroalimentación humanaEn concreto, se toma una muestra de un número fijo de respuestas (4, 16 o 64) del modelo BC o del modelo RL, y se selecciona la que tenga la puntuación más alta en el modelo de recompensa como método de optimización para el modelo de recompensa adversarial. Este método no requiere entrenamiento adicional, pero aumenta la complejidad computacional de la etapa de inferencia para lograrlo.

2.2.3 Método Google BOND

En [2407.14622] BOND: Para alinear los LLM con Best-of-N Distillation, los autores de Google proponen Best-of-N Distillation (BOND), un nuevo algoritmo RLHF diseñado para simular la estrategia de muestreo Best-of-N a través de un algoritmo de coincidencia de distribución sin aumentar significativamente la sobrecarga computacional durante la inferencia.

En concreto, el autor primero deriva la distribución analítica exacta del muestreo Best-of-N y da la función de probabilidad del muestreo Best-of-N:

En segundo lugar, los autores expresan el problema como un problema de coincidencia de distribución;

Posteriormente, los autores proponen utilizar la divergencia de Jeffreys como objetivo de correspondencia de distribuciones:

Finalmente, para resolver el problema de selección de N, los autores proponen el método iterativo BOND, que mejora el rendimiento de la estrategia mediante la destilación iterativa de la distribución Best-of-N. Los pasos específicos incluyen:

Inicialice la estrategia de anclaje auxiliar π(ancla).

Ejecute BOND iterativamente para destilar el π(ancla) Best-of-N y actualizar π(ancla) después de cada paso.

2.3 Supervisión de procesos y supervisión de resultados

Resultado y proceso se refieren a los dos aspectos de la evaluación del modelo de recompensa:

Modelo de recompensa de resultado: evalúa si el resultado final del modelo es correcto o el esperado.
Modelo de recompensa de proceso: evalúa si los pasos de razonamiento y toma de decisiones del modelo en el proceso de generación de resultados son razonables y efectivos.

Por ejemplo, Let's Verify Step by Step | OpenAI de OpenAI también menciona:

Supervisión de procesos (supervisada por resultados): implica brindar retroalimentación sobre cada paso del proceso de razonamiento del modelo. Los modelos de recompensa supervisados por procesos (PRM) están entrenados para predecir la exactitud de cada paso de la solución.
Supervisión de resultados: la supervisión de resultados proporciona retroalimentación basada únicamente en el resultado final del razonamiento del modelo. Los modelos de recompensa supervisados por resultados (ORM) se entrenan utilizando la respuesta final de la solución y la exactitud se determina mediante una verificación automática.

2.4 Recompensa de piratería

En RL, el hackeo de recompensas se refiere al fenómeno en el que un agente explota una falla en el diseño de la función de recompensa para maximizar la recompensa acumulada de una manera que no cumple con la intención original del diseñador. Aunque técnicamente este comportamiento cumple con el objetivo de optimización de la función de recompensa, el efecto real se desvía del objetivo de la tarea esperado e incluso puede conducir a consecuencias negativas.

Análisis de puntos clave:

Definición y manifestación:
1. El agente encuentra una falla en la función de recompensa y obtiene una recompensa alta tomando “atajos” en lugar de resolver realmente el problema.
2. Por ejemplo, un robot de limpieza apaga las luces para que la habitación “parezca” limpia, en lugar de realmente limpiarla; un agente de juego suma puntos repetidamente sin completar el objetivo del nivel; elige no reducir la velocidad para reducir la cantidad de frenadas, lo que representa un riesgo de seguridad; genera contenido sin sentido que coincide con palabras clave para engañar a los puntajes altos.
Causas fundamentales:
1. Diseño incompleto de la función de recompensa: simplificación excesiva o falta de cobertura de casos extremos.
2. Desalineación entre objetivos y recompensas: la función de recompensa no refleja completamente el objetivo real, lo que provoca que el agente optimice para el objetivo “incorrecto”.
Soluciones:
1. Mejorar el diseño de recompensas: introducir recompensas multidimensionales (por ejemplo, seguridad, eficiencia, etc.) o ajustar dinámicamente la función de recompensa.
2. Verificación adversarial: detectar si el agente está “haciendo trampa” a través de mecanismos adicionales.
3. Intervención manual y restricciones: establecer límites de comportamiento (por ejemplo, capa de seguridad) o retroalimentación manual (por ejemplo, RLHF).
4. Aprendizaje por refuerzo inverso (IRL): aprenda una función de recompensa más realista a partir de demostraciones de expertos.
5. Aprendizaje de refuerzo jerárquico: descomponer la tarea en subobjetivos para reducir el riesgo de optimización local.
Asociación con sobreajuste:
1. Ambos muestran una desconexión entre las métricas de entrenamiento y el rendimiento en el mundo real, pero Reward Hacking pone más énfasis en los fallos de diseño de la función de recompensa que en la capacidad de generalización del modelo.
Resumen:
1. Reward Hacking revela el desafío de la alineación de objetivos en el aprendizaje automático. Para resolver este problema se requiere una combinación de diseño de mecanismos de recompensa más robustos, introducción de restricciones externas e incorporación de conocimiento humano previo para garantizar que el comportamiento del agente sea eficiente y esté en línea con la intención del diseño.

3 DeepSeek-R1-Cero y DeepSeek-R1

3.1 Descripción general

Las investigaciones anteriores se han basado en gran medida en grandes cantidades de datos supervisados para mejorar el rendimiento del modelo. Este estudio muestra que incluso sin SFT como inicio en frío, el RL a gran escala puede mejorar significativamente la capacidad de razonamiento del modelo. Además, la introducción de una pequeña cantidad de datos de inicio en frío puede optimizar aún más el rendimiento. Los siguientes son los modelos relacionados con DeepSeek-R1:

DeepSeek-R1-Zero: Este modelo aplica RL directamente al modelo base sin ningún dato SFT.
DeepSeek-R1: Este modelo aplica RL a partir de un punto de control que se ha ajustado con miles de muestras de CoT largas.
DeepSeek-R1-Distill-xx: destila la capacidad de razonamiento de DeepSeek-R1 en un pequeño modelo denso.

3.2 DeepSeek-R1-Cero

La siguiente figura muestra los puntos clave en el entrenamiento del modelo DeepSeek-R1-Zero:

PD: Cabe señalar que el artículo no proporciona mucha información sobre los datos utilizados en el proceso de RL de DeepSeek-R1-Zero. Sin embargo, hay alguna explicación del proceso de generación de datos y la cantidad en el entrenamiento R1 posterior, aunque no es particularmente específica.

3.2.1 Algoritmo RL

Para reducir el costo de entrenamiento de RL, los autores utilizan el método GRPO (Group Relative Policy Optimization) propio de DeepSeek, [2402.03300] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. Este método abandona el modelo crítico, que suele ser comparable en tamaño al modelo de política, y en su lugar estima la línea base utilizando una puntuación de grupo. La explicación correspondiente se muestra en la siguiente figura (imagen de Twitter):

3.2.2 Modelado de recompensas

Las recompensas son la fuente de las señales de entrenamiento y determinan la dirección de optimización del RL. Para entrenar DeepSeek-R1-Zero, los autores utilizaron un sistema de recompensas basado en reglas, que consta principalmente de dos tipos de recompensas:

Recompensa por precisión: evalúa si la respuesta es correcta. Por ejemplo:
- En problemas matemáticos con resultados deterministas, el modelo debe proporcionar la respuesta final en un formato específico (por ejemplo, dentro de un cuadro) para que su exactitud pueda verificarse de manera confiable mediante reglas.
- De manera similar, para los problemas de LeetCode, se puede generar retroalimentación utilizando un compilador basado en casos de prueba predefinidos.
Recompensa de formato: una recompensa de formato también se utiliza para obligar al modelo a colocar su proceso de pensamiento entre el “ " y " " etiquetas.

Durante el desarrollo de DeepSeek-R1-Zero, el autor no utilizó el Modelo de Recompensa Neuronal de Resultado ni el Modelo de Recompensa Neuronal de Proceso porque descubrió que el Modelo de Recompensa Neuronal puede encontrar suplantación de recompensa (Hacking de Recompensa) en procesos de RL a gran escala; además, volver a entrenar el Modelo de Recompensa no solo requiere recursos de entrenamiento adicionales, sino que también complica todo el proceso de entrenamiento.

3.2.3 Plantilla de capacitación

Para entrenar a DeepSeek-R1-Zero, los autores primero diseñaron una plantilla simple para guiar al modelo base a seguir las instrucciones establecidas. Como se muestra en la Tabla 1 a continuación, la plantilla requiere que DeepSeek-R1-Zero genere un proceso de inferencia y luego brinde la respuesta final.

El autor limitó deliberadamente las restricciones de este marco estructural para evitar introducir cualquier sesgo de contenido (por ejemplo, forzar el razonamiento reflexivo o promover estrategias específicas de resolución de problemas) para garantizar que la evolución natural del modelo pueda observarse con precisión durante el proceso de aprendizaje directo.

3.2.4 Conclusión

Capacidades de razonamiento robustas sin datos de SFT: al iniciar el RL directamente desde el modelo base, la trayectoria de evolución del modelo se puede monitorear de cerca sin interferencia de SFT. Como se muestra en la Figura 3 a continuación, el tiempo de pensamiento de DeepSeek-R1-Zero continuó mejorando (la longitud de crecimiento se hizo gradualmente más larga) durante todo el proceso de entrenamiento. Esta mejora no provino de ajustes externos, sino que fue un resultado natural del desarrollo interno del modelo. DeepSeek-R1-Zero adquirió naturalmente la capacidad de resolver tareas de inferencia cada vez más complejas, como la capacidad de reflexionar, mediante el uso de cálculos de tiempo de prueba extendido.

DeepSeek-R1-Zero experimentó un momento revelador durante el entrenamiento. Como se muestra en la Tabla 3 a continuación, este momento ocurrió durante la etapa de versión intermedia del modelo. Durante esta etapa, DeepSeek-R1-Zero aprendió a dedicar más tiempo a pensar en los problemas al reevaluar su enfoque inicial.

Votación por mayoría: el rendimiento de DeepSeek-R1-Zero se puede mejorar aún más aplicando la votación por mayoría. Por ejemplo, como se muestra en la Tabla 2 a continuación, después de utilizar la votación por mayoría en la prueba comparativa AIME, su rendimiento aumenta de 71,0% a 86,7%, superando a OpenAI-o1-0912.

Debilidades: Si bien DeepSeek-R1-Zero demuestra fuertes capacidades de razonamiento y desarrolla de manera autónoma comportamientos de razonamiento inesperados y poderosos, aún enfrenta desafíos como poca legibilidad y mezcla de idiomas.

3.3 DeepSeek-R1

Para que el proceso de razonamiento sea más legible y compartirlo con la comunidad abierta, los autores exploran más a fondo el método DeepSeek-R1, que utiliza datos de arranque en frío fáciles de entender para el aprendizaje automático. Inspirados por DeepSeek-R1-Zero, surgen dos preguntas naturales:

¿Se puede mejorar aún más el rendimiento del razonamiento o acelerar el proceso de convergencia introduciendo una pequeña cantidad de datos de alta calidad como inicio en frío?
¿Cómo podemos entrenar un modelo fácil de usar que no sólo genere CoT claros y coherentes, sino que también demuestre fuertes capacidades de generalización?

En respuesta a estas preguntas, diseñamos un proceso de capacitación para DeepSeek-R1. El proceso consta de varias etapas, como se describe a continuación:

La etapa 1, como se muestra en la figura siguiente, entrena el estado intermedio de DeepSeek-R1 a través de SFT + RL:

La siguiente figura muestra las etapas 2, 3 y 4:

Etapa 2: arriba a la izquierda, construya 200 000 datos sin razonamiento y 600 000 datos con razonamiento.
Etapa 3: arriba a la derecha, tren SFT + RL DeepSeek-R1.
Etapa 4: figura inferior, Distill DeepSeek-R1-Distill-xx.

3.3.1 Arranque en frío (Etapa 1)

A diferencia de DeepSeek-R1-Zero, para evitar la fase inestable de inicio en frío del modelo base al comienzo del entrenamiento de RL, los autores crearon y recopilaron una pequeña cantidad de datos de Long CoT para DeepSeek-R1 para ajustar el modelo como actor de RL inicial. Para recopilar estos datos, los autores exploraron varios métodos:

Uso de indicaciones de pocos disparos con ejemplos de Long CoT
Incitar directamente al modelo a generar respuestas detalladas con reflexión y verificación
Recopilación de la salida DeepSeek-R1-Zero en un formato legible para humanos
Refinando los resultados mediante posprocesamiento con etiquetado manual

Los autores recopilaron un total de miles de datos de inicio en frío, que se utilizaron para ajustar DeepSeek-V3-Base como punto de partida para RL. En comparación con DeepSeek-R1-Zero, las ventajas de los datos de inicio en frío incluyen:

Legibilidad: DeepSeek-R1-Zero Las respuestas pueden estar mezcladas en varios idiomas o carecer del formato Markdown utilizado para resaltar las respuestas del usuario. Por el contrario, al crear datos de inicio en frío para DeepSeek-R1, el autor diseñó un formato legible que incluye un resumen al final de cada respuesta y filtra las respuestas ilegibles. Aquí, el formato de salida se define como |special_token| |token especial|
, donde reasoning_process es el pensamiento encadenado de la consulta y summary se utiliza para resumir los resultados del razonamiento.
Potencial: Al diseñar cuidadosamente una combinación de patrones de datos de inicio en frío a priori humanos, los autores observaron que su rendimiento es superior al de DeepSeek-R1-Zero.

3.3.2 Aprendizaje basado en el razonamiento (etapa 1)

Después de ajustar DeepSeek-V3-Base con datos de inicio en frío, se utiliza el mismo proceso de entrenamiento RL a gran escala que DeepSeek-R1-Zero. Esta etapa tiene como objetivo mejorar la capacidad del modelo en tareas de razonamiento intensivo, especialmente en problemas de programación, matemáticas, ciencias y razonamiento lógico con soluciones claras.

Durante el entrenamiento, los autores observaron que CoT a menudo sufría de mezcla de idiomas, especialmente cuando el estímulo de RL involucraba varios idiomas. Para aliviar el problema de la mezcla de idiomas, los autores introdujeron una recompensa de consistencia del idioma en el entrenamiento de RL, que se calcula en función de la proporción de palabras en el idioma de destino en CoT. Aunque los experimentos de ablación muestran que este método de alineación conduce a una ligera disminución en el rendimiento del modelo, este mecanismo de recompensa es consistente con las preferencias humanas y mejora la legibilidad. Finalmente, los autores agregan directamente la precisión de la tarea de razonamiento a la recompensa de consistencia del idioma para formar la recompensa final, e implementan el entrenamiento de RL en el modelo ajustado hasta que converge en la tarea de razonamiento.

3.3.3 Construcción de 800.000 datos seleccionados (Etapa 2)

Mientras converge el RL para el razonamiento, los datos del SFT se recopilan utilizando el punto de control resultante para la siguiente ronda de entrenamiento. A diferencia de los datos iniciales de Cold Start, que se centran principalmente en el razonamiento, esta etapa incorpora datos de otros dominios para mejorar la capacidad del modelo en la escritura, la interpretación de roles y otras tareas de propósito general. En concreto, los datos se generan y el modelo se ajusta de la siguiente manera:

Datos de razonamiento: se seleccionan las indicaciones de razonamiento y se generan trayectorias de razonamiento realizando un muestreo de rechazo del punto de control entrenado en RL mencionado anteriormente (DeepSeek-R1 Etapa 1). En la etapa anterior, solo se incluyeron datos que podían evaluarse utilizando recompensas basadas en reglas. Sin embargo, en esta etapa, el conjunto de datos se amplió al incluir más datos, algunos de los cuales se generaron utilizando un modelo de recompensa, y las respuestas reales se juzgaron al introducir las predicciones del modelo en DeepSeek-V3 (DeepSeek V3 como juez). Además, debido a que la salida del modelo a veces es confusa y difícil de leer, se filtraron las cadenas de pensamiento en lenguaje mixto, los párrafos largos y los bloques de código. Para cada indicación, se muestrearon múltiples respuestas y solo se conservaron las correctas (Best-of-N). En total, se recopilaron alrededor de 600.000 muestras de entrenamiento relacionadas con el razonamiento.
Datos que no son de razonamiento: como escritura, preguntas factoides, autoconciencia y traducción, se utilizó el proceso DeepSeek-V3 y se reutilizaron algunos de los conjuntos de datos SFT de DeepSeek-V3. Para algunas tareas que no son de razonamiento, se llama a DeepSeek-V3 para generar posibles CoT antes de responder la pregunta. Sin embargo, para consultas simples como "Hola", no se proporciona ninguna cadena de pensamiento en la respuesta. Al final, se recopilaron un total de aproximadamente 200 000 muestras de entrenamiento que no son de razonamiento.

3.3.4 SFT y RL para todos los escenarios (Etapa 3)

Se realizaron dos rondas de ajuste fino de un total de aproximadamente 800.000 muestras seleccionadas en DeepSeek-V3-Base utilizando los dos conjuntos de datos mencionados anteriormente (Reasoning y no Reasoning).

Para alinear aún más el modelo con las preferencias humanas, los autores implementaron una segunda fase de RL, cuyo objetivo es mejorar la utilidad y la inocuidad del modelo y, al mismo tiempo, refinar sus capacidades de razonamiento. En concreto, el modelo se entrenó con una combinación de señales de recompensa y diversas distribuciones de indicaciones.

Para los datos de Razonamiento, se sigue la metodología descrita en DeepSeek-R1-Zero, utilizando un mecanismo de recompensa basado en reglas para guiar el aprendizaje del modelo en las áreas de matemáticas, programación y razonamiento lógico.
Para los datos generales, se utiliza el modelo Reward para capturar las preferencias humanas en situaciones complejas y sutiles. Se utiliza una estrategia similar de pares de preferencias y distribuciones de indicaciones de entrenamiento basadas en el proceso DeepSeek-V3.
En términos de utilidad, solo se considera el resumen final, garantizando que la evaluación se centre en la practicidad y relevancia de la Respuesta para el usuario y minimizando la interferencia con el proceso de razonamiento subyacente.
En cuanto a la inocuidad, se evalúa exhaustivamente toda la Respuesta del modelo, incluido el proceso de razonamiento y el resumen, para identificar y eliminar cualquier riesgo potencial, sesgo o contenido dañino que pueda surgir durante el proceso de generación.
En última instancia, al integrar señales de recompensa y diversificar la distribución de datos, se puede entrenar un modelo que priorice tanto el beneficio como la inocuidad y que, al mismo tiempo, se destaque en el razonamiento.

3.3.5 Destilación (Etapa 4)

Para dotar a un modelo pequeño más eficiente de la capacidad de razonamiento de DeepSeek-R1, los autores ajustaron directamente los modelos de código abierto Qwen y LLaMA utilizando las 800.000 muestras seleccionadas en DeepSeek-R1-Stage-1. Los resultados muestran que este método de destilación directa mejora significativamente la capacidad de razonamiento de los modelos pequeños. Los modelos básicos utilizados por los autores incluyen Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B y Llama-3.3-70B-Instruct. Se seleccionó Llama-3.3 porque su capacidad de razonamiento es ligeramente mejor que Llama-3.1.

Para el modelo de destilación, el autor solo utiliza SFT y no incluye la etapa RL. Si bien la introducción de RL puede mejorar en gran medida el rendimiento del modelo, el objetivo principal del autor aquí es demostrar la eficacia de la tecnología de destilación, y la exploración de la etapa RL se deja para investigaciones posteriores.

PD: Además, en realidad es posible utilizar el DeepSeek-R1 final para generar los datos anteriores y reconstruir los 800.000 datos utilizados para la destilación, y el modelo destilado puede tener un mejor efecto; sin embargo, el precio es que los datos deben reconstruirse.

Interpretación del documento DeepSeek R1 y puntos técnicos clave

1 Antecedentes