Hoy me gustaría compartir un artículo de DeepSeek, titulado DeepSeekMath: Superando los límites del razonamiento matemático en modelos de lenguaje abierto.
Este artículo presenta DeepSeekMath 7B, que está entrenado previamente en DeepSeek-Coder-Base-v1.5 7B basado en una colección de 120 mil millones de tokens relacionados con las matemáticas, lenguaje natural y datos de código.
El modelo logró una sorprendente puntuación de 51,7% en pruebas de MATH de nivel competitivo sin depender de herramientas externas ni técnicas de votación, acercándose al nivel de rendimiento de Gemini-Ultra y GPT-4.
La capacidad de razonamiento matemático de DeepSeekMath 7B se atribuye a dos factores clave: primero, a través de un Proceso de selección de datos cuidadosamente diseñadoSe extraen iterativamente datos de alta calidad relacionados con las matemáticas de datos web disponibles públicamente.
En segundo lugar, la optimización de la política relativa al grupo (GRPO) es Se introdujo una variante de optimización de política proximal (PPO) que puede mejorar la capacidad de razonamiento matemático al tiempo que optimiza el uso de la memoria de PPO.
- Las características del método se resumen a continuación:Un corpus de preentrenamiento matemático de alta calidad Se construyó y se utilizó una tubería cuidadosamente diseñada para extraer datos matemáticos de alta calidad de Common Crawl.
- El algoritmo GRPO Se propuso un modelo que reduce los recursos necesarios para el entrenamiento y mejora la capacidad de razonamiento matemático del modelo. 3) Rendimiento de última generación era logrado en múltiples pruebas comparativas de razonamiento matemático.
Descripción general
Título: DeepSeekMath: Ampliando los límites del razonamiento matemático en modelos de lenguaje abierto
URL: haga clic aquí
Autores: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y. Wu, Daya Guo
Código: haga clic aquí
Motivación
El razonamiento matemático plantea un desafío significativo a los modelos de lenguaje debido a la complejidad y la naturaleza estructurada de las matemáticas. Los modelos más avanzados, como GPT-4 y Gemini-Ultra, son potentes pero no están disponibles públicamente. Por lo tanto, existe un margen significativo para mejorar el rendimiento de los modelos de lenguaje. modelos de código abierto.
Complejidad y estructura: El razonamiento matemático plantea un desafío importante a los modelos de lenguaje debido a la complejidad y la naturaleza estructurada de las matemáticas.
Potencial de los datos públicos: Los datos web disponibles públicamente pueden contener información matemática valiosa que aún no ha sido extraída ni utilizada.
Métodos
Recopilación de datos: Se construyó un corpus DeepSeekMath de 120 mil millones de tokens mediante la recopilación de datos web de alta calidad relacionados con las matemáticas de Common Crawl a través de un proceso iterativo.
Entrenamiento modelo: El corpus se utilizó para el entrenamiento previo sobre DeepSeek-Coder-Base-v1.5 7B, y se aplicó el algoritmo de ajuste fino de instrucciones matemáticas y optimización de política relativa de grupo (GRPO).
Algoritmo GRPO: GRPO es un algoritmo de aprendizaje de refuerzo mejorado que elimina el modelo crítico en PPO y estima la línea de base a partir de la puntuación del grupo, reduciendo significativamente los recursos de entrenamiento.
Métodos y procedimientos detallados:
Recopilación y procesamiento de datos:

Construya el corpus matemático DeepSeekM: Usando un clasificador basado en fastText, Extraer 120B tokens relacionados con las matemáticas de Common Crawl para construir un corpus pre-entrenado, de gran escala y alta calidad, DeepSeekMath Corpus.
Filtrado iterativo de datos: Se utiliza una estrategia iterativa, Utilizar OpenWebMath como datos semilla para entrenar un clasificador inicial y luego utilizar este clasificador para extraer más ejemplos positivos. de Common Crawl, que se anotan manualmente para optimizar continuamente el rendimiento del clasificador.
Funciones multilingües: El corpus DeepSeekMath contiene datos multilingües, lo que mejora el rendimiento del modelo en los puntos de referencia matemáticos chinos.
Tratamiento de descontaminación: Delaware-El procesamiento de la contaminación se realiza en los datos de entrenamiento para evitar la superposición con el punto de referencia de prueba..
Preentrenamiento:
Inicialización del modelo basado en código: Inicialización utilizando el DeepSeek-Coder-Base-v1.5 7B Se encontró que el modelo era más efectivo que la inicialización desde un LLM general.
Composición de datos de preentrenamiento: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% código Github, 10% datos en lenguaje natural de Common Crawl.
Parámetros de preentrenamiento: Se utiliza el optimizador AdamW, con una tasa de aprendizaje de 4,2e-4, un tamaño de lote de 10 millones de tokens y un entrenamiento de 500 mil millones de tokens.
Ajuste fino de instrucciones:
Construya un conjunto de datos de ajuste fino de instrucciones: Construir un conjunto de datos de ajuste fino de instrucciones matemáticas que contenga 776K muestras, que cubre una variedad de campos matemáticos y niveles de dificultad, incluidos CoT, PoT y formatos de inferencia integrados en herramientas para resolver pasos.
Parámetros de entrenamiento: Tamaño de lote 256, tasa de aprendizaje 5e-5, entrenamiento de 500 pasos.
Aprendizaje por refuerzo: Optimización de políticas relativas a grupos (GRPO):
Proponer algoritmo GRPO: Proponer una Algoritmo de variante PPO GRPO, que evita la necesidad de un modelo crítico al utilizar puntuaciones grupales para estimar la línea de base, reduciendo así los recursos de entrenamiento..
Función objetivo: GRPO optimiza el modelo de política maximizando una función objetivo que Tiene en cuenta la ventaja relativa de los resultados del grupo interno y agrega directamente la divergencia KL como un término de regularización.
Cálculo de ventaja: GRPO calcula la ventaja a través de recompensas relativas al grupo interno, evitando comparaciones entre grupos y ajustándose mejor a la naturaleza comparativa del modelo de recompensa.
Admite tanto el seguimiento de resultados como del proceso: GRPO Puede respaldar tanto el seguimiento de los resultados como del proceso y supervisar de manera más eficaz la política. proporcionando recompensas al final de cada paso de inferencia.
RL iterativo: Utiliza un estrategia iterativa de RL generar un nuevo conjunto de entrenamiento basado en los resultados de muestreo del modelo de política, entrenar continuamente el antiguo modelo de recompensa y utilizar el nuevo modelo de recompensa para actualizar el modelo de política.
Datos de entrenamiento: Utiliza los problemas de formato CoT relacionados con GSM8K y MATH en los datos SFT, aproximadamente 144K problemas.
Parámetros de entrenamiento: La tasa de aprendizaje del modelo de política es 1e-6, el coeficiente KL es 0,04, se muestrean 64 salidas para cada problema, la longitud máxima es 1024 y el tamaño del lote de entrenamiento es 1024.
Conclusión

Conclusión 1:DeepSeekMath 7B supera a todos los modelos de código abierto en capacidad de razonamiento matemático. En la prueba comparativa competitiva MATH, DeepSeekMath 7B logró una precisión de 51,7%, que está cerca del nivel de rendimiento de Gemini-Ultra y GPT-4.
Conclusión 2:Los datos de preentrenamiento bien diseñados y los algoritmos GRPO son clave para el éxito del modelo. La combinación de un corpus matemático de alta calidad y algoritmos GRPO permite que el modelo logre importantes mejoras de rendimiento en tareas de razonamiento matemático.
Conclusión 3:El entrenamiento de código ayuda a mejorar la capacidad de razonamiento matemático. Agregar datos de código a la etapa de preentrenamiento puede mejorar la capacidad del modelo para resolver problemas matemáticos, tanto con herramientas como sin ellas.
Conclusión 4: Utilidad limitada de los datos de arXiv: Contrariamente a creencias anteriores, se descubrió que los datos de arXiv eran de ayuda limitada para mejorar el razonamiento matemático.
Limitación
Las capacidades geométricas y de prueba son relativamente débiles: Aunque DeepSeekMath se destaca en el razonamiento cuantitativo, sus capacidades en geometría y demostración aún son inferiores a las de los modelos de código cerrado. Esto puede deberse a la selección de datos sesgada en las etapas de preentrenamiento y ajuste.
Debilidad en la capacidad de muestra pequeña: DeepSeekMath es inferior a GPT-4 en términos de aprendizaje de muestras pequeñas, lo que puede deberse a la limitación del tamaño del modelo.
Se necesitan métodos de aprendizaje de refuerzo más eficientes: Aunque los métodos de aprendizaje de refuerzo propuestos en el artículo son eficaces, aún hay margen de mejora, por ejemplo, cómo hacer un uso más efectivo de la retroalimentación del modelo de recompensa y cómo lidiar con señales de recompensa ruidosas.
Detalles
Exploración y análisis del aprendizaje por refuerzo
Descripción general:
Introducción de la optimización de políticas relativas a grupos (GRPO): El artículo propone un nuevo algoritmo de aprendizaje por refuerzo, GRPO, como una variante de la Optimización de Políticas Proximales (PPO). La característica principal de GRPO es que abandona el modelo crítico comúnmente utilizado en PPO y estima la línea de base a través de puntajes grupales, reduciendo así en gran medida los recursos computacionales necesarios para el entrenamiento.
Demostración de la eficacia del GRPO: El artículo demuestra experimentalmente que GRPO puede Mejorar eficazmente el rendimiento de los modelos de ajuste fino de comandos, incluidas las tareas matemáticas tanto dentro como fuera del dominio..
Marco unificado para métodos de aprendizaje por refuerzo: El artículo propone un marco unificado para comprender diferentes métodos de aprendizaje de refuerzo, como Ajuste fino del muestreo de rechazo (RFT), optimización de preferencia directa (DPO), PPO y GRPOEl marco trata estos métodos como técnicas de aprendizaje de refuerzo directo o simplificado.
Exploración en profundidad de los elementos del aprendizaje por refuerzo: El artículo explora en profundidad Elementos clave del aprendizaje por refuerzo, como el entrenamiento en línea y fuera de línea, la supervisión de resultados y la supervisión de procesos, el aprendizaje por refuerzo de una sola ronda y el aprendizaje por refuerzo iterativo., a través de experimentos detallados, y resume las posibles direcciones para mejorar la eficacia del aprendizaje de refuerzo.
Algoritmo GRPO (Optimización de políticas relativas a grupos)

Limitaciones de PPO: PPO es un algoritmo de aprendizaje de refuerzo de uso común, pero requiere entrenamiento. Modelo crítico adicional para estimar la función de valor, que impone una carga computacional y de memoria adicionalAdemás, en el escenario LLM, La formación del modelo crítico puede ser complicada porque requiere evaluar la salida de cada token.
Idea central del GRPO: La idea central de GRPO es Abandonar el modelo crítico y, en su lugar, utilizar como línea de base la puntuación media de un conjunto de resultados para el mismo problema. Esta línea de base se puede utilizar para estimar la función de ventaja y para la optimización de políticas.Este enfoque reduce significativamente la complejidad del entrenamiento.
Cálculo de la función de ventaja: GRPO calcula la función de ventaja mediante Calcular la clasificación relativa de cada salida en el mismo conjunto de salidas, en lugar de confiar en una función de valor separada como en PPO.
Penalización por divergencia de KL: GRPO No agrega una penalización por divergencia de KL a la recompensa como PPO, sino que agrega la divergencia de KL entre el modelo de política y el modelo de referencia directamente a la función de pérdida. Esto evita el cálculo complejo de la función de ventaja..
La idea central de GRPO
no requiere una crítica (función de valor): GRPO evita la necesidad de una función de valor y utiliza la puntuación dentro del grupo para estimar la línea de base, reduciendo así los recursos de formación.
Ventaja relativa intragrupo: Para cada problema q, GRPO toma una muestra de un conjunto de resultados {o(1), o(2), …, o(G)} de la política anterior π(θold) y luego optimiza el modelo de política maximizando la siguiente ecuación como función objetivo.

Específicamente:

La clave aquí es (i,t), que representa la ventaja y se calcula mediante la recompensa relativa del resultado intragrupo, en lugar de depender de una función de valor separada como en PPO.

La función objetivo también suma directamente Divergencia KL como término de regularización para controlar la magnitud de actualizaciones de políticas

y alinearse con la naturaleza comparativa del modelo de recompensa: GRPO utiliza la recompensa intragrupo relativa para calcular la ventaja, lo que es más consistente con la naturaleza del modelo de recompensa, que generalmente se entrena en base a una comparación por pares.
¿Cómo se puede diseñar el modelo de recompensa de GRPO (consulte DeepSeek R1)?
Características:
formato recompensa: obliga a la generación de largo cuna resultados, que pueden impulsar al modelo a generar procesos de inferencia y mejorar el efecto de inferencia del modelo.
Recompensa por precisión: Las matemáticas pueden utilizar el resultado final y el código puede utilizar la retroalimentación del compilador.
Ventajas del GRPO
Menor consumo de memoria: No se requiere modelo crítico, lo que reduce los requisitos de memoria.
Entrenamiento más eficiente: El cálculo que utiliza la ventaja relativa intragrupo simplifica el proceso de entrenamiento.
Más compatible con la naturaleza de los modelos de recompensa: Mejora la estabilidad y la eficiencia del entrenamiento.
Resumen del paradigma unificado de RL
Propuesta de paradigma unificado
Los autores proponen un paradigma unificado para comprender diferentes métodos de entrenamiento como SFT (Supervised Fine-tuning), RFT (Rejection Sampling Fine-tuning), DPO (Direct Preference Optimization), PPO, GRPO, etc. Elementos clave de RL: Los elementos clave del marco unificado incluyen: fuentes de datos, funciones de recompensa y algoritmos.
- Fuente de datos: Esto se refiere a los datos utilizados para el entrenamiento, que pueden derivarse del etiquetado manual, modelos SFT o modelos de políticas en tiempo real.
- Función de recompensa: Se refiere a la función utilizada para evaluar la calidad de la salida, que puede ser una regla o un modelo.
- Algoritmo: Esto se refiere al método utilizado para procesar los datos y la señal de recompensa y actualizar los parámetros del modelo.
Análisis de diferentes métodos basados en un paradigma unificado
La Tabla 10 resume las similitudes y diferencias entre SFT, RFT, DPO, RFT en línea, PPO y GRPO en términos de fuentes de datos, funciones de recompensa y coeficientes de gradiente.
Método | Datos de entrenamiento | Función de recompensa | Coeficiente de gradiente | Método de entrenamiento | Ventajas/caracteristicas | Escenarios aplicables |
SFTP | Datos SFT etiquetados manualmente | Seleccionado manualmente (recompensa implícita) | Fijo a 1 | Aprendizaje supervisado | Sencillo y estable, dependiente de datos etiquetados de alta calidad | Entrenamiento básico del modelo, tarea de alineación inicial |
Solicitud de presupuesto | Problema del conjunto de datos SFT + Ejemplo de salida del modelo SFT | Basado en la exactitud de la respuesta (juicio de reglas) | 0 (incorrecto) o 1 (correcto) | Optimización de políticas sin conexión | Cálculo eficiente, uso directo de la retroalimentación de reglas | Tareas matemáticas/lógicas con reglas claras |
DPO | Problema del conjunto de datos SFT + salida del modelo a | Etiquetado de preferencias humanas o comparación de reglas | Basado en el cálculo de probabilidad de preferencia (por ejemplo, modelo Bradley-Terry) | Aprendizaje comparativo | Evita el modelado explícito de recompensas, optimizando directamente las preferencias | Tareas de alineación de preferencias humanas (por ejemplo, generación de diálogos) |
RFT en línea | Muestreo de modelos de políticas en tiempo real pares problema-salida | Basado en la exactitud de la respuesta (juicio de reglas) | 0 (incorrecto) o 1 (correcto) | Optimización de políticas en línea | Actualiza dinámicamente las políticas con optimización de retroalimentación en tiempo real | Escenarios que requieren interacción en línea (por ejemplo, IA de juegos) |
PPO | Problema del conjunto de datos SFT + Salida del muestreo del modelo de política | Modelo de recompensa (RM) entrenado | Función de dominancia (basada en la estimación de recompensa) | Método de gradiente de política | Eficiente y estable, admite optimización de múltiples pasos. | Tareas complejas (por ejemplo, generación de texto, control de robots) |
GRPO | Problema del conjunto de datos SFT + salida de muestreo del modelo de política | Modelo de recompensa (RM) entrenado | Recompensa relativa intragrupo (comparación normalizada) | Optimización de políticas de grupo | Reducir la variación de recompensas y mejorar la comparación intragrupo | Tareas con alta variabilidad (por ejemplo, generación de texto largo) |
Observaciones sobre las fuentes de datos

Capacitación online vs. capacitación presencial: El entrenamiento en línea se refiere al uso de la salida del modelo de política en tiempo real como datos de entrenamiento, mientras que el entrenamiento fuera de línea se refiere al uso de la salida de un modelo fijo (como el modelo SFT) como datos de entrenamiento. Los resultados experimentales muestran que La formación en línea suele ser mejor que la formación presencial..
Supervisión de resultados vs supervisión de procesos: La supervisión de resultados se refiere a recompensar únicamente el paso final del resultado, mientras que la supervisión de procesos se refiere a recompensar cada paso del proceso de razonamiento. Los resultados experimentales muestran que La supervisión de procesos es más eficaz en tareas complejas.
Aprendizaje de refuerzo iterativo frente a aprendizaje de un solo episodio: El aprendizaje de refuerzo de un solo episodio se refiere a la optimización de una sola estrategia, mientras que el aprendizaje de refuerzo iterativo se refiere a la actualización continua del modelo de recompensa después de múltiples optimizaciones de estrategias. Los resultados experimentales muestran que El aprendizaje de refuerzo iterativo puede mejorar significativamente el rendimiento, especialmente en la primera iteración..
Observación de coeficientes de gradiente
Basado en reglas versus basado en modelos: La regla se refiere a determinar la recompensa en función de la exactitud de la respuesta, y el modelo se refiere a entrenar un modelo de recompensa para obtener una puntuación.
Diferencia en los coeficientes de gradiente: La diferencia clave entre GRPO y El RFT en línea implica que GRPO ajusta sus coeficientes de gradiente en función de los valores de recompensa proporcionados por el modelo de recompensa, mientras que el RFT en línea no lo hace.
Ventajas del GRPO: Los experimentos muestran que GRPO es superior a RFT en línea, lo que demuestra la eficacia de cambiar el signo de los coeficientes de gradiente. GRPO+PS es superior a GRPO+OS, lo que demuestra los beneficios de utilizar coeficientes de gradiente de grano fino y con reconocimiento de pasos.
Eficacia del RL y direcciones para mejorar
¿Por qué es efectivo el RL?

Resultados experimentales: RL mejora el rendimiento de Maj@K pero no de Pass@K.
Explicación: RL mejora el rendimiento general del modelo al hacer que la distribución de salida sea más robusta, es decir, mejora la probabilidad de respuestas correctas en TopK, en lugar de mejorar la capacidad subyacente del modelo.
¿Cómo se puede lograr un aprendizaje más efectivo?
Basándose en el paradigma unificado, los autores proponen direcciones futuras para mejorar el aprendizaje automático en tres aspectos: fuentes de datos, algoritmos y funciones de recompensa.
- Fuentes de datos:
- Explorar cuestiones más allá de la etapa SFT.
- Utilice estrategias de muestreo (decodificación) más avanzadas, como métodos basados en búsqueda de árboles.
- Utilice técnicas de inferencia eficientes para mejorar la eficiencia de exploración del modelo de políticas.
- Algoritmo:
- Explore algoritmos de aprendizaje de refuerzo que sean más robustos a las señales de recompensa ruidosas.
- Estudie los métodos de alineación de tipo DÉBIL-A-FUERTE.
- Función de recompensa:
- Mejorar la capacidad de generalización del modelo de recompensa para manejar problemas fuera de distribución y salidas decodificadas avanzadas.
- Reflejar la incertidumbre del modelo de recompensa y usarlo como puente para conectar los modelos de recompensa débiles y los algoritmos de aprendizaje DÉBIL A FUERTE.
- Construya de manera eficiente modelos de recompensa de procesos de alta calidad para proporcionar señales de entrenamiento detalladas para el proceso de inferencia.
Resumen
DeepSeekMath ha mejorado significativamente la capacidad de los modelos de lenguaje de código abierto en el razonamiento matemático mediante la construcción de un corpus matemático a gran escala y la propuesta de un nuevo algoritmo de aprendizaje por refuerzo. Los aspectos más destacados de este artículo son:
- la construcción y validación del Corpus DeepSeekMath, un corpus matemático multilingüe, de gran escala y alta calidad.
- Se propone un algoritmo de aprendizaje de refuerzo eficiente, GRPO, para reducir el uso de memoria y al mismo tiempo mejorar la capacidad de razonamiento matemático del modelo.
- Se analiza en profundidad el impacto del entrenamiento de código en la capacidad de razonamiento matemático y se descubre que los datos de arXiv tienen un efecto limitado. El valor de DeepSeekMath:
- Proporciona a la comunidad de código abierto un poderoso modelo de razonamiento matemático y promueve el desarrollo de IA matemática.
- Proporciona experiencia y métodos valiosos para construir corpus matemáticos y entrenar modelos de razonamiento matemático.
- El algoritmo GRPO propuesto aporta nuevas ideas para el entrenamiento del aprendizaje de refuerzo en otros campos.