Resumen
Este artículo presenta la primera generación de modelos de razonamiento de DeepSeek: DeepSeek-R1-Zero y DeepSeek-R1. DeepSeek-R1-Zero, entrenado mediante aprendizaje por refuerzo (RL) a gran escala sin ajuste fino supervisado (SFT), demuestra una notable capacidad de razonamiento. Gracias al RL, desarrolla de forma natural potentes comportamientos de razonamiento. Sin embargo, se enfrenta a problemas como la mala legibilidad y la mezcla de lenguajes. Para resolver estos problemas y mejorar el rendimiento del razonamiento, se desarrolló DeepSeek-R1, que incorpora entrenamiento en varias fases y datos de arranque en frío antes de la RL. DeepSeek-R1 consigue un rendimiento comparable al de OpenAI-o1-1217 en tareas de razonamiento. Para apoyar la investigación, DeepSeek abre ambos modelos y seis modelos densos (1.5B, 7B, 8B, 14B, 32B, 70B) destilados de DeepSeek-R1 basados en Qwen y Llama.
Principales contribuciones
Formación posterior: Aprendizaje por refuerzo a gran escala
- Aplicada con éxito la RL directamente al modelo base sin SFT
- Desarrollo de DeepSeek-R1-Zero, demostrando capacidades como la autoverificación y la reflexión.
- Primera investigación abierta que valida que las capacidades de razonamiento pueden incentivarse exclusivamente a través de la RL.
- Canalización introducida para DeepSeek-R1 con dos etapas RL y dos etapas SFT
Destilación: Potenciar los modelos más pequeños
- Demostrado que los patrones de razonamiento de modelos más grandes pueden destilarse eficazmente en modelos más pequeños.
- Open-sourced DeepSeek-R1 y su API en beneficio de la comunidad investigadora
- Puesta a punto de varios modelos densos que muestran un rendimiento excepcional en las pruebas comparativas.
- Los modelos destilados superan con creces a los anteriores modelos de código abierto
Resultados de la evaluación
Tareas de razonamiento
- DeepSeek-R1 logra 79,8% Pass@1 en AIME 2024, superando a OpenAI-o1-1217
- Puntuación de 97,3% en MATH-500, al mismo nivel que OpenAI-o1-1217
- Rendimiento de nivel experto en tareas de competición de código con 2.029 puntos Elo en Codeforces.
Tareas de conocimiento
- Excelentes resultados en MMLU (90,8%), MMLU-Pro (84,0%) y GPQA Diamond (71,5%).
- Supera a otros modelos de código cerrado en tareas educativas
- Buen rendimiento en pruebas comparativas como SimpleQA
Capacidades generales
- Destaca en redacción creativa, respuesta a preguntas, edición y resumen.
- 87,6% de porcentaje de victorias en AlpacaEval 2.0 y 92,3% en ArenaHard
- Buen rendimiento en tareas de comprensión de contextos largos
Trabajos futuros
El equipo tiene previsto centrarse en:
- Mejora de las capacidades generales en ámbitos como la llamada a funciones y la interpretación de papeles complejos.
- Cuestiones relacionadas con la mezcla de lenguas
- Mejora de la ingeniería de avisos
- Mejorar el rendimiento en tareas de ingeniería de software
Conclusión
DeepSeek-R1 representa un avance significativo en las capacidades de razonamiento de la IA a través del aprendizaje por refuerzo. El éxito tanto del modelo principal como de sus versiones destiladas demuestra el potencial de este enfoque para desarrollar sistemas de IA más capaces. La publicación de estos modelos en código abierto contribuirá a la investigación y el desarrollo en este campo.