¡El modelo de inferencia 32B utiliza sólo 1/8 de los datos y está empatado con DeepSeek-R1 del mismo tamaño!
En este momento, instituciones como Stanford, UC Berkeley y la Universidad de Washington han publicado conjuntamente un modelo de inferencia de nivel SOTA, Pensador abierto-32By también hemos publicado en código abierto hasta 114 000 datos de entrenamiento.

Página de inicio del proyecto OpenThinker:
OpenThinker Abrazando la cara:
Conjunto de datos de pensamientos abiertos:
Descubrimiento en equipo: utilizando un conjunto de datos de alta calidad a gran escala con anotaciones verificadas DeepSeek-R1 (basadas en la destilación R1), se puede entrenar un modelo de inferencia SOTA.
El método específico es escalar los datos, verificar el proceso de inferencia y escalar el modelo.
El OpenThinker-32B resultante superó a los modelos s1 y s1.1 de Li Fei-Fei en múltiples pruebas comparativas en matemáticas, codificación y ciencias, y estuvo cerca de R1-Distill-32B.
Vale la pena mencionar que, en comparación con R1-Distill-32B, que utilizó 800 000 datos (incluidas 600 000 muestras de inferencia), OpenThinker-32B solo utilizó 114 000 datos para lograr casi los mismos resultados excelentes.

Además, OpenThinker-32 también hizo públicos todos los pesos del modelo, conjuntos de datos, código de generación de datos y código de entrenamiento.

Curación de datos
Los investigadores entrenaron OpenThinker-32B utilizando el mismo conjunto de datos OpenThoughts-114k con el que habían entrenado previamente OpenThinker-7B.
Utilizaron el modelo DeepSeek-R1 para recopilar los procesos de razonamiento y los intentos de respuesta para un conjunto cuidadosamente seleccionado de 173.000 preguntas. Estos datos sin procesar se publicaron luego como el conjunto de datos OpenThoughts-Unverified-173k.
El paso final del proceso es filtrar las muestras de datos correspondientes si el proceso de razonamiento no pasa la verificación.
La siguiente figura muestra visualmente todo el proceso.
El equipo de investigación primero ingresa datos fuente o indicaciones de preguntas, que pueden provenir de diferentes campos y plataformas, como BAAI/TACO, DeepMind, presentaciones en Python, etc., y cubren varios aspectos como código, rompecabezas, ciencia y matemáticas.
Estos datos se envían al módulo de procesamiento central, DeepSeek-R1, donde se analizan y procesan. Las preguntas se dividen en tres categorías: preguntas científicas, matemáticas y acertijos, y código.
Algunos resultados no requieren verificación y pueden ser análisis simples o resultados directos. Para algunos contenidos que requieren una verificación en profundidad, se utiliza un modelo de lenguaje grande (LLM) para evaluarlos de una manera comparable a GT (Ground Truth). Si se trata de código, se ejecuta el código y se realizan pruebas unitarias para garantizar su corrección y eficacia.
Finalmente, los resultados de diferentes direcciones pueden combinarse para generar un pensamiento abierto y soluciones más integrales.

El equipo de investigación ha actualizado el conjunto de datos final OpenThoughts-114k con una configuración denominada “metadatos” que contiene algunas columnas adicionales utilizadas para construir el conjunto de datos:
- problema
- Solución de la verdad fundamental
- casos de prueba (solo código)
- starter_code (solo código)
- DeepSeek_razonamiento
- Solución DeepSeek
- dominio
- fuente
Estos metadatos adicionales facilitarán el uso de este conjunto de datos en nuevos escenarios, como filtrado de datos, cambio de dominio, comprobaciones de verificación y cambio de la plantilla del proceso de inferencia.
Estos metadatos adicionales facilitarán el uso de este conjunto de datos, y se puede hacer con solo una línea de código, como filtrar, cambiar el dominio, verificar la verificación y cambiar la plantilla de seguimiento de inferencia.
load_dataset("pensamientos-abiertos/Pensamientos-abiertos-114k", "metadatos", split="tren")
El equipo de investigación dice que espera ver cómo la comunidad aprovecha estas preguntas y respuestas estándar para la investigación sobre aprendizaje por refuerzo (RL) en el modelo OpenThinker. DeepScaleR ya ha demostrado que este enfoque funciona particularmente bien en escalas más pequeñas.
Verificación
Para llegar al conjunto de datos final OpenThoughts-114k, el equipo de investigación verificó las respuestas y eliminó las respuestas incorrectas.
Como se muestra en la siguiente tabla, retener inferencias que no pasan la verificación puede perjudicar el rendimiento, aunque el modelo no verificado aún funciona bien en comparación con los otros modelos de inferencia 32B.
La función de la verificación es mantener la calidad de las anotaciones R1 y, al mismo tiempo, ampliar la diversidad y el tamaño del conjunto de indicaciones de entrenamiento. Por otro lado, los datos no verificados se pueden ampliar con mayor facilidad y, por lo tanto, también vale la pena explorarlos más a fondo.

Para los problemas de código, completamos la verificación del proceso de inferencia verificando los intentos de respuesta frente a los casos de prueba existentes.
Inspirados por los desafíos que se enfrentan durante la ejecución de código, implementamos un marco de ejecución de código en Curator que permite a los usuarios ejecutar código a escala, de forma segura y verificarlo con el resultado esperado.
Para los problemas matemáticos, el equipo de investigación utilizó un juez LLM (Large Language Model) para la verificación, que recibe tanto la respuesta estándar como el intento de solución DeepSeek-R1.
Se descubrió que el uso del evaluador LLM para la generación de datos en lugar del motor de análisis más estricto (Math-Verify) resultó en una tasa de datos efectiva más alta y permitió el entrenamiento de modelos posteriores con mejor rendimiento.

Capacitación
El equipo de investigación utilizó LLaMa-Factory para ajustar Qwen2.5-32B-Instruct tres veces en el conjunto de datos OpenThoughts-114k con una longitud de contexto de 16k. La configuración de entrenamiento completa se puede encontrar en GitHub.
OpenThinker-32B se entrenó durante 90 horas utilizando cuatro nodos 8xH100 P5 en un clúster AWS SageMaker, para un total de 2880 horas H100.
Mientras tanto, OpenThinker-32B-Unverified se entrenó durante 30 horas en la supercomputadora Leonardo utilizando 96 nodos 4xA100 (64 GB por GPU), acumulando 11.520 horas A100.
Evaluación
El equipo de investigación utilizó la biblioteca de evaluación de código abierto Evalchemy para evaluar todos los modelos.
Para AIME24 y AIME25, calcularon la precisión promediando los resultados de cinco ejecuciones. La configuración de evaluación utilizó un parámetro de temperatura de 0,7, limitó la respuesta del modelo a 32 768 tokens, no agregó ninguna palabra adicional de aviso del sistema o del usuario y no utilizó ninguna estrategia de decodificación especial (como la imposición de presupuesto).
Cuando se lanzó el proyecto OpenThoughts, se establecieron como objetivo crear un modelo de datos abiertos con un rendimiento que pudiera igualar al DeepSeek-R1-Distill-Qwen-32B.
Ahora esa brecha prácticamente ha sido eliminada.
Por último, el equipo de investigación está entusiasmado por el rápido progreso que la comunidad ha logrado en la construcción de modelos de inferencia de datos abiertos durante las últimas semanas, y espera seguir avanzando basándose en los conocimientos de los demás.
El lanzamiento de código abierto de OpenThinker-32B demuestra que las sinergias entre los datos, la validación y el tamaño del modelo son clave para mejorar las capacidades de inferencia.
Este resultado no solo promueve el desarrollo de modelos de inferencia de código abierto, sino que también proporciona recursos valiosos e inspiración para toda la comunidad de IA.