¡Últimas noticias! Investigador de DeepSeek revela en línea:El entrenamiento R1 solo tomó de dos a tres semanas, y se observó una poderosa evolución del R1 cero durante las vacaciones del Año Nuevo Chino.
Justo ahora, nos dimos cuenta de que el investigador DeepSeek Día Guo Respondió a las preguntas de los internautas sobre DeepSeek R1 y los planes de la compañía para el futuro. Solo podemos decir que DeepSeek R1 es solo el comienzo y que la investigación interna sigue avanzando rápidamente. Los investigadores de DeepSeek ni siquiera se tomaron un descanso durante las vacaciones del Año Nuevo chino y han estado trabajando incansablemente para avanzar en la investigación. DeepSeek tiene algunos grandes movimientos por delante
La cuestión es la siguiente: el 1 de febrero, Daya Guo publicó un tuit en el que revelaba lo que más lo emocionó durante las vacaciones del Año Nuevo chino: presenciar el “crecimiento continuo” de la curva de rendimiento de la R1-Cero modelo, y sintiendo la poderosa fuerza de ¡Aprendizaje de refuerzo (RL)!
La investigadora de inteligencia artificial de Deepseek, Daya Guo, habla con los internautas
Ahora te ayudaré a reproducir la conversación de Daya Guo con los internautas:
Internauta A @PseudoProphet: “Señor, quisiera preguntar cuánto durará esta mejora continua en el rendimiento. ¿Está todavía en las primeras etapas? ¿Parece que el modelo RL de DeepSeek recién está comenzando, como GPT-2 en los modelos de lenguaje? ¿O ha alcanzado una etapa más madura como GPT-3.5 y está a punto de encontrarse con un cuello de botella?”
¡Es una pregunta muy aguda, que se relaciona directamente con el potencial de la tecnología RL de DeepSeek! La respuesta de Daya Guo también es muy honesta:
Daya Guo: “Creo que todavía estamos en una etapa muy temprana y que todavía queda mucho camino por recorrer en el campo del RL. Pero creo que veremos un progreso significativo este año”.
¡Resalta los puntos clave! “Muy temprano”, “Un largo camino por explorar”, “Un progreso significativo este año”¡Estas palabras clave están repletas de información, lo que significa que DeepSeek cree que aún tienen mucho margen de mejora en el campo del aprendizaje automático y que los resultados actuales de R1 pueden ser solo la punta del iceberg, por lo que el futuro es prometedor!
Inmediatamente después, otro internauta, @kaush_trip (Cheeku Tripathi), hizo una pregunta más profesional que va directo al corazón de las capacidades del modelo:
Usuario B @kaush_trip: “Basándose en el rendimiento de R1-Zero, ¿cómo se evalúa si el modelo realmente tiene capacidad de generalización, o si simplemente Memoriza las transiciones de estado y las recompensa.?”
¡Esta pregunta es muy pertinente! Después de todo, muchos modelos parecen muy potentes, pero en realidad solo están "aprendiendo de memoria" a partir de los datos de entrenamiento y fallarán en un entorno diferente. ¿DeepSeek R1 está realmente a la altura?
Daya Guo: “Utilizamos un parámetro de referencia para dominios no cubiertos por el estímulo RL para evaluar la capacidad de generalización. En la actualidad, parece tener capacidad de generalización”.
La frase “áreas no cubiertas por el mensaje de RL” es la clave. Esto significa que DeepSeek no está “engañando” la evaluación con datos de entrenamiento, sino que se prueba con nuevos escenarios que el modelo Nunca ha visto Antes, lo que puede reflejar verdaderamente el nivel de generalización del modelo. El uso que hace Daya Guo de la rigurosa expresión “parece tener” también lo hace más realista y creíble.
A continuación, un internauta con el ID @teortaxesTex, un gran fanático de DeepSeek (su comentario incluso incluyó las palabras "equipo de porristas de ballenas DeepSeek"), comenzó con el informe técnico de DeepSeek V3 e hizo una pregunta sobre tiempo de entrenamiento del modelo:
Usuario C @teortaxesTex: “Si no es un secreto: ¿cuánto tiempo te llevó el entrenamiento de RL esta vez? Parece que ya tenías R1 o al menos R1-Zero desde el 10 de diciembre, porque el informe técnico de V3 menciona que el modelo V2.5 usó la destilación de conocimiento R1, y la puntuación de V2.5-1210 es la misma que la del modelo actual. ¿Es esta una continuación de ese entrenamiento?”
¡Este internauta tiene un poder de observación asombroso! Pudo extraer muchísimos detalles del informe técnico. Daya Guo también explicó con paciencia el proceso iterativo del modelo:
Daya Guo: “Los parámetros R1-Zero y R1 del 660B recién comenzaron a funcionar después del lanzamiento de la versión V3, y el entrenamiento llevó alrededor de 2 o 3 semanas. El modelo R1 que mencionamos antes (como en el informe técnico de la versión V3) es en realidad R1-Lite o R1-Lite-Zero”.
¡Así que eso es todo! Los R1-Zero y R1 que vemos ahora son "versiones nuevas y mejoradas", y la serie R1-Lite anterior son versiones menores. Parece que DeepSeek ha iterado y mejorado silenciosamente muchas versiones detrás de escena.
Respecto a la velocidad de entrenamiento, los internautas @jiayi_pirate (Jiayi Pan) y el internauta B @kaush_trip han transmitido un “interrogatorio del alma”:
Usuario D @jiayi_pirate: “10 000 pasos de RL en 3 semanas, cada paso de propagación de gradiente (grpo) toma aproximadamente 3 minutos 🤔”
Usuario B @kaush_trip: "Si cada paso de propagación de gradiente (grpo) toma ~3 minutos, eso es alrededor de 5 pasos por hora, 120 pasos por día, lo que de hecho es muy lento".
¡Este es un cálculo realmente meticuloso! Según el cálculo del internauta, la velocidad de entrenamiento de DeepSeek R1 no es realmente rápida. Esto también demuestra que el costo de entrenamiento y la inversión de tiempo de un modelo de RL de tan alto rendimiento son enormes. "El trabajo lento produce un trabajo fino" parece ser una forma bastante apropiada de describir el entrenamiento del modelo de IA.
Finalmente, un internauta llamado @davikrehalt (Andy Jiang) hizo una pregunta desde una perspectiva de aplicación más vanguardista:
Usuario E @davikrehalt: “¿Has intentado usar RL para hacer prueba formal del medio ambiente, en lugar de simplemente responder preguntas? Sería fantástico si un modelo de código abierto pudiera ganar una medalla de oro en la OMI (Olimpiada Internacional de Matemáticas) este año (¡y más esperanzas!)”
¡Prueba formal! ¡Medalla de oro en mi opinión! ¡Este internauta es bastante ambicioso! Sin embargo, aplicar la IA al campo más duro de la prueba matemática es, de hecho, la tendencia futura. La respuesta de Daya Guo es una vez más sorprendente:
Daya Guo: “También estamos intentando aplicar R1 a entornos de pruebas formales como Lean. Esperamos lanzar pronto mejores modelos a la comunidad”.
Según las palabras de Daya Guo, parece que ya han avanzado en este ámbito, ¡y puede que en el futuro se lancen modelos aún más impresionantes!
Para cerrar
De la respuesta de Daya Guo se pueden extraer tres señales clave:
Posicionamiento técnico: RL aún está en sus primeras etapas y las mejoras de rendimiento están lejos de alcanzar sus límites;
Lógica de verificación: capacidad de generalización para pruebas entre dominios, rechazando la “especulación de memoria”
Límites de aplicación: desde modelos de lenguaje hasta pruebas matemáticas, el RL avanza hacia un razonamiento de orden superior