Últimas notícias! Pesquisador do DeepSeek revela online: O treinamento R1 levou apenas duas a três semanas, e uma evolução poderosa do R1 zero foi observada durante o feriado do Ano Novo Chinês
Agora mesmo, notamos que o pesquisador DeepSeek Daya Guo respondeu às perguntas dos internautas sobre o DeepSeek R1 e os planos da empresa para o futuro. Só podemos dizer que o DeepSeek R1 é apenas o começo, e a pesquisa interna ainda está avançando rapidamente. Os pesquisadores do DeepSeek nem mesmo fizeram uma pausa durante o feriado do Ano Novo Chinês, e eles têm trabalhado incansavelmente para avançar a pesquisa. O DeepSeek tem alguns grandes movimentos chegando
Aqui está a questão: em 1º de fevereiro, Daya Guo postou um tweet revelando o que mais o deixou animado durante o feriado do Ano Novo Chinês: testemunhar o “crescimento contínuo” da curva de desempenho do R1-Zero modelo, e sentindo o força poderosa de aprendizagem por reforço (LR)!
Pesquisador de IA da Deepseek Daya Guo fala com internautas
Agora vou ajudar você a reproduzir a conversa de Daya Guo com os internautas:
Internauta A @PseudoProphet: “Grande sujeito, eu quero perguntar quanto tempo essa melhoria contínua no desempenho vai durar. Isso ainda está nos estágios iniciais? Parece que o modelo RL do DeepSeek está apenas começando, como o GPT-2 em modelos de linguagem? Ou ele atingiu um estágio mais maduro, como o GPT-3.5, e está prestes a atingir um gargalo?”
Esta é uma pergunta muito afiada, que se relaciona diretamente com o potencial da tecnologia RL do DeepSeek! A resposta de Daya Guo também é muito honesta:
Daya Guo: “Acho que ainda estamos em um estágio muito inicial, e ainda há um longo caminho a percorrer no campo da RL. Mas acredito que veremos um progresso significativo este ano.”
Destaque os pontos principais! "Muito cedo", “um longo caminho para explorar”, “progresso significativo este ano”! Essas palavras-chave estão cheias de informações. Isso significa que o DeepSeek acredita que ainda tem muito espaço para melhorias no campo da RL, e os resultados atuais do R1 podem ser apenas a ponta do iceberg, então o futuro é promissor!
Logo depois, outro internauta @kaush_trip (Cheeku Tripathi) fez uma pergunta mais profissional que vai direto ao cerne das capacidades do modelo:
Usuário B @kaush_trip: “Com base no desempenho do R1-Zero, como você avalia se o modelo realmente tem capacidade de generalização, ou se é apenas memoriza transições de estado e recompensas?”
Essa pergunta é bem direta! Afinal, muitos modelos parecem muito poderosos, mas na realidade eles são apenas "aprendizado de rotina" dos dados de treinamento, e eles falharão em um ambiente diferente. O DeepSeek R1 realmente está à altura?
Daya Guo: “Usamos um benchmark para domínios não cobertos pelo prompt RL para avaliar a capacidade de generalização. No momento, parece ter capacidade de generalização.”
A frase “áreas não cobertas pelo prompt RL” é a chave! Isso significa que DeepSeek não está “trapaceando” a avaliação com dados de treinamento, mas é testado com novos cenários que o modelo nunca viu antes, o que pode realmente refletir o nível de generalização do modelo. O uso de Daya Guo da formulação rigorosa “parece ter” também o torna mais realista e confiável
Em seguida, um internauta com a ID @teortaxesTex, um grande fã do DeepSeek (seu comentário até incluiu as palavras “time de líderes de torcida de baleias DeepSeek”), começou com o relatório técnico do DeepSeek V3 e fez uma pergunta sobre tempo de treinamento do modelo:
Usuário C @teortaxesTex: “Se não for segredo: quanto tempo o treinamento RL levou dessa vez? Parece que você já tinha R1 ou pelo menos R1-Zero já em 10 de dezembro, porque o relatório técnico V3 menciona que o modelo V2.5 usou destilação de conhecimento R1, e a pontuação de V2.5-1210 é a mesma do modelo atual. Este é uma continuação desse treinamento?”
Este internauta tem poderes de observação incríveis! Ele conseguiu extrair tantos detalhes do relatório técnico. Daya Guo também explicou pacientemente o processo iterativo do modelo:
Daya Guo: “Os parâmetros R1-Zero e R1 do 660B só começaram a rodar após o lançamento do V3, e o treinamento levou cerca de 2-3 semanas. O modelo R1 que mencionamos antes (como no relatório técnico do V3) é, na verdade, R1-Lite ou R1-Lite-Zero.”
Então é isso! O R1-Zero e o R1 que vemos agora são “versões novas e atualizadas”, e as séries anteriores do R1-Lite são versões menores. Parece que o DeepSeek silenciosamente iterou e atualizou muitas versões nos bastidores
Em relação à velocidade do treinamento, os internautas @jiayi_pirate (Jiayi Pan) e o internauta B @kaush_trip retransmitiram um “interrogatório de alma”:
Usuário D @jiayi_pirate: “10.000 passos RL em 3 semanas, cada passo de propagação de gradiente (grpo) leva ~3 minutos 🤔”
Usuário B @kaush_trip: “Se cada etapa de propagação de gradiente (grpo) leva ~3 minutos, isso dá cerca de 5 etapas por hora, 120 etapas por dia, o que é realmente muito lento.”
Este é um cálculo realmente meticuloso! De acordo com o cálculo do internauta, a velocidade de treinamento do DeepSeek R1 não é realmente rápida. Isso também mostra que o custo de treinamento e o investimento de tempo de um modelo RL de alto desempenho são enormes. “Trabalho lento produz trabalho fino” parece ser uma maneira bastante apropriada de descrever o treinamento do modelo de IA
Por fim, um internauta chamado @davikrehalt (Andy Jiang) fez uma pergunta de uma perspectiva de aplicação mais avançada:
Usuário E @davikrehalt: “Você já tentou usar RL para fazer prova formal do ambiente, em vez de apenas responder perguntas? Seria ótimo se um modelo de código aberto pudesse ganhar uma medalha de ouro na IMO (International Mathematical Olympiad) este ano! (E mais esperanças!)”
Prova formal! Medalha de ouro na IMO! Este internauta é bem ambicioso! No entanto, aplicar IA ao campo hardcore da prova matemática é de fato a tendência futura. A resposta de Daya Guo é mais uma vez surpreendente:
Daya Guo: “Também estamos tentando aplicar R1 a ambientes de prova formal, como Lean. Esperamos lançar modelos melhores para a comunidade em breve.”
Pelas palavras de Daya Guo, parece que eles já fizeram progressos nessa área, e modelos ainda mais impressionantes podem ser lançados no futuro!
Para encerrar
Três sinais principais podem ser extraídos da resposta de Daya Guo:
Posicionamento técnico: o RL ainda está em estágio inicial e as melhorias de desempenho estão longe de atingir seus limites;
Lógica de verificação: capacidade de generalização para testes entre domínios, rejeitando “especulação de memória
Limites de aplicação: de modelos de linguagem a provas matemáticas, a RL está se movendo em direção ao raciocínio de alta ordem