Hoje vamos compartilhar DeepSeek R1, Título: DeepSeek-R1: Incentivar a capacidade de raciocínio em LLMs por meio de aprendizagem por reforço: Incentivar a capacidade de raciocínio de LLMs por meio de aprendizagem por reforço.

Este artigo apresenta a primeira geração de modelos de raciocínio do DeepSeek, DeepSeek-R1-Zero e DeepSeek-R1. O modelo DeepSeek-R1-Zero foi treinado através de aprendizagem por reforço em larga escala (RL) sem ajuste fino supervisionado (SFT) como um passo inicial, demonstrando o potencial da RL e as capacidades superiores de raciocínio ele traz. Por meio do aprendizado por reforço, DeepSeek-R1-Zero surgiu naturalmente com muitos comportamentos de raciocínio poderosos e interessantes. Para otimizar ainda mais alguns dos problemas com R1-Zero (confusões linguísticas, capacidade de generalização aprimorada), eles lançaram DeepSeek-R1, que combina treinamento em vários estágios e ajuste fino de dados de inicialização a frio antes do aprendizado por reforço. DeepSeek-R1 obteve desempenho comparável na tarefa de raciocínio com OpenAI-01-1217. Para dar suporte à comunidade de pesquisa, eles têm DeepSeek-R1-Zero de código aberto, DeepSeek-R1 e seis modelos densos (1.5B, 7B, 8B, 14B, 32B, 70B) destilados de DeepSeek-R1, que são baseados em Qwen e Llama.

As características do método são resumidas da seguinte forma:

  1. O aprendizado por reforço é aplicado diretamente ao modelo base, sem depender do ajuste fino supervisionado (SFT) como etapa inicial.
  2. É introduzido o processo de desenvolvimento DeepSeek-R1, que combina duas fases de aprendizagem por reforço e duas fases de ajuste fino supervisionadas para estabelecer a base para as capacidades de raciocínio e não raciocínio do modelo.
  3. O desempenho de pequenos modelos em tarefas de raciocínio é melhorado pela transferência dos padrões de raciocínio de grandes modelos para pequenos modelos por meio de técnicas de destilação.

Visão geral

Motivação

  • Os atuais grandes modelos de linguagem (LLMs) fizeram progressos significativos em tarefas de inferência, mas ainda enfrentam desafios.
  • O potencial do puro a aprendizagem por reforço (LR) na melhoria da capacidade de raciocínio dos LLMs não foi totalmente explorada, especialmente sem depender de dados supervisionados.
  • Modelos treinados por meio de RL, como DeepSeek-R1-Zero, tem problemas de legibilidade e mistura de idiomas (por exemplo, fala chinês e inglês misturados) e precisa de mais melhorias para melhorar a facilidade de uso.

Métodos

DeepSeek-R1-Zero: Utiliza DeepSeek-V3-Base como modelo base e GRPO (Group Relative Policy Optimization) como o reforço de aprendizagem estrutura, sem dados supervisionados para melhorar o desempenho do modelo em inferência.

DeepSeek-R1:

  • Partida a frio: Coleta uma pequena quantidade de dados CoT (Chain-of-Thought) longos de alta qualidade e ajusta-os DeepSeek-V3-Modelo base como o ator inicial para o aprendizado por reforço.
  • Aprendizagem por reforço orientada ao raciocínio: O mesmo processo de treinamento de aprendizagem por reforço como DeepSeek-R1-Zero é aplicado, mas com foco no aprimoramento das habilidades de raciocínio do modelo em áreas como codificação, matemática, ciência e raciocínio lógico. Recompensas de consistência linguística são introduzidas para mitigar o problema de mistura linguística que ocorre em CoT.
  • Amostragem de rejeição e ajuste fino supervisionado: Utiliza o ponto de verificação convergente de aprendizagem por reforço para coletar dados de ajuste fino supervisionado (SFT) para treinamento subsequente.
  • Aprendizagem por reforço para todos os cenários: implementa uma fase de aprendizagem por reforço de segundo nível, que visa melhorar a utilidade e inocuidade do modelo, ao mesmo tempo em que otimiza sua capacidade de raciocínio.
  • Destilação do conhecimento: Ajusta os modelos de código aberto Qwen e Llama diretamente usando as 800 mil amostras selecionadas pelo DeepSeek-R1.

Métodos e procedimentos detalhados:

DeepSeek-R1-Zero: Aprendizagem por reforço para modelos básicos

  • Algoritmo de aprendizagem por reforço: Utiliza o algoritmo Group Relative Policy Optimization (GRPO), que não requer um crítico modelo, estima a linha de base por pontuações de grupo e reduz os custos de treinamento.
  • Modelagem de recompensa: Usa um sistema de recompensa baseado em regras, incluindo
  • recompensa de precisão: Avalia se a resposta está correta, como a correção do resultado final da resposta do problema de matemática, o feedback do compilador para problemas de código.
  • Formato da recompensa: Incentiva o modelo a coloque o processo de pensamento entre e Etiquetas.

Modelo de treinamento: Um modelo contendo e tags é projetado para orientar o modelo para produzir primeiro o processo de pensamento e depois a resposta final.

  • Processo autoevolutivo: DeepSeek-R1-Zero demonstrado características autoevolutivas durante o treinamento e foi capaz de aprender autonomamente estratégias de raciocínio mais complexas, como reflexão e exploração de múltiplos caminhos de resolução de problemas.

DeepSeek-R1: Aprendizagem por reforço combinada com inicialização a frio

  • Partida a frio: Para resolver DeepSeek-R1-Zero's problema de legibilidade, DeepSeek-R1 primeiro coleta uma pequena quantidade de dados CoT de alta qualidade e ajusta o modelo DeepSeek-V3-Base para servir como ator inicial para o aprendizado por reforço. Dados de inicialização a frio contém tags de resumo e respostas hostis são filtrados.
    • Método: 1) Selecione dados Long COT de alta qualidade. 2) Adicione tags.
    • Vantagens: 1) Legibilidade otimizada (resolve o problema multilíngue do R1-Zero ou o problema do formato markdown). 2) Dados cuidadosamente selecionados e preferidos por humanos podem continuar a melhorar o desempenho no R1-Zero.
    • Pergunta: Por que resolver o problema de legibilidade? Não é possível fazer melhor sem resolvê-lo (por exemplo, reduzir o comprimento da saída e inferir de forma mais eficiente)?
  • RL orientada para o raciocínio: Com base no modelo de inicialização a frio, um processo de aprendizagem por reforço semelhante ao DeepSeek-R1-Zero é aplicado, com foco na melhoria da capacidade do modelo em tarefas como codificação, matemática, raciocínio científico e lógico. Para resolver o problema das línguas misturadas (raciocínio multilíngue), recompensas de consistência de linguagem são apresentados.
    • Pergunta: Como as tarefas e conjuntos de dados de raciocínio científico e lógico são treinados?
  • Amostragem de rejeição e SFT: Após a convergência do aprendizado por reforço guiado por inferência, o ponto de verificação obtido é usado para amostragem de rejeição para gerar novos dados SFT, que são combinados com os dados do DeepSeek-V3 para aprimorar as capacidades do modelo em tarefas de escrita, dramatização e gerais.
    • Propósito:
      • Esta fase é iniciada após a O processo de aprendizagem por reforço (RL) orientado à inferência converge.
      • O objetivo principal é coletar dados de ajuste fino supervisionado (SFT) para uso em rodadas de treinamento subsequentes.
      • Ao contrário dos dados iniciais de inicialização a frio, que se concentram apenas na inferência, esta fase visa expandir as capacidades do modelo para cobrir escrita, dramatização e outras tarefas de uso geral, não apenas inferência.
    • Coleta de dados – Dados de inferência:
      • Método: Use pontos de verificação obtidos da fase RL orientada à inferência para gerar trajetórias de inferência por amostragem de rejeição.
      • Expansão do conjunto de dados: Diferentemente da fase RL anterior, que usava apenas dados de recompensa baseados em regras, dados de recompensa não baseados em regras são introduzidos aqui. Em alguns casos, um modelo de recompensa generativo (DeepSeek-V3) é usado para determinar a resposta.
      • Filtragem de dados: Para garantir qualidade e legibilidade, a saída é filtrada para remover:
        • cadeias de pensamento contendo línguas misturadas
        • parágrafos longos
        • blocos de código
      • Amostragem e seleção: Para cada prompt, múltiplas respostas foram geradas. Apenas a resposta “correta” foi retida para o conjunto de dados.
      • Tamanho do conjunto de dados: Aproximadamente 600.000 amostras de treinamento relacionadas à inferência foram coletados dessa forma.
    • Coleta de dados – dados não inferenciais:
      • Cobertura: Redação, resposta a perguntas factuais (QA), autoconsciência e tradução.
      • O artigo menciona o uso de O processo DeepSeek-V3 reutiliza parte do conjunto de dados SFT DeepSeek-V3 para lidar com essas tarefas de não inferência. Sobre 200.000 amostras independentes de inferência foram coletados. (Nota: Os detalhes da coleta de dados não inferenciais são descritos mais detalhadamente na Seção 2.3.4)
    • Utilização dos dados coletados:
      • Os dados coletados de raciocínio e não raciocínio (um total de cerca de 800.000 amostras – 600.000 amostras de raciocínio + 200.000 amostras de não raciocínio) foram então usados para ajustar o modelo DeepSeek-V3-Base para duas épocas. Este modelo ajustado foi então usado na fase final de RL descrita na Seção 2.3.4.
    • Resumo Esta etapa utiliza os recursos de inferência aprendido por meio de RL para gerar um conjunto de dados SFT diversificado e de alta qualidade. Este conjunto de dados fortalece as capacidades de inferência e também expande as capacidades gerais de o modelo para treinamento na fase final de alinhamento e melhoria.
  • Aprendizado por reforço para todos os cenários: para alinhar ainda mais as preferências humanas, uma segunda fase de aprendizado por reforço é implementada para melhorar a utilidade e a inocuidade do modelo.
    • Dados de inferência: por exemplo, matemática, código, inferência lógica ou supervisionados com métodos baseados em regras.
    • Dados gerais: modelos de recompensa ainda são usados para fornecer informações de preferência para cenários complexos e sutis. Modelos treinados com dados pareados também são estimados.
    • Utilidade: focar apenas nos resultados finais resumidos, reduzindo a interferência no processo de inferência.
    • Inocuidade: supervisione toda a resposta para reduzir quaisquer riscos.

Destilação modelo (Destilação):

  • Para obter um modelo de inferência pequeno mais eficiente, o artigo destila a capacidade de inferência de DeepSeek-R1 nos modelos de código aberto das séries Qwen e Llama. O processo de destilação usa apenas ajuste fino supervisionado (SFT) e não utiliza o estágio de aprendizagem por reforço.

Conclusão

DeepSeek-R1-Zero: Demonstra o potencial de aprendizagem por reforço puro na motivação da capacidade de inferência de LLM e pode atingir um desempenho forte sem depender de dados supervisionados.

  • Momento aha: A beleza da aprendizagem por reforço (o momento de iluminação do modelo, onde ele aloca mais tempo para pensar em um problema aprendendo a reavaliar a abordagem inicial)
  • O comprimento da saída continua a aumentar (o tempo de pensamento continua a aumentar)
  • A precisão continua a melhorar (amostragem de 16 respostas para calcular a precisão)
  • DeepSeek-R1: Melhora ainda mais o desempenho do modelo combinando dados de inicialização a frio e ajuste fino de aprendizagem por reforço iterativo, alcançando um nível comparável ao OpenAI-01-1217 em várias tarefas.
  • Destilação do conhecimento: Usando DeepSeek-R1 como modelo de professor, 800K amostras de treinamento foram geradas e vários modelos pequenos e densos foram ajustados. Os resultados mostram que isso O método de destilação pode melhorar significativamente a capacidade de inferência de pequenos modelos.

Limitação

  • Limitação 1: A capacidade geral do DeepSeek-R1 precisa ser melhorada. DeepSeek-R1 ainda é inferior a DeepSeek-V3 em tarefas como chamadas de função, diálogo multi-turno, interpretação de papéis complexa e saída JSON.
  • Limitação 2: Problema de mistura de idiomas. DeepSeek-R1 pode encontrar um problema de mistura de idiomas ao processar consultas que não sejam em chinês e inglês, por exemplo, ao raciocinar e responder em inglês.
  • Limitação 3: Sensibilidade imediata. O DeepSeek-R1 é sensível a palavras de prompt, e prompts de poucos disparos reduzirão seu desempenho.
  • Limitação 4: Aplicação limitada a tarefas de engenharia de software. Devido ao longo tempo de avaliação, o aprendizado por reforço em larga escala não foi totalmente aplicado às tarefas de engenharia de software, e o DeepSeek-R1 tem melhoria limitada em relação ao DeepSeek-V3 em benchmarks de engenharia de software.

Publicações semelhantes

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *