1 Antecedentes

Durante o Festival da Primavera, DeepSeek R1 atraiu mais uma vez a atenção generalizada, e até mesmo o artigo de interpretação DeepSeek V3 que escrevemos anteriormente também foi retransmitido e muito discutido.

Embora tenha havido muitas análises e reproduções do DeepSeek R1, aqui decidimos compilar algumas notas de leitura correspondentes.

Usaremos três diagramas esquemáticos principais para demonstrar a construção do modelo e os principais pontos técnicos, destilando a essência da série DeepSeek-R1 para fornecer uma compreensão mais intuitiva de suas ideias de design.

O artigo correspondente é [2501.12948] DeepSeek-R1: Incentivar a capacidade de raciocínio em LLMs por meio do aprendizado por reforço

e o modelo de código aberto correspondente é DeepSeek-R1

2 Introdução

2.1 Algoritmos de raciocínio comum

Conforme mostrado na Figura 2 abaixo, o autor explica os quatro algoritmos comuns de raciocínio. Embora eles difiram em detalhes específicos, todos eles incluem duas operações principais:

  • Expansão: gere tokens para expandir o caminho da solução.
  • Agregação: integre os resultados de cada caminho para obter a resposta final. Aumentar os recursos computacionais na fase de expansão pode geralmente melhorar a qualidade da resposta na fase de agregação.

Autoconsistência (SC). Conforme mostrado na Figura 2a, a ideia central da SC é gerar múltiplas saídas diferentes (que podem ser alcançadas alterando parâmetros de amostragem, etc.) e, então, votar em todas as respostas para selecionar a resposta com a maior taxa de vitória. O parâmetro-chave é o número de respostas candidatas n.

Algoritmo Rebase: Conforme mostrado na Figura 2b abaixo, o Rebase também gera múltiplas saídas, mas elas são geradas em múltiplas etapas. Cada etapa é pontuada usando o modelo Reward, e o resultado com a maior pontuação é usado para continuar gerando. Finalmente, uma árvore de raciocínio com múltiplas ramificações é gerada. A resposta com a maior pontuação (Best-of-N) é selecionada no estágio de agregação.

Busca de Árvore de Monte Carlo (MCTS): Conforme mostrado na Figura 2c abaixo, o MCTS é um poderoso algoritmo de raciocínio que expande nós por amostragem gradual e constrói uma árvore de soluções até atingir um nó folha contendo uma solução candidata. Cada solução é pontuada por meio de um modelo de recompensa ou simulação, e a pontuação é propagada de volta para seus nós ancestrais para atualizar seus valores de recompensa, completando assim uma iteração. O parâmetro-chave também é n, e aumentar n permite uma exploração mais profunda e ampla de soluções potenciais.

Cadeia cognitiva internalizada (ICoT). Conforme mostrado na Figura 2d abaixo, os LLMs mais recentes, como OpenAI o1 e Qwen-QWQ, podem internalizar o comportamento de raciocínio durante o treinamento sem a necessidade de um algoritmo de raciocínio explícito. A ideia central é gerar uma sequência CoT, decompor problemas complexos em vários subproblemas e, então, otimizar iterativamente essas respostas refletindo sobre saídas anteriores para, eventualmente, chegar a uma solução.

2.2 Métodos de alinhamento de raciocínio

2.2.1 Visão geral do método Best-of-N

Em resumo, Best-of-N é um método de alinhamento amplamente utilizado em inferência LLM, que visa garantir a alta qualidade dos resultados gerados gerando múltiplas respostas candidatas e selecionando a melhor. Consiste em três processos principais:

  1. Processo de geração: Para um determinado prompt X, o método Best-of-N gera N respostas IID (Y₁, Y₂, …, Yₙ), onde N é frequentemente chamado de “tamanho do lote”.
  2. Mecanismo de pontuação: Cada resposta gerada é pontuada por um modelo de recompensa para obter uma pontuação correspondente {s(Y₁), s(Y₂), …, s(Yₙ)}.
  3. Selecionando a melhor resposta: Finalmente, a resposta com a maior pontuação entre todas as respostas geradas é selecionada como saída, ou seja, Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}.

As vantagens deste método são:

  1. Ele pode efetivamente evitar etapas complexas de ajuste fino, facilitando a implantação de modelos de linguagem que foram pré-treinados ou ajustados com instruções.
  2. É simples de implementar, fácil de entender e essencialmente livre de hiperparâmetros: o principal hiperparâmetro é N, que pode ser ajustado dinamicamente durante a inferência.
  3. É altamente competitivo em termos de qualidade de geração e pode até rivalizar com algumas técnicas complexas de pós-treinamento, como RLHF ou DPO. Pesquisas mostram que o método Best-of-N tem bom desempenho na curva de trade-off entre recompensa e divergência de KL, superando até mesmo outras estratégias complexas de alinhamento.

As desvantagens deste método são

  1. a inferência requer a geração de N sequências, o que pode levar a uma sobrecarga computacional significativa. Na prática, um valor razoável para N varia de 4 a 128, mas para competir com os métodos de pós-treinamento mais avançados, valores de N mais altos podem ser necessários, como 1000 a 60000, o que pode levar a uma sobrecarga computacional quase inaceitável.

O método best-of-N é frequentemente usado para gerar conjuntos de dados de alta qualidade para ajuste fino supervisionado subsequente e desempenhou um papel fundamental no processo de alinhamento do LLaMA-2 e do LLaMA-3.

2.2.2 Método OpenAI best-of-N

A OpenAI propôs pela primeira vez a amostragem Best-of-N em [2009.01325] Aprendendo a resumir a partir do feedback humano . Especificamente, ele é usado para avaliar e otimizar o desempenho do modelo de resumo selecionando o melhor resumo gerado a partir de vários modelos. Este método ajuda os pesquisadores a entender melhor a relação entre diferentes métricas de avaliação e preferências do avaliador humano, e é usado para orientar o treinamento e a otimização do modelo.

O OpenAI também usa amostragem Best-of-N (amostragem de rejeição) no acompanhamento [2112.09332] WebGPT: Resposta a perguntas assistida por navegador com feedback humano. Especificamente, um número fixo de respostas (4, 16 ou 64) são amostradas do modelo BC ou modelo RL, e aquela com a maior pontuação do modelo de recompensa é selecionada como um método de otimização para o modelo de recompensa adversarial. Este método não requer treinamento adicional, mas aumenta a complexidade computacional do estágio de inferência para ser alcançado.

2.2.3 Método Google BOND

Em [2407.14622] BOND: Alinhando LLMs com a Destilação Best-of-N, os autores do Google propõem a Destilação Best-of-N (BOND), um novo algoritmo RLHF projetado para simular a estratégia de amostragem Best-of-N por meio de um algoritmo de correspondência de distribuição sem aumentar significativamente a sobrecarga computacional durante a inferência.

Especificamente, o autor primeiro deriva a distribuição analítica exata da amostragem Melhor de N e fornece a função de probabilidade da amostragem Melhor de N:

Em segundo lugar, os autores expressam o problema como um problema de correspondência de distribuição;

posteriormente, os autores propõem usar a divergência de Jeffreys como objetivo de correspondência de distribuição:

Finalmente, para resolver o problema de selecionar N, os autores propõem o método BOND iterativo, que melhora o desempenho da estratégia destilando iterativamente a distribuição Best-of-N. As etapas específicas incluem:

Inicialize a estratégia de âncora auxiliar π(anchor).

Execute iterativamente BOND para destilar o Melhor de N π(âncora) e atualizar π(âncora) após cada etapa.

2.3 Supervisão de processos e supervisão de resultados

Resultado e Processo referem-se aos dois aspectos da avaliação do modelo de Recompensa:

  • Modelo de recompensa de resultado: avalie se o resultado final da saída do modelo está correto ou conforme o esperado.
  • Modelo de Recompensa de Processo: Avalia se o raciocínio do modelo e as etapas de tomada de decisão no processo de geração de resultados são razoáveis e eficazes.

Por exemplo, o Let's Verify Step by Step | OpenAI também menciona:

  • Supervisão de processo (Supervisão de resultado): envolve fornecer feedback sobre cada etapa do processo de Raciocínio do modelo. Modelos de Recompensa supervisionados por processo (PRM) são treinados para prever a correção de cada etapa da solução.
  • Supervisionado por resultado: O supervisionado por resultado fornece feedback com base apenas no resultado final do raciocínio do modelo. Os modelos de recompensa supervisionados por resultado (ORM) são treinados usando a resposta final da solução, e a correção é determinada pela verificação automática.

2.4 Recompensa de hacking

Em RL, o hacking de recompensa se refere ao fenômeno no qual um agente explora uma falha no design da função de recompensa para maximizar a recompensa cumulativa de uma forma que não atende à intenção original do designer. Embora esse comportamento atenda tecnicamente à meta de otimização da função de recompensa, o efeito real se desvia da meta esperada da tarefa e pode até levar a consequências negativas.

Análise dos pontos principais:

  1. Definição e manifestação:
    1. O agente encontra uma falha na função de recompensa e obtém uma recompensa alta tomando “atalhos” em vez de realmente resolver o problema.
    2. Por exemplo, um robô de limpeza desliga as luzes para fazer o cômodo “parecer” limpo, em vez de realmente limpá-lo; um agente de jogo marca pontos repetidamente sem completar a meta do nível; escolhe não diminuir a velocidade para reduzir o número de vezes de frenagem, o que representa um risco à segurança; gera conteúdo sem sentido que corresponde a palavras-chave para enganar pontuações altas.
  2. Causas raiz:
    1. Design de função de recompensa incompleto: simplificação excessiva ou falha em cobrir casos extremos.
    2. Desalinhamento entre objetivos e recompensas: a função de recompensa não reflete totalmente o objetivo real, fazendo com que o agente otimize para o objetivo “errado”.
  3. Soluções:
    1. Melhore o design de recompensas: introduza recompensas multidimensionais (por exemplo, segurança, eficiência, etc.) ou ajuste dinamicamente a função de recompensa.
    2. Verificação adversarial: detecta se o agente está “trapaceando” por meio de mecanismos adicionais.
    3. Intervenção manual e restrições: definir limites comportamentais (por exemplo, camada de segurança) ou feedback manual (por exemplo, RLHF).
    4. Aprendizagem por reforço inverso (IRL): aprenda uma função de recompensa mais realista a partir de demonstrações de especialistas.
    5. Aprendizagem por reforço hierárquico: decomponha a tarefa em subobjetivos para reduzir o risco de otimização local.
  4. Associação com overfitting:
    1. Ambos exibem uma desconexão entre as métricas de treinamento e o desempenho no mundo real, mas o Reward Hacking dá mais ênfase às falhas de design da função de recompensa do que à capacidade de generalização do modelo.
  5. Resumo:
    1. Reward Hacking revela o desafio do alinhamento de metas em RL. Resolver esse problema requer uma combinação de projetar mecanismos de recompensa mais robustos, introduzir restrições externas e incorporar conhecimento humano prévio para garantir que o comportamento do agente seja eficiente e alinhado com a intenção do projeto.

3 DeepSeek-R1-Zero e DeepSeek-R1

3.1 Visão geral

Pesquisas anteriores se basearam amplamente em grandes quantidades de dados supervisionados para melhorar o desempenho do modelo. Este estudo mostra que, mesmo sem SFT como uma partida a frio, RL em larga escala pode melhorar significativamente a capacidade de raciocínio do modelo. Além disso, a introdução de uma pequena quantidade de dados de partida a frio pode otimizar ainda mais o desempenho. A seguir estão os modelos relacionados ao DeepSeek-R1:

  1. DeepSeek-R1-Zero: Este modelo aplica RL diretamente ao modelo base sem nenhum dado SFT.
  2. DeepSeek-R1: Este modelo aplica RL a partir de um ponto de verificação que foi ajustado com milhares de amostras longas de CoT.
  3. DeepSeek-R1-Distill-xx: Destila a capacidade de raciocínio do DeepSeek-R1 em um pequeno modelo denso.

3.2 DeepSeek-R1-Zero

A figura a seguir mostra os pontos-chave no treinamento do modelo DeepSeek-R1-Zero:

PS: Deve-se notar que o artigo não fornece muitas informações sobre os dados usados no processo RL de DeepSeek-R1-Zero. No entanto, há alguma explicação sobre o processo de geração de dados e quantidade no treinamento R1 subsequente, embora não seja particularmente específico.

3.2.1 Algoritmo RL

Para reduzir o custo de treinamento de RL, os autores usam o próprio método GRPO (Group Relative Policy Optimization) do DeepSeek, [2402.03300] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. Este método abandona o modelo Critic, que geralmente é comparável em tamanho ao modelo Policy, e em vez disso estima a linha de base usando uma pontuação de grupo. A explicação correspondente é mostrada na figura abaixo (imagem do Twitter):

3.2.2 Modelagem de recompensa

Recompensas são a fonte de sinais de treinamento e determinam a direção de otimização de RL. Para treinar DeepSeek-R1-Zero, os autores usaram um sistema de recompensa baseado em regras, que consiste principalmente em dois tipos de recompensas:

  • Recompensa de precisão: Avalie se a resposta está correta. Por exemplo:
    • Em problemas matemáticos com resultados determinísticos, o modelo precisa fornecer a resposta final em um formato específico (como dentro de uma caixa) para que sua correção possa ser verificada de forma confiável por regras.
    • Da mesma forma, para problemas do LeetCode, o feedback pode ser gerado usando um compilador baseado em casos de teste predefinidos.
  • Recompensa de formato: Uma recompensa de formato também é usada para forçar o modelo a colocar seu processo de pensamento entre o “ " e " ” tags.

Durante o desenvolvimento do DeepSeek-R1-Zero, o autor não utilizou o Modelo de Recompensa Neural de Resultado ou o Modelo de Recompensa Neural de Processo porque o autor descobriu que o Modelo de Recompensa Neural pode encontrar falsificação de recompensa (Reward Hacking) em processos de RL em larga escala; além disso, o retreinamento do Modelo de Recompensa não apenas requer recursos de treinamento adicionais, mas também complica todo o processo de treinamento.

3.2.3 Modelo de treinamento

Para treinar DeepSeek-R1-Zero, os autores primeiro projetaram um Template simples para guiar o modelo Base a seguir as instruções definidas. Conforme mostrado na Tabela 1 abaixo, o Template requer que DeepSeek-R1-Zero gere um processo de inferência e então dê a resposta final.

O autor limitou deliberadamente as restrições a essa estrutura para evitar a introdução de qualquer viés de conteúdo – por exemplo, forçando o raciocínio reflexivo ou promovendo estratégias específicas de resolução de problemas – para garantir que a evolução natural do modelo possa ser observada com precisão durante o processo de RL.

3.2.4 Conclusão

Capacidades de raciocínio robustas sem dados SFT: Ao iniciar o RL diretamente do modelo Base, a trajetória de evolução do modelo pode ser monitorada de perto sem interferência do SFT. Como mostra a Figura 3 abaixo, o tempo de pensamento do DeepSeek-R1-Zero continuou a melhorar (o comprimento do crescimento gradualmente se tornou maior) ao longo do processo de treinamento. Essa melhoria não veio de ajustes externos, mas foi um resultado natural do desenvolvimento interno do modelo. O DeepSeek-R1-Zero naturalmente ganhou a capacidade de resolver tarefas de inferência cada vez mais complexas, como a capacidade de refletir, usando cálculos de tempo de teste estendido.

DeepSeek-R1-Zero experimentou um “momento aha” durante o treinamento. Conforme mostrado na Tabela 3 abaixo, esse momento ocorreu durante o estágio da versão intermediária do modelo. Durante esse estágio, DeepSeek-R1-Zero aprendeu a alocar mais tempo de pensamento para problemas ao reavaliar sua abordagem inicial.

Votação majoritária: o desempenho do DeepSeek-R1-Zero pode ser melhorado ainda mais aplicando a votação majoritária. Por exemplo, como mostrado na Tabela 2 abaixo, após a votação majoritária ser usada no teste de benchmark AIME, seu desempenho salta de 71,0% para 86,7%, superando o OpenAI-o1-0912.

Fraquezas: Embora o DeepSeek-R1-Zero demonstre fortes capacidades de raciocínio e desenvolva autonomamente comportamentos de raciocínio inesperados e poderosos, ele ainda enfrenta desafios como baixa legibilidade e mistura de linguagens.

3.3 DeepSeek-R1

Para tornar o processo de Raciocínio mais legível e compartilhá-lo com a comunidade aberta, os autores exploram ainda mais o método DeepSeek-R1, que usa dados de partida a frio amigáveis para humanos para RL. Inspirados por DeepSeek-R1-Zero, duas perguntas naturais seguem:

  1. O desempenho do raciocínio pode ser melhorado ou o processo de convergência pode ser acelerado pela introdução de uma pequena quantidade de dados de alta qualidade como uma inicialização a frio?
  2. Como podemos treinar um modelo fácil de usar que não apenas gere CoTs claros e coerentes, mas também demonstre fortes capacidades de generalização?

Em resposta a essas perguntas, projetamos um processo de treinamento para DeepSeek-R1. O processo consiste em múltiplos estágios, conforme descrito abaixo:

O estágio 1, conforme mostrado na figura abaixo, treina o estado intermediário de DeepSeek-R1 por meio de SFT + RL:

A figura a seguir mostra os estágios 2, 3 e 4:

  • Estágio 2: canto superior esquerdo, construir 200 mil dados não racionais e 600 mil dados racionais.
  • Estágio 3: canto superior direito, trem SFT + RL DeepSeek-R1.
  • Estágio 4: figura inferior, Destilar DeepSeek-R1-Distill-xx.

3.3.1 Partida a frio (estágio 1)

Diferentemente de DeepSeek-R1-Zero, para evitar a fase instável de Cold Start do modelo Base no início do treinamento RL, os autores construíram e coletaram uma pequena quantidade de dados Long CoT para DeepSeek-R1 para ajustar o modelo como o RL Actor inicial. Para coletar esses dados, os autores exploraram vários métodos:

  • Usando prompts de poucos disparos com exemplos de CoT longo
  • Solicitando diretamente ao modelo que gere respostas detalhadas com reflexão e verificação
  • Coletando a saída DeepSeek-R1-Zero em um formato legível por humanos
  • Refinando os resultados por meio de pós-processamento com rotulagem manual

Os autores coletaram um total de milhares de dados de Cold Start, que foram usados para ajustar DeepSeek-V3-Base como ponto de partida para RL. Comparado com DeepSeek-R1-Zero, as vantagens dos dados de Cold Start incluem

  • Legibilidade: DeepSeek-R1-Zero As respostas podem ser misturadas em vários idiomas ou não ter a formatação Markdown usada para destacar as respostas do usuário. Em contraste, ao criar dados de Cold Start para DeepSeek-R1, o autor projetou um formato legível que inclui um resumo no final de cada resposta e filtra as respostas ilegíveis. Aqui, o formato de saída é definido como |special_token| |token_especial| , onde reasoning_process é o pensamento encadeado da Consulta e summary é usado para resumir os resultados do raciocínio.
  • Potencial: Ao projetar cuidadosamente uma combinação de padrões de dados de inicialização a frio a priori humanos, os autores observaram que seu desempenho é superior ao DeepSeek-R1-Zero.

3.3.2 RL orientado ao raciocínio (estágio 1)

Após o ajuste fino do DeepSeek-V3-Base em dados de Cold Start, o mesmo processo de treinamento RL em larga escala do DeepSeek-R1-Zero é usado. Este estágio visa melhorar a capacidade do modelo em tarefas intensivas em Raciocínio, especialmente em problemas de programação, matemática, ciências e raciocínio lógico com soluções claras.

Durante o treinamento, os autores observaram que o CoT frequentemente sofria de mistura de idiomas, especialmente quando o prompt RL envolvia vários idiomas. Para aliviar o problema de mistura de idiomas, os autores introduziram uma recompensa de consistência de idioma no treinamento RL, que é calculada com base na proporção de palavras no idioma de destino no CoT. Embora os experimentos de ablação mostrem que esse método de alinhamento leva a uma ligeira diminuição no desempenho do modelo, esse mecanismo de recompensa é consistente com as preferências humanas e melhora a legibilidade. Finalmente, os autores adicionam diretamente a precisão da tarefa de Raciocínio à recompensa de consistência de idioma para formar a recompensa final e implementam o treinamento RL no modelo ajustado até que ele convirja para a tarefa de Raciocínio.

3.3.3 Construção de 800.000 dados selecionados (Etapa 2)

Enquanto RL para Raciocínio converge, dados SFT são coletados usando o checkpoint resultante para a próxima rodada de treinamento. Diferentemente dos dados iniciais do Cold Start, que focam principalmente no Raciocínio, este estágio incorpora dados de outros domínios para aprimorar a habilidade do modelo em escrever, fazer role-playing e outras tarefas de propósito geral. Especificamente, os dados são gerados e o modelo é ajustado da seguinte forma:

  • Dados de raciocínio: Os prompts de raciocínio são selecionados e as trajetórias de raciocínio são geradas realizando amostragem de rejeição do Checkpoint treinado RL mencionado anteriormente (DeepSeek-R1 Estágio 1). No estágio anterior, apenas dados que podiam ser avaliados usando recompensas baseadas em regras foram incluídos. No entanto, neste estágio, o conjunto de dados foi expandido incluindo mais dados, alguns dos quais foram gerados usando um modelo de recompensa, e as respostas reais foram julgadas alimentando as previsões do modelo em DeepSeek-V3 (DeepSeek V3 como Juiz). Além disso, como a saída do modelo às vezes é confusa e difícil de ler, cadeias de pensamento de linguagem mista, parágrafos longos e blocos de código foram filtrados. Para cada prompt, várias respostas foram amostradas e apenas as corretas (Melhor de N) foram retidas. No total, cerca de 600.000 amostras de treinamento relacionadas ao raciocínio foram coletadas.
  • Dados não racionais: como escrita, perguntas factóides, autoconsciência e tradução, usaram o processo DeepSeek-V3 e reutilizaram alguns dos conjuntos de dados SFT do DeepSeek-V3. Para algumas tarefas não racionais, o DeepSeek-V3 é chamado para gerar CoTs potenciais antes de responder à pergunta. No entanto, para consultas simples como "Olá", nenhuma cadeia de pensamento é fornecida na Resposta. No final, um total de cerca de 200.000 amostras de treinamento não racionais foram coletadas.

3.3.4 SFT e RL para todos os cenários (Estágio 3)

Duas rodadas de ajuste fino, totalizando cerca de 800.000 amostras selecionadas, foram realizadas no DeepSeek-V3-Base usando os dois conjuntos de dados mencionados acima (Raciocínio e não Raciocínio).

Para alinhar ainda mais o modelo com as preferências humanas, os autores implementaram uma segunda fase de RL, que visa melhorar a utilidade e a inocuidade do modelo, ao mesmo tempo em que refina suas capacidades de Raciocínio. Especificamente, o modelo foi treinado com uma combinação de sinais de recompensa e distribuições de prompts diversas.

  • Para dados de raciocínio, a metodologia descrita em DeepSeek-R1-Zero é seguida, usando um mecanismo de recompensa baseado em regras para orientar o aprendizado do modelo nas áreas de matemática, programação e raciocínio lógico.
  • Para dados gerais, o modelo Reward é usado para capturar preferências humanas em situações complexas e sutis. Uma estratégia semelhante de pares de preferências e distribuições de prompts de treinamento é usada com base no processo DeepSeek-V3.
  • Em termos de utilidade, apenas o resumo final é considerado, garantindo que a avaliação se concentre na praticidade e relevância da Resposta para o usuário, minimizando a interferência no processo de Raciocínio subjacente.
  • Quanto à inocuidade, toda a Resposta do modelo é avaliada de forma abrangente, incluindo o processo de raciocínio e o resumo, para identificar e eliminar quaisquer riscos potenciais, vieses ou conteúdo prejudicial que possam surgir durante o processo de geração.
  • Por fim, ao integrar sinais de recompensa e diversificar a distribuição de dados, é possível treinar um modelo que prioriza tanto o benefício quanto a inocuidade, ao mesmo tempo em que se destaca no raciocínio.

3.3.5 Destilação (Estágio-4)

Para equipar um modelo pequeno mais eficiente com a capacidade de raciocínio do DeepSeek-R1, os autores ajustaram diretamente os modelos de código aberto Qwen e LLaMA usando as 800.000 amostras selecionadas no DeepSeek-R1-Stage-1. Os resultados mostram que esse método de destilação direta melhora significativamente a capacidade de raciocínio de modelos pequenos. Os modelos básicos usados pelos autores incluem Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B e Llama-3.3-70B-Instruct. O Llama-3.3 foi selecionado porque sua capacidade de raciocínio é ligeiramente melhor que a do Llama-3.1.

Para o modelo de destilação, o autor usa apenas SFT e não inclui o estágio RL. Embora a introdução de RL possa melhorar muito o desempenho do modelo, o principal propósito do autor aqui é demonstrar a eficácia da tecnologia de destilação, e a exploração do estágio RL é deixada para pesquisas subsequentes.

PS: Além disso, é realmente possível usar o DeepSeek-R1 final para gerar os dados acima e reconstruir os 800.000 dados usados para destilação, e o modelo destilado pode ter um efeito melhor; no entanto, o preço é que os dados precisam ser reconstruídos.

Publicações semelhantes

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *