Hoje, gostaria de compartilhar um artigo do DeepSeek, intitulado DeepSeekMath: Expandindo os limites do raciocínio matemático em modelos de linguagem aberta.
Este artigo apresenta o DeepSeekMath 7B, que é pré-treinado em DeepSeek-Coder-Base-v1.5 7B baseado em uma coleção de 120 bilhões de tokens relacionados à matemática, linguagem natural e dados de código.
O modelo alcançou uma pontuação surpreendente de 51,7% em benchmarks MATH de nível competitivo sem depender de kits de ferramentas externos e técnicas de votação, aproximando-se do nível de desempenho do Gemini-Ultra e do GPT-4.
A capacidade de raciocínio matemático do DeepSeekMath 7B é atribuída a dois fatores principais: primeiro, por meio de uma pipeline de seleção de dados cuidadosamente projetado, dados de alta qualidade relacionados à matemática são extraídos iterativamente de dados da web disponíveis publicamente.
Em segundo lugar, a otimização da política relativa do grupo (GRPO) é introduzido, que é uma variante da otimização de política proximal (PPO) que pode melhorar a capacidade de raciocínio matemático ao mesmo tempo em que otimiza o uso de memória da PPO.
- As características do método são resumidas da seguinte forma:Um corpus de pré-treinamento matemático de alta qualidade foi construído, e um pipeline cuidadosamente projetado foi usado para extrair dados matemáticos de alta qualidade do Common Crawl.
- O algoritmo GRPO foi proposto, o que reduz os recursos necessários para o treinamento e melhora a capacidade de raciocínio matemático do modelo. 3) Desempenho de última geração era alcançado em vários testes de referência de raciocínio matemático.
Visão geral
Título: DeepSeekMath: Expandindo os limites do raciocínio matemático em modelos de linguagem aberta
URL: Clique aqui
Autores: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y. Wu, Daya Guo
Código: Clique aqui
Motivação
O raciocínio matemático representa um desafio significativo para os modelos de linguagem devido à complexidade e à natureza estruturada da matemática. Os modelos mais avançados, como GPT-4 e Gemini-Ultra, são poderosos, mas não estão disponíveis publicamente. Portanto, há espaço significativo para melhorias no desempenho de modelos de código aberto.
Complexidade e estrutura: O raciocínio matemático representa um desafio significativo para os modelos de linguagem devido à complexidade e à natureza estruturada da matemática.
Potencial dos dados públicos: Dados da web disponíveis publicamente podem conter informações matemáticas valiosas que ainda precisam ser exploradas e utilizadas.
Métodos
Coleta de dados: Um corpus DeepSeekMath de 120B tokens foi construído coletando dados da web de alta qualidade relacionados à matemática do Common Crawl por meio de um pipeline iterativo.
Treinamento de modelo: O corpus foi usado para pré-treinamento no DeepSeek-Coder-Base-v1.5 7B, e o algoritmo de ajuste fino de instruções matemáticas e otimização de política relativa de grupo (GRPO) foi aplicado.
Algoritmo GRPO: GRPO é um algoritmo de aprendizado por reforço aprimorado que remove o modelo crítico no PPO e estima a linha de base a partir da pontuação do grupo, reduzindo significativamente os recursos de treinamento.
Métodos e procedimentos detalhados:
Coleta e processamento de dados:

Construir DeepSeekMath Corpus: Usando um classificador baseado em fastText, extrair 120B tokens relacionados à matemática do Common Crawl para construir um corpus pré-treinado de grande escala e alta qualidade, o DeepSeekMath Corpus.
Filtragem iterativa de dados: É utilizada uma estratégia iterativa, usando OpenWebMath como dados iniciais para treinar um classificador inicial e, em seguida, usar esse classificador para extrair mais exemplos positivos do Common Crawl, que são anotados manualmente para otimizar continuamente o desempenho do classificador.
Recursos multilíngues: DeepSeekMath Corpus contém dados multilíngues, o que melhora o desempenho do modelo em padrões matemáticos chineses.
Processamento de despoluição: De-o processamento da poluição é realizado nos dados de treinamento para evitar sobreposição com o benchmark de teste.
Pré-treinamento:
Inicialização do modelo baseado em código: Inicialização usando o DeepSeek-Codificador-Base-v1.5 7B O modelo foi considerado mais eficaz do que a inicialização de um LLM geral.
Composição de dados de pré-treinamento: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% código Github, 10% Common Crawl dados em linguagem natural.
Parâmetros de pré-treinamento: O otimizador AdamW é usado, com uma taxa de aprendizado de 4,2e-4, tamanho de lote de 10 milhões de tokens e treinamento de 500 bilhões de tokens.
Ajuste fino da instrução:
Construa um conjunto de dados de ajuste fino de instruções: Construir um conjunto de dados de ajuste fino de instruções matemáticas contendo 776 mil amostras, abrangendo uma variedade de campos matemáticos e níveis de dificuldade, incluindo CoT, PoT e formatos de inferência integrados a ferramentas para resolver etapas.
Parâmetros de treinamento: Tamanho do lote 256, taxa de aprendizagem 5e-5, treino para 500 passos.
Aprendizagem por reforço – Otimização de política relativa de grupo (GRPO):
Proponha o algoritmo GRPO: Proponha um Algoritmo variante PPO GRPO, que evita a necessidade de um modelo crítico usando pontuações de grupo para estimar a linha de base, reduzindo assim os recursos de treinamento.
Função objetivo: O GRPO otimiza o modelo de política maximizando uma função objetivo que leva em consideração a vantagem relativa das saídas do grupo e adiciona diretamente a divergência KL como um termo de regularização.
Cálculo da vantagem: O GRPO calcula a vantagem através de recompensas relativas dentro do grupo, evitando comparações entre grupos e melhor conformidade com a natureza comparativa do modelo de recompensa.
Suporta monitoramento de resultados e processos: GRPO pode apoiar tanto o monitoramento de resultados quanto o de processos e monitorar a política de forma mais eficaz fornecendo recompensas no final de cada etapa de inferência.
RL iterativo: Usa um estratégia iterativa de RL para gerar um novo conjunto de treinamento com base nos resultados de amostragem do modelo de política, treinar continuamente o antigo modelo de recompensa e usar o novo modelo de recompensa para atualizar o modelo de política.
Dados de treinamento: Usa os problemas de formato CoT relacionados ao GSM8K e MATH nos dados SFT, cerca de 144K problemas.
Parâmetros de treinamento: A taxa de aprendizado do modelo de política é 1e-6, o coeficiente KL é 0,04, 64 saídas são amostradas para cada problema, o comprimento máximo é 1024 e o tamanho do lote de treinamento é 1024.
Conclusão

Conclusão 1:DeepSeekMath 7B supera todos os modelos de código aberto em capacidade de raciocínio matemático. No teste de benchmark MATH competitivo, o DeepSeekMath 7B obteve uma precisão de 51,7%, o que está próximo do nível de desempenho do Gemini-Ultra e do GPT-4.
Conclusão 2:Dados de pré-treinamento bem projetados e algoritmos GRPO são essenciais para o sucesso do modelo. A combinação de um corpus matemático de alta qualidade e algoritmos GRPO permite que o modelo alcance ganhos significativos de desempenho em tarefas de raciocínio matemático.
Conclusão 3:O treinamento de código ajuda a melhorar a capacidade de raciocínio matemático. Adicionar dados de código ao estágio de pré-treinamento pode melhorar a capacidade do modelo de resolver problemas matemáticos, com e sem ferramentas.
Conclusão 4: Utilidade limitada dos dados do arXiv: Ao contrário do que se acreditava anteriormente, descobriu-se que os dados do arXiv eram de ajuda limitada para melhorar o raciocínio matemático.
Limitação
As capacidades de geometria e prova são relativamente fracas: Embora DeepSeekMath se destaque em raciocínio quantitativo, suas capacidades em geometria e prova ainda são inferiores aos modelos de código fechado. Isso pode ser devido à seleção tendenciosa de dados nos estágios de pré-treinamento e ajuste fino.
Fraqueza na capacidade de amostra pequena: DeepSeekMath é inferior ao GPT-4 em termos de aprendizado de amostra pequena, o que pode ser devido à limitação do tamanho do modelo.
São necessários métodos de aprendizagem por reforço mais eficientes: Embora os métodos de aprendizagem por reforço propostos no artigo sejam eficazes, ainda há espaço para melhorias, por exemplo, como fazer uso mais eficaz do feedback do modelo de recompensa e como lidar com sinais de recompensa ruidosos.
Detalhes
Exploração e análise de aprendizagem por reforço
Visão geral:
Introdução à Otimização de Política Relativa de Grupo (GRPO): O artigo propõe um novo algoritmo de aprendizado por reforço, GRPO, como uma variante da Otimização de Política Proximal (PPO). A principal característica do GRPO é que ele abandona o modelo crítico comumente usado em PPO e estima a linha de base por meio de pontuações de grupo, reduzindo assim significativamente os recursos computacionais necessários para o treinamento.
Demonstração de eficácia do GRPO: O artigo demonstra experimentalmente que o GRPO pode melhorar efetivamente o desempenho dos modelos de ajuste fino de comando, incluindo tarefas matemáticas dentro e fora do domínio.
Estrutura unificada para métodos de aprendizagem por reforço: O artigo propõe uma estrutura unificada para a compreensão de diferentes métodos de aprendizagem por reforço, como Ajuste fino de amostragem de rejeição (RFT), otimização de preferência direta (DPO), PPO e GRPO. A estrutura trata esses métodos como técnicas de aprendizagem por reforço direto ou simplificado.
Exploração aprofundada dos elementos da aprendizagem por reforço: O artigo explora em profundidade elementos-chave da aprendizagem por reforço, como treinamento online e treinamento offline, supervisão de resultados e supervisão de processos, aprendizagem por reforço de rodada única e aprendizagem por reforço iterativa, por meio de experimentos detalhados, e resume possíveis direções para melhorar a eficácia do aprendizado por reforço.
Algoritmo GRPO (Group Relative Policy Optimization)

Limitações de PPO: PPO é um algoritmo de aprendizagem por reforço comumente usado, mas requer treinamento modelo crítico adicional para estimar a função de valor, que impõe uma carga computacional e de memória adicional. Além disso, no cenário LLM, O treinamento do modelo crítico pode ser complicado porque requer avaliação a saída de cada token.
Ideia central do GRPO: A ideia central do GRPO é abandonar o modelo Crítico e, em vez disso, usar a pontuação média de um conjunto de saídas para o mesmo problema como uma linha de base. Esta linha de base pode ser usada para estimar a função de vantagem e para otimização de políticas. Essa abordagem reduz significativamente a complexidade do treinamento.
Cálculo da função de vantagem: O GRPO calcula a função de vantagem por calcular a classificação relativa de cada saída no mesmo conjunto de saídas, em vez de depender de uma função de valor separada como em PPO.
Penalidade por divergência de KL: GRPO não adiciona uma penalidade de divergência KL à recompensa como PPO, mas em vez disso adiciona a divergência KL entre o modelo de política e o modelo de referência diretamente à função de perda. Isso evita o cálculo complexo da função de vantagem.
A ideia central do GRPO
não requer um Crítico (função de valor): GRPO evita a necessidade de uma função de valor e usa a pontuação dentro do grupo para estimar a linha de base, reduzindo assim os recursos de treinamento.
Vantagem relativa intragrupo: Para cada problema q, o GRPO amostra um conjunto de saídas {o(1), o(2), …, o(G)} da antiga política π(θold) e então otimiza o modelo de política maximizando a seguinte equação como a função objetivo.

Especificamente:

A chave aqui é Â(i,t), que representa a vantagem e é calculado pelo recompensa relativa da produção intragrupo, em vez de depender de uma função de valor separada como no PPO.

A função objetivo também adiciona diretamente Divergência KL como um termo de regularização para controlar a magnitude de atualizações de políticas

e alinhar-se com a natureza de comparação do modelo de recompensa: O GRPO usa a recompensa intragrupo relativa para calcular a vantagem, o que é mais consistente com a natureza do modelo de recompensa, que geralmente é treinado com base na comparação entre pares.
Como o modelo de recompensa do GRPO pode ser projetado (consulte DeepSeek R1)?
Características:
formato de recompensa: força a geração de longa berço resultados, que podem levar o modelo a gerar processos de inferência e melhorar o efeito de inferência do modelo.
recompensa de precisão: a matemática pode usar o resultado final, e o código pode usar o feedback do compilador.
Vantagens do GRPO
Menor consumo de memória: nenhum modelo Critic necessário, reduzindo os requisitos de memória.
Treinamento mais eficiente: o cálculo usando vantagem relativa intragrupo simplifica o processo de treinamento.
Mais compatível com a natureza dos modelos de recompensa: melhora a estabilidade e a eficiência do treinamento.
Resumo do paradigma unificado RL
Paradigma Unificado Proposto
Os autores propõem um paradigma unificado para entender diferentes métodos de treinamento, como SFT (Supervised Fine-tuning), RFT (Rejection Sampling Fine-tuning), DPO (Direct Preference Optimization), PPO, GRPO, etc. Elementos-chave da RL: Os principais elementos da estrutura unificada incluem: fontes de dados, funções de recompensa e algoritmos.
- Fonte de dados: Isso se refere aos dados usados para treinamento, que podem ser derivados de rotulagem manual, modelos SFT ou modelos de políticas em tempo real.
- Função de recompensa: Isso se refere à função usada para avaliar a qualidade da saída, que pode ser uma regra ou um modelo.
- Algoritmo: Isso se refere ao método usado para processar os dados e recompensar o sinal e atualizar os parâmetros do modelo.
Análise de diferentes métodos com base em um paradigma unificado
A Tabela 10 resume as semelhanças e diferenças entre SFT, RFT, DPO, RFT online, PPO e GRPO em termos de fontes de dados, funções de recompensa e coeficientes de gradiente.
Método | Dados de treinamento | Função de recompensa | Coeficiente de gradiente | Método de treinamento | Vantagens/características | Cenários aplicáveis |
SFT | Dados SFT rotulados manualmente | Selecionado manualmente (recompensa implícita) | Fixo para 1 | Aprendizagem supervisionada | Simples e estável, dependente de dados rotulados de alta qualidade | Treinamento básico do modelo, tarefa de alinhamento inicial |
RFT | Problema do conjunto de dados SFT + Saída de amostra do modelo SFT | Com base na correção da resposta (julgamento da regra) | 0 (errado) ou 1 (correto) | Otimização de políticas offline | Cálculo eficiente, uso direto do feedback da regra | Tarefas matemáticas/lógicas com regras claras |
EPD | Problema do conjunto de dados SFT + saída do modelo para | Rotulagem de preferência humana ou comparação de regras | Com base no cálculo da probabilidade de preferência (por exemplo, modelo Bradley-Terry) | Aprendizagem comparativa | Evita modelagem de recompensa explícita, otimizando diretamente as preferências | Tarefas de alinhamento de preferências humanas (por exemplo, geração de diálogo) |
RFT on-line | Amostragem de modelo de política em tempo real pares problema-saída | Com base na correção da resposta (julgamento da regra) | 0 (errado) ou 1 (correto) | Otimização de políticas on-line | Atualiza políticas dinamicamente com otimização de feedback em tempo real | Cenários que exigem interação online (por exemplo, IA de jogos) |
PPO | Problema do conjunto de dados SFT + saída de amostragem do modelo de política | Modelo de recompensa (RM) treinado | Função de dominância (com base na estimativa de recompensa) | Método do gradiente de política | Eficiente e estável, suporta otimização em várias etapas | Tarefas complexas (por exemplo, geração de texto, controle de robôs) |
GRPO | Problema do conjunto de dados SFT + saída de amostragem do modelo de política | Modelo de recompensa (RM) treinado | Recompensa relativa intragrupo (comparação normalizada) | Otimização de política de grupo | Reduzir a variação de recompensa e melhorar a comparação intragrupo | Tarefas com alta variação (por exemplo, geração de texto longo) |
Observações sobre fontes de dados

Treinamento online vs. offline: O treinamento on-line se refere ao uso da saída do modelo de política em tempo real como dados de treinamento, enquanto o treinamento off-line se refere ao uso da saída de um modelo fixo (como o modelo SFT) como dados de treinamento. Os resultados experimentais mostram que O treinamento online é geralmente melhor do que o treinamento offline.
Supervisão de resultados vs supervisão de processos: A supervisão de resultados refere-se a recompensar apenas a etapa final da produção, enquanto a supervisão de processos refere-se a recompensar cada etapa do processo de raciocínio. Os resultados experimentais mostram que a supervisão do processo é mais eficaz em tarefas complexas.
Aprendizagem por reforço de episódio único versus iterativa: Aprendizagem por reforço de episódio único refere-se a uma única otimização de estratégia, enquanto a aprendizagem por reforço iterativa refere-se à atualização contínua do modelo de recompensa após múltiplas otimizações de estratégia. Resultados experimentais mostram que a aprendizagem por reforço iterativo pode melhorar significativamente o desempenho, especialmente na primeira iteração.
Observação de coeficientes de gradiente
Baseado em regras vs. baseado em modelos: Regra se refere à determinação da recompensa com base na correção da resposta, e Modelo se refere ao treinamento de um modelo de recompensa para pontuar.
Diferença nos coeficientes de gradiente: A principal diferença entre GRPO e O RFT online é aquele em que o GRPO ajusta seus coeficientes de gradiente com base nos valores de recompensa fornecidos pelo modelo de recompensa, enquanto o RFT online não.
Vantagens do GRPO: Experimentos mostram que GRPO é superior ao RFT Online, demonstrando a eficácia de alterar o sinal dos coeficientes de gradiente. GRPO+PS é superior ao GRPO+OS, demonstrando os benefícios de usar coeficientes de gradiente de granulação fina e com reconhecimento de etapas.
Eficácia da RL e orientações para melhoria
Por que a RL é eficaz?

Resultados experimentais: RL melhora o desempenho do Maj@K, mas não do Pass@K.
Explicação: A RL melhora o desempenho geral do modelo ao tornar a distribuição de saída mais robusta, ou seja, melhora a probabilidade de respostas corretas no TopK, em vez de aprimorar a capacidade subjacente do modelo.
Como é possível alcançar uma RL mais eficaz?
Com base no paradigma unificado, os autores propõem direções futuras para melhorar a RL em três aspectos: fontes de dados, algoritmos e funções de recompensa.
- Fontes de dados:
- Explore questões além do estágio SFT.
- Use estratégias de amostragem (decodificação) mais avançadas, como métodos baseados em busca em árvore.
- Use técnicas de inferência eficientes para melhorar a eficiência da exploração do modelo de política.
- Algoritmo:
- Explore algoritmos de aprendizagem por reforço que sejam mais robustos a sinais de recompensa ruidosos.
- Estude métodos de alinhamento do tipo FRACO PARA FORTE.
- Função de recompensa:
- Aumente a capacidade de generalização do modelo de recompensa para lidar com problemas fora de distribuição e saídas decodificadas avançadas.
- Reflita a incerteza do modelo de recompensa e use-o como uma ponte para conectar modelos de recompensa fracos e algoritmos de aprendizagem de FRACO PARA FORTE.
- Construa com eficiência modelos de recompensa de processo de alta qualidade para fornecer sinais de treinamento detalhados para o processo de inferência.
Resumo
DeepSeekMath melhorou significativamente a capacidade dos modelos de linguagem de código aberto no raciocínio matemático ao construir um corpus matemático de larga escala e propor um novo algoritmo de aprendizado por reforço. Os destaques deste artigo são
- a construção e validação do Corpus DeepSeekMath, um corpus matemático multilíngue, de alta qualidade e em larga escala.
- Um algoritmo de aprendizado por reforço eficiente, GRPO, é proposto para reduzir o uso de memória e, ao mesmo tempo, melhorar a capacidade de raciocínio matemático do modelo.
- O impacto do treinamento de código na capacidade de raciocínio matemático é discutido em profundidade, e é descoberto que os dados do arXiv têm um efeito limitado. O valor de DeepSeekMath:
- Ele fornece à comunidade de código aberto um poderoso modelo de raciocínio matemático e promove o desenvolvimento de IA matemática.
- Ele fornece experiência e métodos valiosos para construir corpora matemáticos e treinar modelos de raciocínio matemático.
- O algoritmo GRPO proposto fornece novas ideias para treinamento de aprendizagem por reforço em outros campos.