O Modelo DeepSeek R1 passou por uma pequena atualização de versão, sendo a versão atual DeepSeek-R1-0528. Ao acessar a página ou o aplicativo DeepSeek, ative o recurso "Pensamento Profundo" na interface de diálogo para experimentar a versão mais recente.
Os pesos do modelo DeepSeek-R1-0528 foram enviados para o HuggingFace

Nos últimos quatro meses, o DeepSeek-R1 passou por uma superevolução, alcançando capacidades de codificação fora do comum e tempos de raciocínio significativamente maiores. Embora possa não ser o DeepSeek-R2 como todos esperavam, as melhorias no modelo DeepSeek-R1-0528 são substanciais.
Segundo relatos, o novo modelo é treinado em DeepSeek-V3-0324 (com parâmetros 660B).
Vamos primeiro dar uma olhada rápida nas principais atualizações desta versão por meio de uma tabela
Dimensão de Capacidade | deepseek-R1 | Deepseek-R1-0528 |
Contexto Máximo | 64k (API) | 128K(API)ainda mais |
Geração de código | liveCodeBench fecha openai O1 | Perto de O3 |
Profundidade do raciocínio | Perguntas complexas exigem prompts segmentados. | Suporta 30 a 60 minutos de pensamento profundo |
Naturalidade da Linguagem | bastante longo | Estrutura compacta, escrita semelhante ao O3 |
Custo de uso | Código aberto ou API$0.5/M | Código aberto ou API$0.5/M |
Capacidades aprimoradas de pensamento profundo
O DeepSeek-R1-0528 ainda usa o modelo DeepSeek V3 Base lançado em dezembro de 2024 como base, mas durante o pós-treinamento, mais poder de computação foi investido, melhorando significativamente a profundidade de pensamento e as capacidades de raciocínio do modelo.
O modelo R1 atualizado alcançou o melhor desempenho entre todos os modelos nacionais em diversas avaliações de benchmark, incluindo matemática, programação e lógica geral, e seu desempenho geral agora está no mesmo nível de outros modelos internacionais de primeira linha, como o3 e Gemini-2.5-Pro.
- Capacidades de matemática e programação: Na competição de matemática AIME 2025, a precisão melhorou de 70% na versão anterior para 87,5%; as capacidades de geração de código no teste de benchmark LiveCodeBench estão quase no mesmo nível do modelo o3-high da OpenAI, alcançando uma pontuação de pass@1 em 73,3%.
Testes de usuários mostram que o novo DeepSeek-R1 é simplesmente surpreendente em programação!
O especialista em IA “karminski-dentist” testou DeepSeek-R1-0528 e Claude 4 Sonnet usando o mesmo prompt e descobriu que:

Seja o reflexo difuso da luz em uma parede, a direção do movimento da bola após o impacto ou o apelo estético de um painel de controle, o R1 supera claramente a concorrência.
O usuário Haider fez com que o modelo construísse um sistema de pontuação de palavras. R1 considerou brevemente a tarefa e imediatamente produziu dois arquivos — um para código e outro para teste de trabalho — que funcionaram perfeitamente na primeira tentativa.

Anteriormente, o3 era o único modelo capaz de realizar essa tarefa. Agora, R1 é, sem dúvida, o melhor modelo para essa tarefa.
Observe que o desempenho do R1 é tão notável porque os dois arquivos que ele retorna são executados perfeitamente na primeira tentativa, sem nenhuma edição ou nova tentativa, o que é extremamente raro.
Anteriormente, a maioria dos modelos terminava em casos extremos, complicava demais a solução ou não tinha cobertura de teste adequada.
- Profundidade de inferência: tempo de pensamento em tarefas únicas estendido para 30 a 60 minutos, com capacidades de resolução de problemas significativamente aprimoradas para questões complexas (por exemplo, simulações de física, quebra-cabeças lógicos de várias etapas).
O maior tempo de raciocínio se tornou o recurso mais discutido online. Alguns usuários relataram que o tempo de raciocínio do R1 ultrapassou 25 minutos em testes reais.

Além disso, este parece ser o único modelo capaz de responder corretamente e consistentemente à pergunta "Quanto é 9,9 menos 9,11?"


DeepSeek-R1-0528 obteve excelente desempenho em todos os conjuntos de dados de avaliação
Em comparação com a versão anterior do R1, o novo modelo apresenta melhorias significativas em tarefas de raciocínio complexas. Por exemplo, no teste AIME 2025, a taxa de precisão do novo modelo aumentou de 70% para 87,5%.
Essa melhoria se deve à maior profundidade de raciocínio no modelo: no conjunto de testes AIME 2025, o modelo antigo usava uma média de 12 mil tokens por pergunta, enquanto o novo modelo usava uma média de 23 mil tokens por pergunta, indicando um pensamento mais detalhado e aprofundado no processo de resolução de problemas.
Além disso, a equipe deepseek destilou a cadeia de raciocínio de DeepSeek-R1-0528 e ajustou a Base Qwen3-8B, resultando em DeepSeek-R1-0528-Qwen3-8B.
Este modelo 8B ficou em segundo lugar, atrás apenas do DeepSeek-R1-0528 no teste de matemática AIME 2024, superando o Qwen3-8B (+10,0%) e igualando o Qwen3-235B.
As cadeias de raciocínio do DeepSeek-R1-0528 terão implicações significativas para a pesquisa acadêmica sobre modelos de raciocínio e desenvolvimento industrial de modelos de pequena escala.
Alguns internautas elogiaram DeepSeek-R1 por ser capaz de corrigir cadeias de raciocínio como o3 e construir mundos criativamente como Claude.

É importante observar que DeepSeek é um modelo de código aberto, marcando uma grande vitória para modelos de código aberto.

Resultados da comparação AIME 2024 para modelos de código aberto, como DeepSeek-R1-0528-Qwen3-8B
Outras atualizações de recursos
- Melhoria na alucinação: A nova versão do DeepSeek R1 otimizou o desempenho para problemas de "alucinação". Em comparação com a versão anterior, o modelo atualizado alcança uma redução de 45–50% nas taxas de alucinação em tarefas como reescrever e refinar, resumir e compreender a leitura, fornecendo resultados mais precisos e confiáveis.
- Escrita criativa: com base na versão anterior R1, o modelo R1 atualizado foi otimizado ainda mais para estilos de escrita de ensaios, romances e prosas, permitindo gerar trabalhos mais longos e estruturalmente mais completos, ao mesmo tempo em que apresenta um estilo de escrita mais alinhado às preferências humanas.
- Invocação de ferramentas: DeepSeek-R1-0528 suporta invocação de ferramentas (a invocação de ferramentas não é suportada no pensamento). As pontuações de avaliação Tau-Bench do modelo atual são 53,51 TP11T para companhias aéreas e 63,91 TP11T para varejo, comparáveis ao OpenAI o1-high, mas ainda atrás do o3-high e do Claude 4 Sonnet.
O exemplo mostra um resumo de artigo da web gerado usando o recurso de invocação de ferramenta do DeepSeek-R1-0528 via LobeChat. Além disso, o DeepSeek-R1-0528 foi atualizado e aprimorado em áreas como geração de código front-end e interpretação de papéis.

O exemplo mostra um aplicativo de cartão de palavras moderno e minimalista desenvolvido usando HTML/CSS/JavaScript invocando DeepSeek-R1-0528 em uma página da web.

Principais destaques da atualização DeepSeek-R1-0528
- Capacidades de raciocínio profundo comparáveis aos modelos do Google
- Otimização da geração de texto: mais natural e melhor formatado
- Estilo de raciocínio único: não apenas mais rápido, mas também mais rigoroso
- Suporte para pensamento de longo prazo: o tempo de processamento de uma única tarefa pode chegar a 30–60 minutos

Testamos os recursos da nova versão do DeepSeek-R1. Embora seja uma atualização de "versão secundária", seu desempenho foi aprimorado de forma "épica".
Especialmente em termos de recursos de programação, parece ter superado ou estar no mesmo nível do Claude 4 e do Gemini 2.5 Pro. Todos os prompts são "de uma só vez", sem necessidade de modificações! E pode ser executado diretamente em um navegador web para demonstrar seus recursos.
Você pode sentir claramente que o processo de pensamento da nova versão DeepSeek-R1 é mais estável.
Você pode fazer qualquer pergunta ao deepseek-R1 para saber a resposta, mesmo que a sua pergunta seja um pouco sem sentido, ele ainda pensará com cuidado e organizará a lógica. Recomendamos fortemente que você experimente o modelo mais recente do deepseek-R1.
Informações de atualização da API
A API foi atualizada, mas a interface e os métodos de chamada permanecem inalterados. A nova API R1 ainda suporta a visualização do processo de raciocínio do modelo e agora também suporta Chamadas de Função e JsonOutput.
A equipe do deepseek ajustou o significado do parâmetro max_tokens na nova API R1: max_tokens agora limita o comprimento total da saída única do modelo (incluindo o processo de pensamento), com um valor padrão de 32 K e um máximo de 64 K. Os usuários da API são aconselhados a ajustar o parâmetro max_tokens imediatamente para evitar que a saída seja truncada prematuramente.
Para obter instruções detalhadas sobre o uso do modelo R1, consulte o Guia da API deepseek R1:
Após a atualização da versão R1, o comprimento do contexto do modelo no site oficial, miniprograma, aplicativo e API permanecerá em 64K. Caso os usuários necessitem de um comprimento de contexto maior, poderão acessar a versão de código aberto do modelo R1-0528 com um comprimento de contexto de 128K por meio de outras plataformas de terceiros.
Código aberto
O DeepSeek-R1-0528 usa o mesmo modelo base do DeepSeek-R1 anterior, com apenas melhorias feitas nos métodos de pós-treinamento.
Ao implantar de forma privada, apenas o checkpoint e o tokenizer_config.json (alterações relacionadas a chamadas de ferramentas) precisam ser atualizados. Os parâmetros do modelo são 685 KB (dos quais 14 KB são para a camada MTP), e a versão de código aberto tem um comprimento de contexto de 128 KB (o comprimento de contexto de 64 KB é fornecido para web, aplicativo e API).