Nos últimos dias, o Deepseek-R1 0528 foi oficialmente tornado de código aberto.
No LiveCodeBench, seu desempenho está quase no mesmo nível do o3 (alto) do OpenAI; no teste de benchmark multilíngue do Aider, ele se mantém em relação ao Claude Opus.
Quando foi lançado no site oficial, testamos rapidamente seus recursos front-end e os consideramos excepcionalmente robustos, o que nos levou aos testes abordados neste artigo. Nosso objetivo é compartilhar com você o desempenho específico de diferentes modelos.
É importante observar que este teste se concentra principalmente nas capacidades do front-end, portanto, é essencial analisar o desempenho de diferentes modelos de forma objetiva. Você pode usar os prompts que fornecemos para conduzir seus próprios testes e compartilhar seus insights e descobertas.
Usando o mesmo prompt, enviamos para Claude Opus 4, Sonnet 4, Gemini 2.5 Pro e DeepSeek R1-0528, e os fez competir em seis tarefas de desenvolvimento front-end cada vez mais desafiadoras.
Para quem não aguenta esperar, aqui está a conclusão:
Deepseek-R1-0528 fica ligeiramente atrás do Opus 4 em recursos front-end, mas tem desempenho superior Soneto 4 e Gemini 2.5 Pro.
Basicamente, qualquer tarefa que o Opus pode concluir, o R1 também pode concluir, e até mesmo tarefas que o Opus 4 não pode concluir, o R1 pode lidar, embora com taxas de conclusão e qualidade de resultado um pouco menores.
Considerando a diferença de preço entre o R1 e os outros três, esse desempenho já é excelente, e só podemos imaginar o quão impressionante o R2 será.
Teste 1: Sistema de Gestão de Armazém
Solicitação: Ajude-me a criar uma ferramenta completa de gerenciamento de produtos baseada na web com os seguintes requisitos:
Requisitos Funcionais
- Gestão de Produtos
- Entrada de informações do produto: Nome do produto, tipo/categoria, número SKU, preço, quantidade em estoque
- Gestão de imagem de produto: Suporte para upload e visualização de imagens (simulado com um seletor de arquivos)
- Exibição da lista de produtos: Exibir todos os produtos em formato de tabela, com suporte para pesquisa e filtro
- Edição de produto: Suporte para modificação de informações do produto
- Exclusão de produto: Suporte para exclusão de produtos (com prompt de confirmação)
- Gestão de estoque
- Operações de entrada: Aumentar a quantidade de estoque de produtos, registrar o tempo de entrada e a quantidade
- Operações de saída: Diminua a quantidade de estoque do produto, registre o tempo de saída e a quantidade
- Registros de inventário: Exibe o histórico de alterações de estoque para cada produto
- Recursos de interface
- Painel de controle: Exibe estatísticas como número total de produtos, valor total do estoque, alertas de estoque baixo, etc.
- Design responsivo: Adaptável a dispositivos desktop e móveis
- Persistência de dados: Usa localStorage para salvar dados
Requisitos técnicos
Estilos e ícones
- Estrutura CSS: Utiliza TailwindCSS 3.0+ CDN
- Biblioteca de ícones: Usa Heroicons ou Feather Icons CDN
- Fonte: Use fontes do Google
Estrutura do código
- Aplicação de página única: HTML + CSS + JavaScript
- Design modular: Divida as funções em diferentes módulos JavaScript
- Formato de dados: Use o formato JSON para armazenar dados do produto
Requisitos de design de interface
- UI moderna:Design de interface simples e bonito
- Esquema de cores: Use combinações profissionais de cores comerciais
- Feedback interativo: Cliques de botões, validação de formulários e outros efeitos interativos
- Validação de formulário: Validação de campo obrigatório, validação de formato de dados
Exemplo de estrutura de dados
Gere um arquivo HTML completo contendo todo o código CSS e JavaScript necessário, garantindo que todos os recursos sejam funcionais e possam ser executados diretamente em um navegador.
Vamos dar uma olhada nos resultados do teste. A lógica é bastante complexa, testando o comprimento do contexto, o senso estético e as capacidades de processamento lógico do modelo.
Neste caso, todos os modelos, exceto o Deepseek, falharam. Tradução de Claude 4 estava bem errado, para ser sincero.
Deepseek-R1-0528: A versão atualizada do R1 é muito poderosa. Como você pode ver, a interface é muito profissional, e você também pode criar novos produtos, realizar operações normais de entrada e saída, e dividir os relatórios de produtos, gerenciamento de estoque e inventário em três páginas, o que é muito claro no geral. Há também uma página de painel dedicada, e ele escreveu alguns dados de exemplo para teste. Os outros modelos não têm dados, e adicionar produtos não funciona, então o teste é completamente impossível.
Claude Opus 4: Começa com uma interface grande, muito simples, usando uma barra de navegação superior em vez da barra lateral comum em plataformas SaaS. Adicionar produtos resulta em um erro ao salvar, impossibilitando os testes.
Soneto 4 de Claude: Em comparação com o Opus 4, a interface é ainda mais básica. Clicar no botão "Adicionar Produto" não responde e nenhum pop-up de formulário aparece. As outras páginas são basicamente apenas marcadores de posição.
Gêmeos 2.5 Pro: A versão do Google é melhor que a do Claude. Permite adicionar produtos e corridas, mas há bugs. Funcionou quando tentei pela primeira vez, mas não quando gravei um vídeo. No entanto, o design de interação do Gemini é bastante complexo, com gerenciamento de estoque e manutenção de registros tudo em uma única tabela, o que adiciona alguma dificuldade.
Teste 2: Editor de animação de pixel
O próximo é um teste de habilidade visual. Pedi que criassem um editor de animação em pixel art usando P5.js, com suporte a modos de movimento, ajuste de formas, tamanhos, velocidades e outras condições dos pontos.
Prompt: Crie um gerador de animação de pixel art interativo em tela cheia baseado em P5.js, atendendo aos seguintes requisitos técnicos:
Principais recursos
- Implementar animação de pixel art em tela cheia usando P5.js, com a animação cobrindo toda a área da janela de visualização
- A área total da grade de pixels deve ser pelo menos 10 vezes a área visível para garantir cobertura total, mesmo no menor espaçamento da grade
- Fornece vários modos de animação: Onda, Pulso, Ondulação, Ruído
- Suporta várias opções de formatos de pontos: círculo, quadrado, cruz, triângulo, losango, etc.
- Todos os painéis de controle são colocados no lado direito da página e podem ser recolhidos na parte inferior em dispositivos móveis
Parâmetros ajustáveis
- Densidade de pontos: controle o número de pontos por linha/coluna
- Tamanho da forma: ajuste o tamanho dos pontos
- Velocidade da animação: controle a velocidade e a amplitude do efeito de animação
- Espaçamento da grade: ajuste a distância entre os pontos
Especificações técnicas
- Use HTML5, TailwindCSS 3.0+ (introduzido via CDN) e P5.js
- Implementar a funcionalidade completa de alternância entre os modos claro/escuro, retornando às configurações padrão do sistema
- O código deve incluir lógica de otimização de desempenho, renderizando apenas pontos dentro da área visível e perto das bordas
- As animações devem ser executadas sem problemas e sem atrasos
Design responsivo
- As páginas devem ser exibidas perfeitamente em todos os dispositivos (celular, tablet, desktop)
- Os painéis de controle devem ser recolhíveis/expansíveis na visualização móvel
- Otimize o layout e os tamanhos de fonte para diferentes tamanhos de tela
- Garanta uma boa experiência de toque em dispositivos móveis
Elementos de interface
- Seletor de modo de animação (onda, pulso, ondulação, ruído)
- Seletor de formas (exibe várias formas com ícones)
- Controles deslizantes: densidade, tamanho, velocidade, espaçamento
- Botão de troca de tema
- Exibir informações de sobreposição de matriz e número total de pontos
Dê uma olhada nos resultados. Para ser sincero, eu não esperava que os outros modelos tivessem um desempenho tão ruim neste teste. Com exceção do Deepseek-R1, as animações dos outros modelos não funcionaram.
Deepseek-R1-0528: Perfeitamente impecável. Todos os botões e controles deslizantes funcionam normalmente, e os pontos se movem suavemente. Ele até adicionou dados de matriz de pontos, e as cores permanecem consistentes após alternar para o modo noturno. O único pequeno problema é que o estado selecionado da seleção de cores apresenta um pequeno problema, mas isso é insignificante em comparação com o desempenho desastroso dos outros modelos.
Claude Opus 4: Boas notícias: tem pixel art. Más notícias: não se move. O conteúdo do lado direito pode ser operado normalmente, mas o esquema de cores fica incorreto após alternar para o modo noturno.
Soneto 4 de Claude: Este é um desastre. Não há pixel art, e até mesmo o estado de seleção dos botões está faltando. Os controles deslizantes são apenas pontos — é melhor usar os componentes padrão.
Gêmeos 2.5 Pro: Também relata um erro sem grade de pixels. O conteúdo do lado direito pode ser operado normalmente e a troca de temas funciona bem, mas os componentes padrão são um pouco feios.
Teste 3: Ferramenta de extração de cores de gradiente de imagem
Esta é uma ferramenta que escrevi anteriormente. Não há muita descrição da lógica, mas há mais descrição do estilo. A função principal é extrair cinco conjuntos de cores de gradiente de uma imagem.
Prompt: Gere uma página web HTML com base no seguinte conteúdo de arquivo, suporte a extração de cinco conjuntos de cores de gradiente de imagens carregadas e permita que os usuários copiem diretamente os cinco conjuntos de cores de gradiente hexadecimal. A função de extração de cores precisa ser implementada.
- Use o design visual estilo NetEase Cloud Music, fundo branco com uma cor semelhante a #FE1110 como destaque
- Dê ênfase a fontes grandes ou números para destacar pontos-chave. Inclua elementos visuais grandes para enfatizar áreas de foco, criando contraste com elementos menores.
- Misture texto em chinês e inglês. Use caracteres chineses grandes e em negrito e texto em inglês menor como acentos.
- Use gráficos simples desenhados em linhas para visualização de dados ou como elementos decorativos.
- Use o gradiente de transparência das cores de destaque para criar um efeito inspirado em tecnologia, mas certifique-se de que cores de destaque diferentes não se misturem.
- Imitar as animações do site oficial da Apple, com animações de ativação de rolagem do mouse
- Os dados podem ser referenciados a partir de componentes de gráficos on-line, com estilos consistentes com o tema
- Use o Framer Motion (via CDN)
- Use HTML5, TailwindCSS 3.0+ (via CDN) e JavaScript necessário
- Use bibliotecas de ícones profissionais, como Font Awesome ou Material Icons (via CDN)
- Evite usar emojis como ícones principais
- O botão de cápsula no canto inferior esquerdo exibe o perfil do autor no Twitter
Neste caso, Claude finalmente fez um ótimo trabalho. Os detalhes e a estética das páginas do Deepseek-R1-0528 são impressionantes, mas a funcionalidade não foi implementada. As páginas do Opus 4 e do Sonnet 4 são mais simples, mas pelo menos funcionais, enquanto as do Gemini não são nada funcionais.
Deepseek-R1-0528: Depois de usar meu prompt novamente, a estética da página do Deepseek é realmente incomparável. Ele também adicionou bastante conteúdo otimizado para SEO à página, como cenários de aplicação e tempos de processamento. Os cartões de exibição com gradiente de cores também são muito detalhados, mas a lógica de seleção de cores não foi implementada.
Claude Opus 4: Desta vez, Claude finalmente não decepcionou, completando a funcionalidade da página, mas o conteúdo é muito básico, com apenas um local para carregar imagens e os resultados, e a lógica de seleção de cores também é ruim. No entanto, pelo menos funciona.
Soneto 4 de Claude: O Sonnet 4 também completou a funcionalidade, e eu até acho que os resultados do Sonnet são melhores que os do Opus, embora ainda não seja tão rico quanto o Deepseek.
Gêmeos 2.5 Pro: Este é o pior. Não só os detalhes e a estética da página são deficientes, como a funcionalidade também não foi implementada e trava na inicialização.
Teste 4: Site de citações diárias sobre ruído branco
O Next é um gerador de citações diárias com ruído branco, perfeito para um plugin de página de nova aba. Ele suporta a reprodução de ruído branco do Spotify, e a página da web exibe
Solicitação: Ajude-me a criar um site de citações diárias simples e elegante com os seguintes requisitos:
Design Visual
- Imagem de fundo: Selecione aleatoriamente imagens de paisagens de alta qualidade dos seguintes links como imagem de fundo
- Links de imagem: XXXX
- Processamento de imagem: Adicione uma máscara preta 25% e um leve desfoque gaussiano para garantir que o texto permaneça claro e legível
- Estilo geral: Minimalista e moderno, com imagens de paisagens como plano de fundo da página para aumentar a imersão
- Use anime.js (introduzido via CDN: JsDelivr jsdelivr.com) para a estrutura de animação, HTML5, TailwindCSS 3.0+ (introduzido via CDN) e JavaScript necessário, e use bibliotecas de ícones profissionais como Font Awesome ou Material Icons (introduzidas via CDN).
Módulo de exibição de tempo
- Principal: Exibir o formato do mês e do dia (por exemplo, “29 de maio”), em uma fonte menor, centralizado
- Segunda fila: Exibe o formato “Semana X · Calendário lunar Xº mês Xº dia” em uma fonte menor
- Centro: Destaca a data atual em fonte branca grande, centralizada
Módulo de exibição de cotações
- Contente: Exibe aleatoriamente citações clássicas de filósofos e escritores chineses e estrangeiros
- Layout: As citações são centralizadas, o tamanho da fonte é moderado e o espaçamento entre linhas é confortável
- Atribuição: “Escritor, XXX” ou “Filósofo, XXX” é exibido no canto inferior direito
- Biblioteca de citações: Contém citações sobre vários tópicos, como motivação, percepções de vida e sabedoria
Função de reprodução de música
- Localização: Canto inferior esquerdo da página, recolhido por padrão
- Contente: Incorporar playlist de ruído branco do Spotify
- Código:
Implementação Técnica
- Design Responsivo: Adaptado para desktop e dispositivos móveis
- Seleção de fonte: Use fontes chinesas elegantes, introduzidas pelo Google Fonts
- Esquema de cores: Use principalmente texto branco para garantir a legibilidade em todos os fundos
- Otimização de Carregamento: Carregamento lento de imagens para melhorar o desempenho da página
Recursos interativos
- Atualização automática: Altera automaticamente a imagem de fundo e a citação todos os dias
- Atualização manual: Fornece um botão de atualização para permitir que os usuários alterem manualmente o conteúdo
Estilo de Redação
- Seleção de Cotações:Prefira citações curtas, positivas e filosóficas
- Estilo de linguagem: Conciso e poderoso, evitando comprimento excessivo
- Classificação Temática: Insights de vida, crescimento inspirador, pensamentos sábios, expressão emocional, etc.
Gere um site HTML/CSS/JavaScript completo de acordo com os requisitos acima, garantindo que a interface seja esteticamente agradável, funcional e proporcione uma boa experiência ao usuário.
Este teste serve apenas para avaliar a compreensão estética de cada modelo. Este tipo de página web orientada para a exibição geralmente é viável.
É preciso dizer que o Claude Opus 4 continua bastante competente nesse quesito, com excelente atenção aos detalhes. O Gemini 2.5 Pro também é bom, inclusive adicionando efeitos de animação às transições de imagem. Deepseek e Sonnet 4 estão no mesmo nível.
Deepseek-R1-0528: Executei o Deepseek primeiro e já achei bastante bom. O primeiro problema com a estética geral foi o botão de música no canto inferior esquerdo, que estava um pouco plano demais. A seção de citações também apresentou problemas — a máscara preta não deveria ter sido adicionada e o alinhamento do texto estava um pouco desalinhado. No entanto, adicionou um efeito de animação para a atualização.
Claude Opus 4: A estética do Opus 4 é realmente impecável. O tamanho e o espaçamento de todas as fontes são muito confortáveis, e as citações de ditados famosos foram tratadas com transparência, tanto no texto da citação quanto nas aspas. Até o player do Spotify foi incorporado a uma interface com animação de expansão/recolhimento. É perfeito.
Soneto 4 de Claude: O efeito do Sonnet 4 é semelhante ao do Deepseek. O botão de reprodução de música, o tamanho do texto, o alinhamento e o espaçamento podem ser otimizados ainda mais.
Gêmeos 2.5 Pro: O efeito do Gemini também é bom, mas remover a sombra do texto o tornaria ainda melhor. A interface do player do Spotify também foi personalizada, e os detalhes do texto estão bons. O efeito de transição é perceptível, com um efeito de alongamento na imagem.
Teste 5: Geração de página do aplicativo Sleep
O próximo passo é o teste do aplicativo móvel. Peça para cada um criar um aplicativo de monitoramento do sono. O prompt especificará a pilha técnica e os requisitos de design, além de exigir a geração de várias páginas interativas.
Prompt: Requisitos de desenvolvimento de aplicativo de monitoramento do sono
Visão geral do projeto
Por favor, ajude-me a criar um aplicativo completo de monitoramento do sono com quatro páginas funcionais principais. A interface deve ser esteticamente agradável e profissional.
Requisitos técnicos da pilha
Tecnologias front-end
– HTML5 – Estrutura da página
– TailwindCSS v3.0+ – Estrutura de estilo (introduzida via CDN)
– JavaScript – Lógica de interação necessária
– Anime.js v4.0.2 – Biblioteca de efeitos de animação
- CDN:
https://cdn.jsdelivr.net/npm/animejs@4.0.2/+esm
Ícones e gráficos
- Biblioteca de ícones: Font Awesome ou Material Icons (CDN)
- Componentes do gráfico: os componentes do gráfico on-line e os estilos devem ser consistentes com o tema
- Visualização de dados: Suporta exibição de gráficos de dados do sono
Requisitos de projeto
Design responsivo
- Layout totalmente responsivo
- Design que prioriza os dispositivos móveis
- Boa exibição em dispositivos desktop e móveis
Efeitos de interação
- Interação de botões: efeito ligeiramente ampliado ao passar o mouse
Interação de formulário: exibir uma borda de gradiente quando o campo de entrada estiver em foco
Interação com o cartão: escurecer a sombra ao pairar
Efeitos de animação: use Anime.js para obter animações de página suaves
Requisitos da página funcional
Gere todas as páginas necessárias para um aplicativo de monitoramento do sono, incluindo, mas não se limitando a:
- Página inicial/painel
- Página de registro de sono
- Página de análise de dados
- Página de configurações
- Outras páginas funcionais relacionadas
Requisitos de saída de código
- Cada página é um arquivo HTML independente
- Estrutura de código clara com comentários completos
- Garantir que todos os links CDN estejam acessíveis
- Forneça código completo e executável
Em termos de lógica e interface móvel, o Cluade Opus 4 demonstrou mais uma vez seu poder, completando múltiplas páginas com boa lógica. Os outros modelos geraram apenas uma única página, mas o Deepseek R1 0528 acertou em cheio em termos de estética, com um estilo elegante. Embora tenha gerado apenas uma única página, era muito completo.
Deepseek-R1-0528: Geramos apenas uma página, mas a estética geral é boa. Os detalhes dos cartões e o manuseio dos ícones são bem feitos, e a página inteira é completa e extensa. Além disso, implementamos um design responsivo para a navegação, resultando em layouts completamente diferentes em dispositivos móveis e desktop.
Claude Opus 4: Realmente poderoso, apenas o Opus4 gerou todas as páginas completamente, mas o design estético dessa vez não é dos melhores, usando lógica de página web, com ícones de navegação muito pequenos.
Soneto 4 de Claude: Gerou apenas uma única página e relatou erros, com design estético ruim, apenas concluindo a tarefa.
Gêmeos 2.5 Pro: O Google sempre faz as coisas de forma diferente. Ele gera cada página individualmente, fornecendo quatro arquivos que não podem interagir entre si. Além disso, todas as páginas relataram erros, com cada página contendo apenas navegação e nenhum conteúdo, o que é bastante decepcionante.
Teste 6: Funcionalidade Complexa — Tetris
Por fim, concluí com um pequeno teste de jogo. Projetei um jogo de Tetris relativamente complexo com blocos especiais, troca de temas, previsão de pouso de blocos, armazenamento de blocos e muito mais — um verdadeiro desafio final.
Solicitação: Ajude-me a criar um jogo de Tetris totalmente funcional e visualmente atraente com os seguintes requisitos:
Principais recursos do jogo
- Mecanismo completo do Tetris: 7 blocos padrão (I, O, T, S, Z, J, L)
- Controles suaves: movimento para a esquerda e para a direita, rotação, queda rápida, queda instantânea
- Sistema de eliminação inteligente: suporta a eliminação de 1 a 4 linhas por vez com efeitos de animação especiais
- Sistema de dificuldade progressiva: aumenta automaticamente a velocidade de queda e o nível com base no número de linhas eliminadas
Recursos avançados
- Sistema de pré-visualização: exibe os blocos next e next-next
- Função Hold: Segure a tecla Hold para armazenar temporariamente o bloco atual. Só pode ser usado uma vez por rodada.
- Blocos Fantasmas: Exibe a posição de pouso dos blocos de forma semitransparente
- Sistema Combo: A limpeza contínua concede pontos extras e efeitos visuais
- Habilidades Especiais:
- Bloqueio de Bombas (limpa a área ao redor)
- Laser Clear (limpa a linha inteira)
- Pausa de tempo (os blocos param de cair por 3 segundos)
Requisitos de design visual
- Interface de IU moderna:
- Fundo gradiente ou efeitos de partículas
- Painel de jogo com efeito de vidro
- Transições suaves de animação
- Design responsivo para diferentes telas
- Efeitos visuais ricos:
- Animação suave de blocos caindo e girando
- Efeitos de explosão ou flash quando eliminado
- Efeito de trepidação da tela quando a combinação é alcançada
- Animação de celebração quando o nível é atualizado
- Sistema temático: Pelo menos 3 temas visuais diferentes para alternar entre
Sistema de efeitos sonoros
- Feedback de som completo: movimento, rotação, aterrissagem, eliminação, fim de jogo, etc.
- Música de fundo: música de fundo do jogo em loop
- Controle de volume: efeitos sonoros e volume da música de fundo ajustáveis independentemente
Modos de jogo
- Modo clássico: jogabilidade tradicional do Tetris
- Modo por tempo limitado: atingir a pontuação mais alta dentro de um limite de tempo especificado
- Modo desafio: obstáculos predefinidos para aumentar a dificuldade
- Modo Zen: sem pressão de tempo, puro prazer do jogo
Recursos de estatísticas de dados
- Estatísticas em tempo real: pontuação atual, nível, número de linhas limpas, tempo de jogo
- História: maior pontuação, melhor nível, tempo total de jogo
- Sistema de conquistas: desbloquear várias conquistas do jogo
- Armazenamento local: salvar registros e configurações do jogo
Requisitos técnicos
- Utiliza HTML5/CSS3/JavaScript puro, sem necessidade de estruturas externas
- Estrutura de código clara: programação orientada a objetos, design modular
- Otimização de desempenho: animação suave de 60 FPS, sem atrasos
- Compatibilidade: suporta navegadores modernos convencionais
- Design responsivo:Compatível com PCs e dispositivos móveis
Experiência do usuário
- Instruções intuitivas: Tutorial integrado e prompts de botão
- Função de pausa/retomada:Pause o jogo a qualquer momento
- Menu de configurações: Ajuste a dificuldade do jogo, efeitos sonoros, efeitos visuais, etc.
- Salvamento do estado do jogo: Suporta salvar e retomar o jogo
Requisitos de qualidade do código
- Comentários detalhados: Cada função e segmento de código importante deve ter uma descrição
- Tratamento de erros: Mecanismo abrangente de captura e tratamento de exceções
- Código elegante: Siga as melhores práticas, fáceis de entender e manter
- Extensibilidade: Fácil de adicionar novos recursos no futuro
Forneça arquivos HTML completos contendo todos os códigos CSS e JavaScript para garantir que possam ser executados diretamente em um navegador. O código deve demonstrar habilidades profissionais de programação e um profundo conhecimento de desenvolvimento de jogos.
No minijogo, Claude tem algo acontecendo. Tanto Opus quanto Sonnet geraram os blocos de Tetris correspondentes conforme necessário, especialmente a lógica para blocos especiais. Deepseek tratou do tema que Claude ignorou, mas deixou passar os blocos especiais, resultando no Gemini 2.5 Pro gerando blocos impossíveis de jogar.
Deepseek-R1-0528: A tarefa foi concluída muito bem e de acordo com as especificações, mas o design especial do bloco foi omitido e nem sequer implementado. Isso pode ser devido a problemas com o acompanhamento das palavras do prompt. A página inteira se assemelha a uma interface de jogo, com todos os botões aparecendo como componentes padrão.
Claude Opus 4: Concluí a lógica para blocos especiais e outras lógicas sem problemas, mas ignorei o prompt para troca de tema, que ele não implementou. Comparado aos problemas do DeepSeek, este é um problema menor, mas a interface é codificada sem lógica responsiva, então as proporções estão um pouco desbalanceadas, tornando alguns botões impossíveis de clicar.
Soneto 4 de Claude: Semelhante ao Opus, mas acho que o Soneto 4 é melhor que o Opus. A adaptação da página também é boa. Parece que o Soneto venceu, pois completou todas as funções necessárias.
Gêmeos 2.5 Pro: Gemini tem dificuldades constantes com lógica complexa. Desta vez, foi completamente inutilizável porque o posicionamento dos blocos tinha um bug, tornando impossível prever onde eles cairiam. É o pior.
Acho que agora você está tão surpreso quanto eu com o desempenho do DeepSeek-R1.
É difícil acreditar que se trata apenas de uma pequena atualização do modelo. Vamos comparar os preços desses modelos com o DeepSeek R1 0528.
O Opus 4 é 30 vezes mais caro, e isso usando os preços do Openrouter — o preço oficial seria ainda mais surpreendente.
modelo | Comprimento do contexto | Preço de entrada (tokens $/M) | Preço de saída (tokens $/M) | preço da imagem ($/K tokens) |
DeepSeek R1 0528 | 160 mil | 0.50 | 2.18 | – |
Prévia do Gemini 2.5 Pro | 1000 mil | 1.25 | 10 | 5.16 |
Soneto 4 de Claude | 200 mil | 3.00 | 15 | 4.80 |
Claude Opus 4 | 200 mil | 15.00 | 75 | 24.00 |
Como alguém que lida diariamente com notícias sobre IA, testemunhei inúmeros "avanços" que, no fim das contas, se revelaram "decepcionantes". Mas desta vez é diferente. O DeepSeek-R1 me deu uma esperança real.
Uma diferença de preço de 30 vezes, mas um desempenho quase equivalente.
Não precisamos mais pagar preços exorbitantes para usar os melhores modelos de programação de IA, nem precisamos fazer escolhas dolorosas entre custo e qualidade. O que é ainda mais inspirador é que este é o nosso próprio modelo.
Esta frase foi escrita pela IA e eu acho isso ótimo: A verdadeira revolução geralmente começa quando pessoas comuns conseguem alcançar as estrelas.