O DeepSeek R1 ficou em primeiro lugar no teste de redação criativa, e o o3 mini foi ainda pior do que o o1 mini!

O DeepSeek R1 ganhou o campeonato no teste de benchmark de escrita de contos criativos, superando com sucesso o jogador dominante anterior, o Claude 3.5 Sonnet!

Índice

Teste de benchmark

O teste de referência elaborado pelo pesquisador Lech Mazur não é um concurso de redação comum.

Cada modelo de IA teve de completar 500 contos, e cada conto teve de incorporar de forma inteligente 10 elementos atribuídos aleatoriamente. Essa foi uma tarefa desafiadora de escrita aberta para a IA, que não só exigiu um enredo completo, mas também garantiu que todos os elementos atribuídos fossem naturalmente integrados

Método de julgamento

Esse teste de referência usa um sistema de pontuação exclusivo: seis dos principais modelos de linguagem atuam como juízes, pontuando vários aspectos da história. Em outras palavras, os líderes do setor de IA estão julgando a própria IA, o que, em geral, proporciona um padrão de avaliação relativamente justo e sistemático.

Conteúdo do teste

O gráfico acima mostra a análise de correlação das pontuações no teste de referência de redação criativa. DeepSeek tem um coeficiente de correlação de mais de 0,93 com outros modelos principais (Claude, GPT-4o, Gemini e Grok), indicando que ele tem critérios de julgamento altamente consistentes com outros modelos principais ao julgar a qualidade da redação criativa, o que indiretamente confirma sua confiabilidade nesse teste.

O gráfico acima mostra os resultados do teste de benchmark de redação de contos criativos. Cada modelo de IA foi solicitado a escrever 500 histórias, sendo que cada uma delas deve conter 10 elementos aleatórios especificados. Os pontos no gráfico mostram a distribuição da pontuação de cada modelo de IA participante para diferentes modelos de pontuação (representados por cores diferentes).

No teste, Profundo S eek (pontos azuis escuros) teve um bom desempenho, com a maioria de seus pontos de pontuação concentrada na metade superior do gráfico e relativamente concentrada, mostrando um nível alto e estável de habilidade de redação criativa.

Esse desempenho excepcional permitiu que ele superasse com sucesso o campeão anterior, o Claude 3.5 Sonnet, e se tornasse o novo líder em testes de benchmark.

Nesse gráfico, cada linha representa um modelo de IA e cada coluna representa uma dimensão de avaliação (como caracterização, coerência do gráfico etc.). O DeepSeek está localizado na parte superior central do gráfico, com uma tonalidade laranja-amarela geral, indicando que obteve excelentes resultados na maioria das dimensões de avaliação. Em particular, obteve pontuações altas de quase 8 pontos nas dimensões-chave de execução (Q6), caracterização (TA) e desenvolvimento do enredo (TJ). Embora possa não ser o amarelo mais brilhante em dimensões individuais, não apresenta nenhum ponto fraco evidente.

Como você pode ver no gráfico, as pontuações das histórias do DeepSeek estão distribuídas principalmente entre 7 e 9 pontos, e a distribuição é relativamente concentrada. É interessante notar que sua linha de tendência é quase horizontal, indicando que a qualidade da história do DeepSeek não está intimamente relacionada ao tamanho da história. Em outras palavras, quer esteja escrevendo uma história longa ou uma história curta, o DeepSeek pode manter um resultado consistentemente de alta qualidade. Isso mostra que O DeepSeek se concentra mais na qualidade do que na quantidade ao criar, e pode manter um excelente desempenho em histórias de diferentes durações.

Por que DeepSeek R1 vencer?

A julgar pelos resultados dos testes, o DeepSeek R1 teve um desempenho surpreendente:

Recursos abrangentes de integração de histórias: O R1 demonstrou flexibilidade e criatividade incríveis ao lidar com diferentes combinações de elementos da história.
Qualidade de saída estável: A julgar pelo gráfico de distribuição de pontuação, o R1 não só teve uma pontuação média alta, mas também um desempenho estável com menos flutuação.
Desempenho criativo excepcional: Nesse teste de benchmark, as histórias criadas pelo R1 foram classificadas entre as três primeiras no geral, o que prova sua excelente capacidade de escrita criativa.

Como foi o desempenho dos outros participantes?

Além do emocionante confronto entre o DeepSeek R1 e o Claude 3.5 Sonnet, o desempenho de outros modelos também merece destaque:

A série Gemini teve um bom desempenho
A série Llama 3.x teve um pouco de dificuldade nesse teste
O o3-mini não teve um bom desempenho, ficando em 22º lugar

Finalmente

O avanço do DeepSeek R1 nesse teste nos mostrou as infinitas possibilidades da IA no campo da criatividade. Embora a criação de IA ainda esteja no caminho do aprimoramento contínuo, esses resultados já nos deixaram cheios de expectativas para o futuro.

Para quem quiser saber mais sobre os detalhes do teste, visite o GitHub de Lech Mazur para obter os dados completos e exemplos das melhores histórias. Vamos esperar juntos por mais avanços na escrita criativa com IA!

Publicações semelhantes

Sem categoria

OpenAI o3-mini vs. DeepSeek-R1: quem é o rei da nova geração de modelos de IA?

Porzddeepseeker fevereiro 1, 2025fevereiro 1, 2025

O o3-mini está aqui, com o ímpeto de um desafiante Em 31 de janeiro, a OpenAI lançou o novíssimo modelo grande o3-mini e forneceu algumas de suas funções gratuitamente a todos os usuários do ChatGPT. Embora haja um limite no número de consultas, isso permite que os usuários experimentem o mais recente modelo comercial da OpenAI o mais rápido possível....

Sem categoria

Cathie Wood: DeepSeek está apenas acelerando o processo de redução de custos; a estrutura de mercado extremamente concentrada comparável à Grande Depressão mudará

Porzddeepseeker 8 de fevereiro de 20258 de fevereiro de 2025

Destaques A competição com DeepSeek é boa para os EUA Cathie Wood: Acho que isso mostra que o custo da inovação está caindo drasticamente, e que essa tendência já começou. Por exemplo, antes do DeepSeek, o custo do treinamento de inteligência artificial caiu em 75% por ano, e o custo da inferência caiu até 85% para…

Sem categoria

Tecnologia DeepSeek-R1 revelada: os princípios básicos do artigo são detalhados e a chave para o desempenho inovador do modelo é revelada

Porzddeepseeker 9 de fevereiro de 20259 de fevereiro de 2025

Hoje compartilharemos DeepSeek R1, Título: DeepSeek-R1: Incentivando a capacidade de raciocínio em LLMs via Aprendizado por Reforço: Incentivando a capacidade de raciocínio de LLM via aprendizado por reforço. Este artigo apresenta a primeira geração de modelos de raciocínio do DeepSeek, DeepSeek-R1-Zero e DeepSeek-R1. O modelo DeepSeek-R1-Zero foi treinado por meio de aprendizado por reforço (RL) em larga escala sem ajuste fino supervisionado (SFT) como uma etapa inicial,…

Sem categoria

a16z diálogo com CEO de 27 anos: AI Agent tem um enorme efeito de alavancagem e os preços de longo prazo estarão vinculados aos custos de mão de obra

Porzddeepseeker 8 de fevereiro de 20258 de fevereiro de 2025

Destaques O AI Agent remodela a experiência do cliente Jesse Zhang: Como um Agent é realmente construído? Nossa visão é que, com o tempo, ele se tornará cada vez mais como um Agent baseado em linguagem natural, porque é assim que os modelos de linguagem grande (LLMs) são treinados. A longo prazo, se você tiver um agente superinteligente que…

Sem categoria

Como o DeepSeek foi criado? Uma análise do histórico de crescimento do DeepSeek

Porzddeepseeker fevereiro 3, 2025fevereiro 3, 2025

No futuro, haverá cada vez mais inovações radicais. Pode não ser fácil de entender agora, porque todo o grupo social precisa ser educado por fatos. Quando essa sociedade permitir que as pessoas que inovam de forma radical tenham sucesso, a mentalidade coletiva mudará. Só precisamos de um monte de fatos e um processo....

Sem categoria

O segredo por trás do DeepSeek 1 | DeepSeekMath e detalhes do GRPO

Porzddeepseeker 9 de fevereiro de 20259 de fevereiro de 2025

Hoje eu gostaria de compartilhar um artigo do DeepSeek, intitulado DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. Este artigo apresenta o DeepSeekMath 7B, que é pré-treinado no DeepSeek-Coder-Base-v1.5 7B com base em uma coleção de 120B tokens relacionados à matemática, linguagem natural e dados de código. O modelo alcançou uma pontuação surpreendente de 51,7% em nível competitivo…

Teste de benchmark

Método de julgamento

Conteúdo do teste

Por que DeepSeek R1 vencer?

Como foi o desempenho dos outros participantes?

Finalmente

Publicações semelhantes

Deixe um comentário Cancelar resposta