O Google lançou três novos modelos de uma vez: Gemini-2.0-Pro é gratuito, tem uma pontuação excelente e está em primeiro lugar, e é adequado para codificação e processamento de prompts complexos!

A história de Gêmeos n eu 2.0 está acelerando.

A versão experimental do Flash Thinking em dezembro trouxe aos desenvolvedores um modelo funcional com baixa latência e alto desempenho.

No início deste ano, o Flash Thinking Experimental 2.0 foi atualizado no Google AI Studio para melhorar ainda mais o desempenho, combinando a velocidade do Flash com recursos de inferência aprimorados.

Na semana passada, a versão atualizada 2.0 do Flash foi totalmente lançada nos aplicativos móveis e de desktop do Gemini.

Hoje, três novos membros foram revelados ao mesmo tempo: a versão experimental do Gemini 2.0 Pro, que até agora teve o melhor desempenho em codificação e prompts complexos, o econômico 2.0 Flash-Lite e a versão aprimorada para raciocínio lógico 2.0 Flash Thinking.

Gemini 2.0 Pro está em primeiro lugar em todas as categorias. Gemini-2.0-Flash está entre os três primeiros em codificação, matemática e quebra-cabeças. Flash-lite está entre os dez primeiros em todas as categorias.

Um gráfico de comparação das habilidades dos três modelos:

Todos os modelos suportam entrada e saída de texto multimodal.

Mais habilidades modais estão a caminho. Gráfico de força do modelo na área de codificação

Mapa de calor da taxa de vitória

O Google trata os usuários gratuitos melhor do que o OpenAI trata os usuários Plus. Acesso gratuito ao Gemini 2.0 Pro Experimental no AI Studio:

Clique para reproduzir

O serviço Deepseek sempre exibe um erro de espera… Lembre-se de que o primeiro modelo livre de inferência também foi o Flash Thinking 2.0, que foi usado no Google aistudio.

Além disso, há o versão web do Gemini:

Há também um modelo de inferência conectado (então por que separá-lo…)

O Google lançou a versão experimental do Gemini 2.0 Pro, e a melhoria nos testes de benchmark oficiais é bastante impressionante.

Ele tem os recursos de codificação mais poderosos e a capacidade de processar solicitações complexas, além de ter uma melhor capacidade de entender e raciocinar sobre o conhecimento do mundo do que qualquer modelo lançado pelo Google até agora.

Ele tem a maior janela de contexto (200k, e meu contexto longo é uma vantagem relativamente grande do modelo Gemini), o que lhe permite analisar e entender de forma abrangente uma grande quantidade de informações e chamar ferramentas como a pesquisa do Google e a execução de código.

No teste de MATH, ele alcançou 91,81 TP11T, um aumento de cerca de 5 pontos percentuais em relação à versão 1.5. A capacidade de raciocínio do GPQA atingiu 64,71 TP11T, e o teste de conhecimento de mundo do SimpleQA chegou a 44,31 TP11T.

O mais notável é a capacidade de programação. Ele atingiu 36,0% no teste LiveCodeBench, e a precisão da conversão Bird-SQL excedeu 59,3%. Juntamente com a janela de contexto supergrande de 2 milhões de tokens, é o suficiente para lidar com as tarefas de análise de código mais complexas.

Você pode experimentar no cursor.

A capacidade de compreensão multilíngue também é impressionante, com uma pontuação de teste Global MMLU de 86,5%. A compreensão de imagem MMMU é 72,7%, e a capacidade de análise de vídeo é 71,9%.

Gemini 2.0 Flash-Lite é um equilíbrio interessante.

Ele mantém a velocidade e o custo de 1,5 Flash, mas traz melhor desempenho. A janela de contexto com 1 milhão de tokens permite que ele processe mais informações.

O mais prático é sua relação preço/desempenho: a geração de legendas para 40.000 fotos custa menos que $1. Isso torna a IA mais pé no chão.

O blogueiro Shrivastava mencionou: A codificação do Gemini 2.0 Pro é uma loucura!

Dica: use Three.js para criar uma simulação do sistema solar. Adicione uma escala de tempo, um menu suspenso de foco, mostre órbitas e mostre rótulos. Crie tudo em um arquivo para que eu possa colá-lo em um editor online e visualizar a saída.

Além disso, alguns usuários mencionaram que o Gemini 2.0 Flash produziu melhores resultados em um de seus próprios testes de paradoxo:

Por fim, o Google mencionou que a segurança do Gemini 2.0, não apenas o patch, está no centro do design desde o início.

Deixe o modelo aprender a ser autocrítico. Use o aprendizado por reforço para deixar o Gemini avaliar suas próprias respostas e fornecer feedback mais preciso. Isso o torna mais robusto ao lidar com tópicos sensíveis.

O teste automatizado da equipe vermelha é interessante. Ele é projetado especificamente para evitar a injeção de palavras de prompt indiretas, o que é como equipar a IA com um sistema imunológico para evitar que alguém esconda comandos maliciosos nos dados.

Sem categoria

DeepSeek TOP17 Melhores Alternativas: Análise Abrangente (2025)

Pordeepseeker 6 de fevereiro de 20256 de fevereiro de 2025

Introdução No cenário de rápida evolução da inteligência artificial, o DeepSeek surgiu como um poderoso modelo de linguagem. Esta análise abrangente explora as 17 principais alternativas ao DeepSeek, examinando seus recursos, capacidades e casos de uso exclusivos. Nossa pesquisa se concentra em plataformas internacionais e chinesas que oferecem integração ao DeepSeek ou capacidades semelhantes. Análise das principais alternativas 1….

Sem categoria

Altman: Estávamos errados sobre a IA de código aberto! O DeepSeek tornou o OpenAI menos vantajoso, e o próximo é o GPT-5

Porzddeepseeker fevereiro 1, 2025fevereiro 1, 2025

O o3-mini chegou tarde da noite, e a OpenAI finalmente revelou seu mais recente trunfo. Durante uma sessão de perguntas e respostas do Reddit AMA, Altman confessou profundamente que estava do lado errado da IA de código aberto. Ele disse que a estratégia interna de código aberto está sendo considerada, e o modelo continuará a ser desenvolvido, mas...

Sem categoria

Interpretação do artigo DeepSeek R1 e principais pontos técnicos

Porzddeepseeker 9 de fevereiro de 20259 de fevereiro de 2025

1 Contexto Durante o Festival da Primavera, o DeepSeek R1 atraiu novamente grande atenção, e até mesmo o artigo de interpretação do DeepSeek V3 que escrevemos anteriormente também foi retransmitido e muito discutido. Embora tenha havido muitas análises e reproduções do DeepSeek R1, aqui decidimos compilar algumas notas de leitura correspondentes. Usaremos três…

Sem categoria

Últimas notícias! Pesquisador DeepSeek revela online: o treinamento R1 levou apenas duas a três semanas, e uma evolução poderosa do R1 zero foi observada durante o feriado do Ano Novo Chinês

Porzddeepseeker 4 de fevereiro de 20254 de fevereiro de 2025

Últimas notícias! Pesquisador do DeepSeek revela online: o treinamento do R1 levou apenas duas a três semanas, e uma evolução poderosa do R1 zero foi observada durante o feriado do Ano Novo Chinês Agora mesmo, notamos que o pesquisador do DeepSeek Daya Guo respondeu às perguntas dos internautas sobre o DeepSeek R1 e os planos da empresa para o futuro. Só podemos dizer...

Sem categoria

Cathie Wood: DeepSeek está apenas acelerando o processo de redução de custos; a estrutura de mercado extremamente concentrada comparável à Grande Depressão mudará

Porzddeepseeker 8 de fevereiro de 20258 de fevereiro de 2025

Destaques A competição com DeepSeek é boa para os EUA Cathie Wood: Acho que isso mostra que o custo da inovação está caindo drasticamente, e que essa tendência já começou. Por exemplo, antes do DeepSeek, o custo do treinamento de inteligência artificial caiu em 75% por ano, e o custo da inferência caiu até 85% para…

Sem categoria

No círculo da IA, o DeepSeek R1 tem superado constantemente o o1 e o Claude em testes físicos, e entramos na era de ouro da RL.

Porzddeepseeker fevereiro 1, 2025fevereiro 1, 2025

Nenhum de nós esperava que seria assim que 2025 começaria no campo da IA. O DeepSeek R1 é realmente incrível! Recentemente, o "misterioso poder oriental" DeepSeek vem "controlando duramente" o Vale do Silício. Pedi ao R1 que explicasse o teorema de Pitágoras em detalhes. Tudo isso foi feito pela IA em menos de 30 segundos, sem qualquer...

O Google lançou três novos modelos de uma vez: o Gemini-2.0-Pro é gratuito, tem uma pontuação excelente e está em primeiro lugar, além de ser adequado para codificação e processamento de prompts complexos!

DeepSeek TOP17 Melhores Alternativas: Análise Abrangente (2025)

Altman: Estávamos errados sobre a IA de código aberto! O DeepSeek tornou o OpenAI menos vantajoso, e o próximo é o GPT-5

Interpretação do artigo DeepSeek R1 e principais pontos técnicos

Últimas notícias! Pesquisador DeepSeek revela online: o treinamento R1 levou apenas duas a três semanas, e uma evolução poderosa do R1 zero foi observada durante o feriado do Ano Novo Chinês

Cathie Wood: DeepSeek está apenas acelerando o processo de redução de custos; a estrutura de mercado extremamente concentrada comparável à Grande Depressão mudará

No círculo da IA, o DeepSeek R1 tem superado constantemente o o1 e o Claude em testes físicos, e entramos na era de ouro da RL.

Deixe um comentário Cancelar resposta

Publicações semelhantes

Deixe um comentário Cancelar resposta