O alto custo de usar grandes modelos de IA é uma das principais razões pelas quais muitas aplicações de IA ainda não foram implementadas e promovidas. Escolher desempenho extremo significa enormes custos de poder de computação, o que leva a altos custos de uso que usuários comuns não podem aceitar.
A competição por grandes modelos de IA é como uma guerra sem fumaça. Depois que o DeepSeek lançou e abriu o código-fonte do último modelo grande R1, a OpenAI também lançou seu próprio modelo o3 mais recente sob pressão. O grande player de modelos Google também teve que se juntar à competição feroz por modelos de baixo custo.
Nova jogada do Google: novos membros da série Gemini revelados
Na madrugada de 6 de fevereiro, o Google lançou uma série de novas versões do modelo Gemini. Entre elas, a versão experimental do Gêmeos 2.0 A versão Pro e a versão de pré-visualização do Gemini 2.0 Flash – Lite atraíram muita atenção, e a versão mais recente do Gemini 2.0 Flash foi lançada oficialmente.
Como uma nova variante, Google Gêmeos 2.0 O Flash – Lite tem um preço muito atrativo de apenas 0,3 USD por milhão de tokens, tornando-o o modelo mais acessível do Google até o momento.
A versão experimental do Gemini 2.0 Pro, por outro lado, tem poderosos recursos multimodais nativos que podem converter entre texto, áudio e vídeo.
A versão experimental do Gemini 2.0 Flash Thinking é gratuita e também tem a capacidade de acessar, extrair e resumir o conteúdo de vídeos do YouTube.
Logan Kilpatrick, chefe de produtos do Google AI Studio, anunciou na plataforma X que esses modelos são “os modelos mais poderosos da história do Google” e estão disponíveis para todos os desenvolvedores.
O desempenho impressionante dos novos modelos Gemini e os resultados na tabela de classificação
No Chatbot Arena Large Model Leaderboard, o Gemini 2.0 Flash Thinking Experimental Edition e o Gemini 2.0 Pro Experimental Edition alcançaram resultados excelentes. Comparado com os modelos grandes anteriores do Google, o Gemini 2.0 fez um grande progresso e, sem surpresa, eles alcançaram com sucesso o topo do ranking, com uma pontuação combinada superando o ChatGPT-4o e o DeepSeek-R1. Esta é uma grande melhoria.
Este resultado é baseado em uma avaliação abrangente das capacidades de grandes modelos em diversas áreas, incluindo matemática, codificação e processamento multilíngue.
Preço e desempenho: cada variante do Gemini 2.0 tem suas próprias vantagens
As diferentes versões do Gemini 2.0 têm suas próprias características em termos de preço e desempenho. Um equilíbrio entre desempenho e preço foi alcançado, dando aos usuários mais opções. As APIs das diferentes versões do Gemini 2.0 podem ser chamadas por meio do Google AI Studio e do Vertex AI. Desenvolvedores e usuários podem escolher a versão apropriada de acordo com suas necessidades.
O Gemini 2.0 fez grande progresso e desenvolvimento em comparação ao Gemini 1.5. Embora as diferentes versões do Gemini 2.0 tenham diferenças, todas foram melhoradas no geral. Especificamente, você precisa determinar o cenário que está usando e, então, pode escolher melhor o modelo Gemini que mais lhe convém.
Em termos de preço, Gemini 2.0 Flash e Gemini 2.0 Flash – Lite focam em implantação leve. Eles suportam até 1 milhão de tokens no comprimento da janela de contexto e, em termos de preço, a distinção entre processamento de texto longo e curto no Gemini 1.5 Flash foi removida e o preço é unificado em um preço de token unitário.
O Gemini 2.0 Flash custa 0,4 USD por milhão de tokens para saída de texto, o que é metade do preço do Gemini 1.5 Flash ao processar textos longos.
Gemini 2.0 Flash – Lite é ainda melhor em otimização de custos em cenários de saída de texto em larga escala, com um preço de saída de texto de 0,3 USD por milhão de tokens. Até mesmo o CEO do Google, Sundar Pichai, o elogiou como “eficiente e poderoso”.
Em termos de melhoria de desempenho, o Gemini 2.0 Flash tem funções de interação multimodal mais abrangentes do que a versão Lite. Ele está programado para suportar saída de imagem, bem como entrada e saída bidirecional de baixa latência em tempo real de modalidades como texto, áudio e vídeo.
A versão experimental do Gemini 2.0 Pro se destaca em termos de desempenho de codificação e prompts complexos. Sua janela de contexto pode atingir até 2 milhões de tokens, e sua capacidade geral aumentou de 75,8% para 79,1% em comparação com a geração anterior, o que é uma diferença significativa na capacidade de codificação e raciocínio com o Gemini 2.0 Flash e o Gemini 2.0 Flash – Lite.
A equipe do aplicativo Gemini disse na plataforma X que os usuários do Gemini Advanced podem acessar a versão experimental do Gemini 2.0 Pro por meio do menu suspenso do modelo, e a versão experimental do Gemini 2.0 Flash Thinking é gratuita para usuários do aplicativo Gemini, e esta versão pode ser usada em conjunto com o YouTube, a pesquisa do Google e o Google Maps.
Combater a concorrência: concurso de custo-eficácia do modelo do Google
Em um momento em que o custo do desenvolvimento de modelos se tornou um tópico importante na indústria, o lançamento do DeepSeek – R1 de código aberto, baixo custo e alto desempenho teve um impacto em toda a indústria.
Durante a teleconferência após o lançamento do relatório financeiro do quarto trimestre de 2024 do Google, Pichai, ao reconhecer as conquistas do DeepSeek, também enfatizou que a série de modelos Gemini lidera no equilíbrio entre custo, desempenho e latência, e que seu desempenho geral é melhor do que o dos modelos V3 e R1 do DeepSeek.
Da perspectiva da classificação do teste de benchmark de desempenho de modelo grande LiveBench construído por Yang Likun e sua equipe, a classificação geral do Gemini 2.0 Flash é maior do que a do DeepSeek V3 e do o1 – mini da OpenAI, mas está atrás do DeepSeek – R1 e do o1 da OpenAI. No entanto, o lançamento do Gemini 2.0 Flash – Lite pelo Google é como um trunfo. O Google espera tornar os modelos grandes mais recentes acessíveis para mais pessoas, reduzir os custos de uso dos usuários e espera ocupar um lugar na competição entre empresas por preço/desempenho.
Depois que o Google lançou o mais recente Gemini 2.0, um internauta começou a tentar analisar o Gemini 2.0 Flash e outros modelos populares deepseek e openai GPT-4o por conta própria. Ele descobriu que a nova versão do Gemini 2.0 Flash supera os outros dois modelos em termos de desempenho e custo. Isso também nos dá um vislumbre do desenvolvimento e evolução do Google, e é um bom começo.
Especificamente, o Gemini 2.0 Flash custa 0,1 USD por milhão de tokens para entrada e 0,4 USD para saída, ambos muito mais baixos do que o DeepSeek V3. Esta é uma grande melhoria e desenvolvimento. O internauta também destacou na plataforma X: “A versão oficial do Gemini 2.0 Flash custa um terço do GPT-4o-mini, enquanto é três vezes mais rápido.”
Uma nova tendência no mercado de modelos grandes: a relação custo-benefício é fundamental
Hoje, o campo de modelos grandes está preso em uma nova guerra de preços. No passado, o alto custo de usar modelos grandes criou alguma resistência ao seu uso e promoção. O impacto da guerra de preços para modelos grandes desencadeada pelo DeepSeek no mercado de modelos grandes no exterior ainda continua a fermentar. Ao mesmo tempo, a opção de código aberto também permitiu que mais usuários entendessem e usassem os últimos resultados de pesquisa de modelos grandes. A estratégia de código aberto + preço baixo também colocou pressão sobre muitas empresas americanas de modelos grandes.
O Google lançou o Gemini 2.0 Flash-Lite, e a OpenAI tornou a função de busca ChatGPT disponível gratuitamente para todos os usuários, para que eles possam usar a função de busca para concluir tarefas mais diversas. A equipe interna da Meta também está intensificando a pesquisa sobre estratégias de redução de preços de modelos grandes, ao mesmo tempo em que promove o desenvolvimento adicional dos modelos grandes de código aberto da Meta.
Neste campo altamente competitivo, nenhuma empresa pode se sentar confortavelmente no primeiro lugar. As empresas estão tentando atrair e reter usuários melhorando a relação custo-benefício. Esta tendência ajudará os grandes modelos a passarem do desenvolvimento de tecnologia pura para uma aplicação mais ampla, e o futuro mercado de grandes modelos continuará a evoluir e mudar na competição pela relação custo-benefício.