Den Google Gemini 2.0 familjen är äntligen komplett! Den dominerar listorna så fort den släpps.

Mitt i jakten och blockaderna av Deepseek, Qwen och o3, Google släppte tre modeller på en gång tidigt i morse: Gemini 2.0 Pro, Gemini 2.0 Flash och Gemini 2.0 Flash-Lite.

På den stora LMSYS-rankingen har Gemini 2.0-Pro tagit sig till toppen, och Gemini-2.0-familjen har alla avancerat till topp 10.

Låt oss först titta på modellens prestanda

Den Gemini 2.0-modeller släpptes denna gång har alla sina egna höjdpunkter när det gäller prestanda!

Gemini 2.0 Pro (experimentell)

Som flaggskeppsmodell i Gemini-serien representerar Pro-versionen de mest avancerade AI-funktionerna hos Google och utmärker sig kodning och slutledning särskilt:

  • Extra stort sammanhangsfönster: stödjer sammanhangsbearbetning av upp till 2M tokens
  • Kraftfull verktygsintegration: djupt integrerar Google-sökning och kodexekvering
  • Tillgänglighet: redan tillgänglig som en experimentell version på Google AI Studio, Vertex AI och Gemini Advanced-plattformen

Gemini 2.0 Flash

är placerad som en "mycket effektiv arbetshäst". Den är designad med fokus på att balansera hastighet och prestanda, och är avsedd att ge perfekt stöd för applikationsscenarier som kräver låg latenssvar:

  • Miljontals sammanhangsfönster: Stöder 1M tokens sammanhang
  • Utmärkta multimodala slutledningsförmåga: Bra på att bearbeta multimodal data, stöder för närvarande multimodal inmatning och enkelmodal textinmatning
  • Framtida funktionsexpansion: Bildgenerering och text-till-tal-funktioner kommer snart att finnas tillgängliga
  • Tillgänglighet: Officiellt släppt på plattformarna Vertex AI Studio och Google AI Studio, och kan nås via Gemini API.

Gemini 2.0 Flash-Lite (förhandsgranskning)

Som den "mest kostnadseffektiva" modellen erbjuder Flash-Lite den bästa balansen mellan hastighet, kostnad och prestanda.

  • Kostnadseffektiva fördelar: Medan den bibehåller samma hastighet och kostnad som 1,5 Flash, överträffar den 1,5 Flash i de flesta benchmark-tester.
  • Kontextfönster på miljonnivå: Stöder även 1M tokens av kontextprocessorkraft.

Enligt prestandautvärderingsjämförelsen som släppts av Google, uppnådde Gemini 2.0 Pro Experimental-versionen de högsta poängen i nästan alla benchmark-tester och presterade utmärkt:

Det fungerade särskilt bra i kodgenereringsuppgifter (som LiveCodeBench v5) och komplexa matematiska problem (som algebra, geometri och kalkyl). Dessutom var det en betydande förbättring i testet för att förstå komplexa långa dokument.

Och prissättningen

Google är också en noggrann tillverkare när det gäller API-kostnadseffektivitet.

Gemini 2.0 Flashs miljoner tokens kostar mindre än en dollar... Den stöder flera lägen, nätverkssökningar och ett aldrig tidigare skådat kontextfönster.

Däremot kostar Deepseek V3 för närvarande en dollar för en miljon tokens, och R1-inferens kostar fyra dollar.

PS: Men jag vill ändå tacka DeepSeek för att ha sänkt priset. Den som kan sänka priset är familj.

Det här är verkligen för billigt! Jämfört med prestandan tror jag att det som Gemini har förbisetts är priset!

Fallprestanda

Eftersom det påstår sig vara lika bra som Deepseek måste vi definitivt se hur det faktiskt fungerar i fall och se hur olika nätanvändare har testat det

Ett fysikbaserat flipperspel

Låt oss först titta på detta populära fall, som använder en fysikmotor för att simulera realistiska effekter som kollisioner, friktion och gravitation.

Tips: Skriv ett Python-program som visar en boll som studsar inuti en roterande hexagon. Bollen bör påverkas av gravitation och friktion och måste studsa realistiskt från de roterande väggarna

Så här presterar Deepseek R1 och o3-min:

Den version som genereras av Gemini 2.0 Pro Experimental:

De återstående två modellerna fungerar inte bra

Dubbla svårighetsgraden! Gör bollen delad i 100 bollar!

Tips: Skriv ett skript för 100 studsande ljusgula bollar inuti en sfär, och se till att hantera kollisionsdetektering korrekt. Få sfären att sakta rotera. Se till att bollarna stannar inne i sfären. Implementera i p5.js

Bra gjort! Den långsamma rotationen av sfären är mycket jämn, och simuleringen av fysiska lagar är utmärkt. De 100 bollarna kolliderar också stadigt och "gör sitt jobb" ~

Skriv ett p5.js-skript för att simulera 25 partiklar som studsar runt i ett vakuumutrymme inuti en cylindrisk behållare. Använd en annan färg för varje boll och se till att de lämnar ett spår för att visa sin rörelse. Lägg till en långsam rotation av behållaren för att bättre observera vad som händer i scenen. Se till att skapa lämpliga kollisionsdetektering och fysikregler för att säkerställa att partiklarna förblir inuti behållaren. Lägg till en extern sfärisk behållare. Lägg till en långsam in- och uteffekt på hela scenen.

En jordgubbstestfråga som inte går att kringgå

Och smarta (luriga) nätanvändare har kastat ut det klassiska jordgubbstestet igen:

Hur många r finns det i jordgubbar

Och Gemini 2.0 Flash Thinking Experimental fick rätt svar:

Googles chef Jeff Dean testade personligen sina programmeringskunskaper

Jeff Dean, chefsforskare på Google DeepMind och Google Research, testade också programmeringsförmågan hos en våg av Gemini 2.0 Pro:

Han lät modellen slutföra det klassiska Boggle-spelet, och koden som skapades första gången slutförde att hitta alla giltiga ord i "bokstavsruta" spel:

Dessutom sa Jeff Dean att koden slutfördes på bara 18,9 sekunder, vilket är väldigt snabbt.

VD:n för Google DeepMind är full av förtroende för denna stora uppdatering av modellen och säger att den här utgåvan lägger grunden för Google för att uppnå framtida intelligent agentarbete i framtiden:

Googles vd Sundar Pichai har tidigare gjort det klart att 2025 kommer att bli en kritisk period för Google att påskynda utvecklingen inom AI-området. Det känns som efter denna release är Googles väg tydligare!

Jämfört med andra jättars rutter, Googles AI-rutt fokuserar mer på praktiska funktioner och ger direkt flera versionsalternativ, precis som en AI-verktygslåda, där du kan välja och vraka som du vill, efter dina behov, flexibelt och bekvämtoch kan möta alla typer av behov.

Liknande inlägg

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *