Gemini 2.0 dominerer hitlisterne, mens DeepSeek V3 græder i sin pris, og en ny omkostningseffektiv mester er født!

Den Google Gemini 2.0 familien er endelig færdig! Den dominerer hitlisterne, så snart den udgives.

Midt i forfølgelsen og blokaderne af Deepseek, Qwen og o3, udgav Google tre modeller på én gang tidligt i morges: Gemini 2.0 Pro, Gemini 2.0 Flash og Gemini 2.0 Flash-Lite.

På den store model LMSYS-rangliste er Gemini 2.0-Pro skudt til tops, og Gemini-2.0-familien er alle rykket op i top 10.

Indholdsfortegnelse

Lad os først se på modellens ydeevne

Den Gemini 2.0 modeller udgivet denne gang har alle deres egne højdepunkter med hensyn til ydeevne!

Gemini 2.0 Pro (eksperimentel)

Som flagskibsmodel af Gemini-serien repræsenterer Pro-versionen de mest avancerede AI-egenskaber hos Google og udmærker sig ved kodning og slutning især:

Ekstra stort kontekstvindue: understøtter kontekstbehandling på op til 2M tokens
Kraftfuld værktøjsintegration: dybt integrerer Google-søgning og kodeudførelse
Tilgængelighed: allerede tilgængelig som en eksperimentel version på Google AI Studio, Vertex AI og Gemini Advanced-platformen

Gemini 2.0 Flash

er placeret som en "meget effektiv arbejdshest". Den er designet med fokus på at balancere hastighed og ydeevne og er beregnet til at give ideel support til applikationsscenarier, der kræver svar med lav latens:

Millioner af kontekstvinduer: Understøtter 1M tokens kontekst
Fremragende multimodale slutningsevner: God til at behandle multimodale data, understøtter i øjeblikket multimodal input og single-modal tekstinput
Fremtidig funktionsudvidelse: Billedgenerering og tekst-til-tale-funktioner vil snart være tilgængelige
Tilgængelighed: Officielt udgivet på Vertex AI Studio- og Google AI Studio-platformene og kan tilgås via Gemini API.

Gemini 2.0 Flash-Lite (Preview)

Som den "mest omkostningseffektive" model tilbyder Flash-Lite den bedste balance mellem hastighed, omkostninger og ydeevne.

Omkostningseffektive fordele: Mens den opretholder samme hastighed og pris som 1,5 Flash, overgår den 1,5 Flash i de fleste benchmark-tests.
Kontekstvindue på millionniveau: Understøtter også 1M tokens af kontekstbehandlingskraft.

Ifølge sammenligningen af ydelsesevaluering udgivet af Google opnåede Gemini 2.0 Pro Experimental-versionen de højeste scorer i næsten alle benchmark-tests og præsterede fremragende:

Det klarede sig særligt godt i kodegenereringsopgaver (såsom LiveCodeBench v5) og komplekse matematiske problemer (såsom algebra, geometri og calculus). Derudover var der en betydelig forbedring i testen af at forstå komplekse lange dokumenter.

Og prissætningen

Google er også en samvittighedsfuld producent med hensyn til API-omkostningseffektivitet.

Gemini 2.0 Flashs millioner tokens koster mindre end én dollar... Det understøtter flere tilstande, netværkssøgninger og et hidtil uset kontekstvindue.

I modsætning hertil koster Deepseek V3 i øjeblikket en dollar for en million tokens, og R1-inferens koster fire dollars.

PS: Men jeg vil alligevel gerne takke DeepSeek for at sænke prisen. Enhver, der kan sænke prisen, er familie.

Det her er virkelig for billigt! Sammenlignet med ydeevnen, tror jeg, at det Gemini er blevet overset, er prisen!

Sagens ydeevne

Da det hævder at være lige så godt som Deepseek, er vi helt sikkert nødt til at se, hvordan det rent faktisk fungerer i tilfælde og se, hvordan forskellige netbrugere har testet det

Et fysikbaseret flipperspil

Lad os først se på denne populære sag, som bruger en fysikmotor til at simulere realistiske effekter såsom kollisioner, friktion og tyngdekraft.

Tip: Skriv et Python-program, der viser en bold, der hopper inde i en roterende sekskant. Bolden skal være påvirket af tyngdekraften og friktion og skal hoppe realistisk af de roterende vægge

Sådan klarer Deepseek R1 og o3-min sig:

Den version, der er genereret af Gemini 2.0 Pro Experimental:

De resterende to modeller klarer sig ikke godt

Dobbelt sværhedsgrad! Få kuglen opdelt i 100 kugler!

Tip: Skriv et script til 100 hoppende lyse gule bolde inde i en kugle, og sørg for at håndtere kollisionsdetektion korrekt. Få kuglen til at rotere langsomt. Sørg for, at kuglerne bliver inde i kuglen. Implementer i p5.js

Godt gået! Den langsomme rotation af kuglen er meget jævn, og simuleringen af fysiske love er fremragende. De 100 bolde kolliderer også støt og "gør deres job" ~

Skriv et p5.js-script til at simulere 25 partikler, der hopper rundt i et vakuumrum inde i en cylindrisk beholder. Brug en anden farve til hver bold, og sørg for, at de efterlader et spor for at vise deres bevægelse. Tilføj en langsom rotation af beholderen for bedre at observere, hvad der sker i scenen. Sørg for at oprette passende kollisionsdetektion og fysikregler for at sikre, at partiklerne forbliver inde i beholderen. Tilføj en ekstern sfærisk beholder. Tilføj en langsom zoom ind og ud effekt til hele scenen.

Et spørgsmål om jordbærtest, som ikke kan omgås

Og kloge (slue) netbrugere har smidt den klassiske jordbærtest ud igen:

Hvor mange r er der i jordbær

Og Gemini 2.0 Flash Thinking Experimental fik svaret rigtigt:

Google-chef Jeff Dean testede personligt sine programmeringsevner

Jeff Dean, chefforsker hos Google DeepMind og Google Research, testede også programmeringsevnerne i en bølge af Gemini 2.0 Pro:

Han fik modellen til at fuldføre det klassiske Boggle-spil, og koden, der blev genereret første gang, fandt alle gyldige ord i "bogstavsfirkant" spil:

Desuden sagde Jeff Dean, at koden blev færdig på kun 18,9 sekunder, hvilket er meget hurtigt.

Den administrerende direktør for Google DeepMind er fuld af tillid til denne store opdatering af modellen og siger, at denne udgivelse lægger grundlaget for, at Google kan opnå fremtidigt fremtidigt intelligent agentarbejde:

Googles CEO Sundar Pichai har tidligere gjort det klart, at 2025 bliver en kritisk periode for Google til at accelerere udviklingen inden for kunstig intelligens. Det føles som efter denne udgivelse er Googles rute klarere!

Sammenlignet med andre giganters ruter, Googles AI-rute fokuserer mere på praktisk og giver direkte flere versionsmuligheder, ligesom en AI-værktøjskasse, hvor du kan vælge og vrage, som du vil, alt efter dine behov, fleksibelt og bekvemt, og i stand til at imødekomme alle slags behov.

Gemini 2.0 dominerer hitlisterne, mens DeepSeek V3 græder i sin pris, og en ny omkostningseffektiv mester er født!