Gemini 2.0 dominira na lestvicah, medtem ko DeepSeek V3 joka zaradi svoje cene in nov stroškovno učinkovit prvak je rojen!

The Google Gemini 2.0 družina je končno popolna! Na lestvicah prevladuje takoj, ko je izdan.

Sredi zasledovanja in blokad v Deepseek, Qwen in o3 je Google zgodaj zjutraj izdal tri modele naenkrat: Gemini 2.0 Pro, Gemini 2.0 Flash in Gemini 2.0 Flash-Lite.

Na lestvici LMSYS za velike modele se je Gemini 2.0-Pro povzpel na vrh, družina Gemini-2.0 pa je napredovala med prvih 10.

Kazalo

Najprej si poglejmo zmogljivost modela

The Modeli Gemini 2.0 vsi, ki so bili izdani tokrat, imajo svoje vrhunce v smislu delovanja!

Gemini 2.0 Pro (eksperimentalno)

Kot je vodilni model serije Gemini različica Pro predstavlja najnaprednejše Googlove zmogljivosti umetne inteligence in se odlikuje po kodiranje in sklepanje zlasti:

Zelo veliko kontekstno okno: podpira obdelavo konteksta do 2 milijona žetonov
Zmogljiva integracija orodja: globoko integrira iskanje Google in izvajanje kode
Razpoložljivost: je že na voljo kot poskusna različica na Google AI Studio, Vertex AI in platformi Gemini Advanced

Gemini 2.0 Flash

je postavljen kot a "zelo učinkovit delovni konj". Zasnovan je s poudarkom na ravnotežju med hitrostjo in zmogljivostjo ter je namenjen zagotavljanju idealne podpore za aplikacijske scenarije, ki zahtevajo odzive z nizko zakasnitvijo:

Milijoni kontekstnih oken: Podpira kontekst žetonov 1M
Odlične multimodalne zmožnosti sklepanja: Dober pri obdelavi večmodalnih podatkov, trenutno podpira večmodalni vnos in enomodalni vnos besedila
Prihodnja razširitev funkcij: Funkcije za ustvarjanje slik in pretvorbo besedila v govor bodo kmalu na voljo
Razpoložljivost: Uradno izdano na platformah Vertex AI Studio in Google AI Studio, do njega pa lahko dostopate prek API-ja Gemini.

Gemini 2.0 Flash-Lite (predogled)

Kot »stroškovno najbolj učinkovit« model Flash-Lite ponuja najboljše razmerje med hitrostjo, ceno in zmogljivostjo.

Stroškovno učinkovite prednosti: Čeprav ohranja enako hitrost in stroške kot 1.5 Flash, prekaša 1.5 Flash v večini primerjalnih testov.
Kontekstno okno na milijonih ravni: Podpira tudi 1 milijon žetonov moči za obdelavo konteksta.

Glede na primerjavo ocene zmogljivosti, ki jo je objavil Google, je različica Gemini 2.0 Pro Experimental dosegla najvišje rezultate v skoraj vseh primerjalnih testih in se izkazala odlično:

Posebej dobro se je izkazal pri nalogah za ustvarjanje kode (kot je LiveCodeBench v5) in zapletenih matematičnih problemih (kot so algebra, geometrija in račun). Poleg tega je prišlo do pomembnega napredka pri testu razumevanja kompleksnih dolgih dokumentov.

In cene

Google je tudi vesten proizvajalec v smislu stroškovne učinkovitosti API-ja.

Milijon žetonov Gemini 2.0 Flash stane manj kot en dolar… Podpira več načinov, omrežna iskanja in kontekstno okno brez primere.

Nasprotno pa Deepseek V3 trenutno stane en dolar za milijon žetonov, sklepanje R1 pa štiri dolarje.

PS: Ampak še vedno se želim zahvaliti DeepSeek za znižanje cene. Kdor lahko zniža ceno, je družina.

To je res prepoceni! V primerjavi z zmogljivostjo menim, da je Gemini spregledal ceno!

Zmogljivost primera

Ker trdi, da je tako dober kot Deepseek, moramo vsekakor videti, kako se dejansko obnese v primerih in videti, kako so ga preizkusili različni uporabniki interneta.

Igra fliper, ki temelji na fiziki

Najprej si poglejmo ta priljubljeni primer, ki uporablja fizikalni mehanizem za simulacijo realističnih učinkov, kot so trki, trenje in gravitacija.

Namig: Napišite program Python, ki prikaže žogo, ki skače znotraj vrtečega se šestkotnika. Žogica mora biti pod vplivom gravitacije in trenja ter se mora realistično odbijati od vrtečih se sten

Tako delujeta Deepseek R1 in o3-min:

Različica, ki jo je ustvaril Gemini 2.0 Pro Experimental:

Preostala dva modela se ne obneseta dobro

Podvojite težavo! Žogo razdelite na 100 kroglic!

Namig: Napišite skript za 100 odbijajočih se svetlo rumenih žog znotraj krogle in pri tem pazite, da boste pravilno obravnavali zaznavanje trka. Naj se krogla počasi vrti. Prepričajte se, da kroglice ostanejo znotraj krogle. Izvedite v p5.js

Bravo! Počasno vrtenje krogle je zelo gladko, simulacija fizikalnih zakonov pa odlična. Tudi 100 žog se vztrajno trka in "opravlja svoje delo" ~

Napišite skript p5.js za simulacijo 25 delcev, ki poskakujejo v vakuumskem prostoru znotraj valjaste posode. Za vsako žogico uporabite drugo barvo in poskrbite, da pustijo sled, ki prikazuje njihovo gibanje. Dodajte počasno vrtenje vsebnika, da bolje opazujete, kaj se dogaja v prizoru. Prepričajte se, da ste ustvarili ustrezna pravila za zaznavanje trkov in fizikalna pravila, da zagotovite, da delci ostanejo v posodi. Dodajte zunanjo sferično posodo. Celotnemu prizoru dodajte učinek počasnega povečevanja in pomanjševanja.

Jagodno testno vprašanje, ki ga ni mogoče obiti

In prebrisani (pretkani) uporabniki interneta so spet zavrgli klasični jagodni test:

Koliko r-jev ima jagoda

In Gemini 2.0 Flash Thinking Experimental je dobil pravi odgovor:

Googlov šef Jeff Dean je osebno preizkusil svoje programerske sposobnosti

Jeff Dean, glavni znanstvenik pri Google DeepMind in Google Research, je prav tako preizkusil programerske sposobnosti vala Gemini 2.0 Pro:

Modelu je dal dokončati klasično igro Boggle, koda, ustvarjena prvič, pa je dokončala iskanje vseh veljavnih besed v "kvadratna črka" igra:

Poleg tega je Jeff Dean dejal, da se je koda dokončala v samo 18,9 sekundah, kar je zelo hitro.

Izvršni direktor Google DeepMind je poln zaupanja v to veliko posodobitev modela in pravi, da ta izdaja postavlja temelje za Google za doseganje prihodnjega dela inteligentnih agentov:

Izvršni direktor Googla Sundar Pichai je pred tem jasno povedal, da bo leto 2025 za Google kritično obdobje za pospešitev razvoja na področju umetne inteligence. Občutek je kot po tej izdaji je Googlova pot jasnejša!

V primerjavi s potmi drugih velikanov, Googlova pot AI bolj se osredotoča na praktičnost in neposredno ponuja možnosti več različic, tako kot orodjarna AI, kjer lahko izbirate, kot želite, glede na vaše potrebe, prilagodljivo in priročnoin lahko zadovolji vse vrste potreb.

Gemini 2.0 dominira na lestvicah, medtem ko DeepSeek V3 joka zaradi svoje cene in nov stroškovno učinkovit prvak je rojen!