
Zgodba o Gemini 2.0 se pospešuje.
Različica Flash Thinking Experimental decembra je razvijalcem prinesla delujoč model z nizko zakasnitvijo in visoko zmogljivostjo.
V začetku tega leta je bil 2.0 Flash Thinking Experimental posodobljen v Google AI Studio za nadaljnje izboljšanje zmogljivosti s kombinacijo hitrosti Flasha in izboljšanih zmožnosti sklepanja.
Prejšnji teden je bila posodobljena različica 2.0 Flash v celoti predstavljena v namiznih in mobilnih aplikacijah Gemini.
Danes so bili hkrati predstavljeni trije novi člani: eksperimentalna različica Gemini 2.0 Pro, ki se je do zdaj najbolje obnesla pri kodiranju in zapletenih pozivih, stroškovno učinkovita različica 2.0 Flash-Lite in različica 2.0 Flash Thinking z izboljšano miselnostjo.
Gemini 2.0 Pro je na prvem mestu v vseh kategorijah. Gemini-2.0-Flash se uvršča med prve tri na področju kodiranja, matematike in ugank. Flash-lite se v vseh kategorijah uvršča med prvih deset.


Primerjalna tabela sposobnosti treh modelov:

Vsi modeli podpirajo multimodalni vnos in izhod besedila.
Več modalnih zmožnosti je na poti. Tabela moči modela v areni kodiranja

Toplotni zemljevid stopnje zmage

Google brezplačne uporabnike obravnava bolje kot OpenAI uporabnike Plus. Brezplačen dostop do Gemini 2.0 Pro Experimental v AI Studio:

Storitev Deepseek vedno prikaže čakajočo napako ... Ne pozabite, da je bil tudi prvi model brez sklepanja 2.0 Flash Thinking, ki je bil uporabljen v Google aistudio.

Poleg tega obstaja spletna različica Geminija:
Obstaja tudi povezan model sklepanja (zakaj bi ga torej ločevali ...)

Google je izdal eksperimentalno različico Gemini 2.0 Pro, izboljšanje uradnih primerjalnih testov pa je kar vpadljivo.

Ima najmočnejše zmožnosti kodiranja in zmožnost obdelave zapletenih pozivov ter ima boljšo zmožnost razumevanja in razmišljanja o svetovnem znanju kot kateri koli model, ki ga je doslej izdal Google.
Ima največje kontekstno okno (200k, moj dolg kontekst pa je relativno velika prednost modela Gemini), kar mu omogoča celovito analizo in razumevanje velike količine informacij ter priklic orodij, kot je Google iskanje in izvajanje kode.
V testu MATH je dosegel 91,8%, kar je približno 5 odstotnih točk več kot različica 1.5. Sposobnost sklepanja GPQA je dosegla 64,7%, svetovni test znanja SimpleQA pa celo 44,3%.
Najbolj opazna je sposobnost programiranja. V testu LiveCodeBench je dosegel 36,0%, natančnost pretvorbe Bird-SQL pa je presegla 59,3%. Skupaj z izjemno velikim kontekstnim oknom z 2 milijonoma žetonov je dovolj za reševanje najzapletenejših nalog analize kode.

Preizkusite ga lahko v kazalcu.
Zmožnost večjezičnega razumevanja je prav tako impresivna, z rezultatom testa Global MMLU 86,5%. Razumevanje slike MMMU je 72,7%, zmožnost analize videa pa 71,9%.
Gemini 2.0 Flash-Lite je zanimivo ravnotežje.
Ohranja hitrost in ceno 1.5 Flash, vendar prinaša boljšo zmogljivost. Kontekstno okno z 1 milijonom žetonov omogoča obdelavo več informacij.
Najbolj praktično je njegovo razmerje med ceno in zmogljivostjo: ustvarjanje napisov za 40.000 fotografij stane manj kot $1. Zaradi tega je AI bolj prizemljen.

Bloger Shrivastava je omenil: kodiranje Gemini 2.0 Pro je noro!
Nasvet: uporabite Three.js za ustvarjanje simulacije solarnega sistema. Dodajte časovno lestvico, spustni meni za fokus, pokažite orbite in pokažite oznake. Ustvarite vse v eni datoteki, da jo lahko prilepim v spletni urejevalnik in si ogledam rezultat.

Poleg tega so nekateri uporabniki omenili, da je Gemini 2.0 Flash dosegel boljše rezultate v enem od njegovih testov paradoksa:

Nazadnje je Google omenil, da je varnost Gemini 2.0, ne le popravek, v središču zasnove že od začetka.
Naj se model nauči biti samokritičen. Uporabite okrepljeno učenje, da Gemini omogočite, da sam oceni svoje odgovore in zagotovi natančnejšo povratno informacijo. Zaradi tega je bolj robusten pri obravnavanju občutljivih tem.
Zanimivo je avtomatizirano testiranje rdeče ekipe. Zasnovan je posebej za preprečevanje vbrizgavanja posrednih pozivnih besed, kar je podobno opremljanju AI z imunskim sistemom, ki preprečuje, da bi nekdo skril zlonamerne ukaze v podatkih.