
Priča o Geminja 2.0 se ubrzava.
Flash Thinking Experimental verzija u prosincu je programerima donijela radni model s niskom latencijom i visokim performansama.
Ranije ove godine, 2.0 Flash Thinking Experimental ažuriran je u Google AI Studiju kako bi se dodatno poboljšala izvedba kombiniranjem brzine Flasha s poboljšanim mogućnostima zaključivanja.
Prošlog je tjedna ažurirana verzija 2.0 Flasha u potpunosti pokrenuta na Gemini desktop i mobilnim aplikacijama.
Danas su istovremeno predstavljena tri nova člana: eksperimentalna verzija Gemini 2.0 Pro, koja se do sada najbolje pokazala u kodiranju i složenim upitima, isplativa 2.0 Flash-Lite i verzija 2.0 Flash Thinking s poboljšanim načinom razmišljanja.
Gemini 2.0 Pro zauzima prvo mjesto u svim kategorijama. Gemini-2.0-Flash je među prva tri u kodiranju, matematici i zagonetkama. Flash-lite se nalazi među prvih deset u svim kategorijama.


Usporedna tablica sposobnosti triju modela:

Svi modeli podržavaju multimodalni unos i izlaz teksta.
Još modalnih mogućnosti je na putu. Grafikon snage modela u areni kodiranja

Toplinska karta stope pobjede

Google se prema besplatnim korisnicima odnosi bolje nego OpenAI prema Plus korisnicima. Besplatan pristup Gemini 2.0 Pro Experimental u AI Studiju:

Usluga Deepseek uvijek prikazuje pogrešku na čekanju… Zapamtite da je prvi model bez zaključivanja također bio 2.0 Flash Thinking, koji je korišten u Google aistudio.

Osim toga, tu je i web verzija Geminija:
Postoji i povezani model zaključivanja (pa zašto ga razdvajati…)

Google je objavio eksperimentalnu verziju Gemini 2.0 Pro, a napredak u službenim benchmark testovima je prilično upečatljiv.

Ima najsnažnije mogućnosti kodiranja i sposobnost obrade složenih upita te ima bolju sposobnost razumijevanja i zaključivanja o svjetskom znanju od bilo kojeg modela koji je dosad objavio Google.
Ima najveći kontekstni prozor (200k, a moj dugi kontekst je relativno velika prednost Gemini modela), što mu omogućuje sveobuhvatnu analizu i razumijevanje velike količine informacija, te pozivanje alata poput Google pretraživanja i izvršavanje koda.
U MATH testu postigao je 91,8%, što je povećanje od oko 5 postotnih bodova u odnosu na verziju 1.5. GPQA sposobnost rasuđivanja dosegla je 64,7%, a SimpleQA test znanja o svijetu čak 44,3%.
Najistaknutija je sposobnost programiranja. Postigao je 36.0% u LiveCodeBench testu, a točnost Bird-SQL konverzije premašila je 59.3%. Zajedno sa super-velikim kontekstnim prozorom od 2 milijuna tokena, dovoljno je za rješavanje najsloženijih zadataka analize koda.

Možete isprobati u pokazivaču.
Sposobnost razumijevanja više jezika također je impresivna, s rezultatom Global MMLU testa od 86,5%. Razumijevanje slike MMMU je 72.7%, a sposobnost analize videa je 71.9%.
Gemini 2.0 Flash-Lite je zanimljiva ravnoteža.
Zadržava brzinu i cijenu 1.5 Flasha, ali donosi bolje performanse. Kontekstni prozor s 1 milijun tokena omogućuje obradu više informacija.
Najpraktičniji je njegov omjer cijene i učinka: generiranje naslova za 40.000 fotografija košta manje od $1. To čini umjetnu inteligenciju prizemnijom.

Bloger Shrivastava je spomenuo: Gemini 2.0 Pro kodiranje je ludo!
Savjet: koristite Three.js za izradu simulacije solarnog sustava. Dodajte vremensku ljestvicu, padajući izbornik fokusa, prikažite orbite i prikažite oznake. Stvorite sve u jednoj datoteci tako da je mogu zalijepiti u uređivač na mreži i vidjeti izlaz.

Osim toga, neki su korisnici spomenuli da je Gemini 2.0 Flash dao bolje rezultate u jednom od njegovih paradoks testova:

Konačno, Google je spomenuo da je sigurnost Geminija 2.0, a ne samo zakrpa, u srži dizajna od samog početka.
Neka model nauči biti samokritičan. Upotrijebite učenje s potkrepljenjem kako biste dopustili Blizancima da procijene vlastite odgovore i daju točnije povratne informacije. To ga čini robusnijim kada se radi o osjetljivim temama.
Zanimljivo je automatizirano testiranje crvenog tima. Posebno je dizajniran da spriječi ubacivanje neizravnih brzih riječi, što je poput opremanja umjetne inteligencije imunološkim sustavom kako bi se spriječilo da netko sakrije zlonamjerne naredbe u podacima.