
Příběh o Gemini 2.0 se zrychluje.
Prosincová verze Flash Thinking Experimental přinesla vývojářům pracovní model s nízkou latencí a vysokým výkonem.
Začátkem tohoto roku byla v Google AI Studio aktualizována verze 2.0 Flash Thinking Experimental, aby se dále zlepšil výkon kombinací rychlosti Flash s vylepšenými schopnostmi odvozování.
Minulý týden byla aktualizovaná verze 2.0 Flash plně spuštěna v desktopových a mobilních aplikacích Gemini.
Dnes byly současně odhaleny tři noví členové: experimentální verze Gemini 2.0 Pro, která si dosud vedla nejlépe v kódování a komplexních výzvách, cenově výhodná 2.0 Flash-Lite a verze 2.0 Flash Thinking pro vylepšené myšlení.
Gemini 2.0 Pro je na prvním místě ve všech kategoriích. Gemini-2.0-Flash se řadí mezi první tři v kódování, matematice a hádankách. Flash-lite se řadí do první desítky ve všech kategoriích.


Srovnávací tabulka schopností těchto tří modelů:

Všechny modely podporují multimodální vstupní a výstupní text.
Další modální schopnosti jsou na cestě. Graf síly modelu v aréně kódování

Výherní teplotní mapa

Google zachází s bezplatnými uživateli lépe než OpenAI s uživateli Plus. Bezplatný přístup k Gemini 2.0 Pro Experimental v AI Studio:

Služba Deepseek vždy zobrazí chybu čekání... Nezapomeňte, že prvním modelem bez inferencí byl také 2.0 Flash Thinking, který byl použit v Google aistudio.

Kromě toho existuje webová verze Gemini:
Existuje také připojený inferenční model (tak proč ho oddělovat…)

Google vydal experimentální verzi Gemini 2.0 Pro a vylepšení v oficiálních benchmarkových testech je docela poutavé.

Má nejvýkonnější kódovací schopnosti a schopnost zpracovávat složité výzvy a má lepší schopnost porozumět světovým znalostem a uvažovat o nich než jakýkoli model, který dosud Google vydal.
Má největší kontextové okno (200k a můj dlouhý kontext je poměrně velkou výhodou modelu Gemini), což mu umožňuje komplexně analyzovat a porozumět velkému množství informací a volat nástroje jako vyhledávání Google a spouštění kódu.
V testu MATH dosáhl 91,8%, což je nárůst o cca 5 procentních bodů oproti verzi 1.5. Schopnost uvažování GPQA dosáhla 64,7% a test znalostí SimpleQA dosáhl dokonce 44,3%.
Nejpozoruhodnější je schopnost programování. V testu LiveCodeBench dosáhl 36,0% a přesnost konverze Bird-SQL přesáhla 59,3%. Ve spojení s mimořádně velkým kontextovým oknem 2 milionů tokenů to stačí na zvládnutí nejsložitějších úloh analýzy kódu.

Můžete si to vyzkoušet v kurzoru.
Schopnost porozumění více jazykům je také působivá, s globálním skóre testu MMLU 86,5%. Porozumění obrazu MMMU je 72,7% a schopnost analýzy videa je 71,9%.
Gemini 2.0 Flash-Lite je zajímavá rovnováha.
Zachovává rychlost a cenu 1,5 Flash, ale přináší lepší výkon. Kontextové okno s 1 milionem tokenů umožňuje zpracovat více informací.
Nejpraktičtější je jeho poměr cena/výkon: generování titulků pro 40 000 fotografií stojí méně než $1. Díky tomu je AI prostší.

Blogger Shrivastava zmínil: Kódování Gemini 2.0 Pro je šílené!
Tip: Použijte Three.js k vytvoření simulace sluneční soustavy. Přidejte časovou stupnici, rozbalovací nabídku zaměření, zobrazte oběžné dráhy a zobrazte štítky. Vytvořte vše v jednom souboru, abych to mohl vložit do online editoru a zobrazit výstup.

Někteří uživatelé navíc uvedli, že Gemini 2.0 Flash přinesl lepší výsledky v jednom z jeho vlastních paradoxních testů:

Nakonec Google zmínil, že zabezpečení Gemini 2.0, nejen patch, je jádrem návrhu od začátku.
Nechte modelku, aby se naučila být sebekritická. Pomocí posilovacího učení nechte Blížence vyhodnotit své vlastní odpovědi a poskytnout přesnější zpětnou vazbu. Díky tomu je při řešení citlivých témat robustnější.
Zajímavé je automatické testování červeného týmu. Je speciálně navržen tak, aby zabránil vkládání nepřímých výzev, což je jako vybavit AI imunitním systémem, který zabrání tomu, aby někdo skrýval škodlivé příkazy v datech.