
A története Geminén 2.0 felgyorsul.
A decemberi Flash Thinking Experimental verzió egy működő modellt hozott a fejlesztőknek alacsony késleltetéssel és nagy teljesítménnyel.
Az év elején a 2.0 Flash Thinking Experimental frissítésre került a Google AI Stúdióban, hogy a Flash sebességét a továbbfejlesztett következtetési képességekkel kombinálva tovább javítsák a teljesítményt.
A múlt héten a frissített, 2.0-s Flash-verzió teljes mértékben megjelent a Gemini asztali és mobilalkalmazásokban.
A mai napon egyszerre három új tag is bemutatkozott: a Gemini 2.0 Pro kísérleti verziója, amely eddig a legjobban teljesített a kódolásban és az összetett promptokban, a költséghatékony 2.0 Flash-Lite és a gondolkodással továbbfejlesztett 2.0 Flash Thinking.
A Gemini 2.0 Pro minden kategóriában az első helyen áll. A Gemini-2.0-Flash az első három helyen szerepel a kódolás, a matematika és a rejtvények terén. A Flash-lite minden kategóriában az első tízben szerepel.


A három modell képességeinek összehasonlító táblázata:

Minden modell támogatja a multimodális szövegbevitelt és -kimenetet.
További modális képességek készülnek. Modell erősségi diagram a kódolási arénában

Nyerési arány hőtérkép

A Google jobban bánik az ingyenes felhasználókkal, mint az OpenAI a Plusz felhasználókkal. Ingyenes hozzáférés a Gemini 2.0 Pro Experimental programhoz az AI Stúdióban:

A Deepseek szolgáltatás mindig hibaüzenetet jelenít meg... Ne feledje, hogy az első következtetésmentes modell is a 2.0 Flash Thinking volt, amelyet a Google aistudióban használtak.

Ezen kívül ott van a a Gemini webes verziója:
Van egy összekapcsolt következtetési modell is (akkor minek különválasztani…)

A Google kiadta a Gemini 2.0 Pro kísérleti verzióját, és a hivatalos benchmark tesztek javulása meglehetősen szembetűnő.

Ez rendelkezik a legerősebb kódolási képességekkel és képes feldolgozni az összetett promptokat, és jobban képes megérteni és érvelni a világ ismereteit, mint bármely, a Google által eddig kiadott modell.
Ennek van a legnagyobb kontextusablaka (200 ezer, és az én hosszú kontextusom viszonylag nagy előnye a Gemini modellnek), ami lehetővé teszi nagy mennyiségű információ átfogó elemzését és megértését, valamint olyan eszközök hívását, mint a Google keresés és a kódvégrehajtás.
A MATH tesztben 91.8% értéket ért el, ami körülbelül 5 százalékpontos növekedés az 1.5-ös verzióhoz képest. A GPQA érvelési képessége elérte a 64,7%-t, a SimpleQA világismereti teszt pedig még a 44,3%-t is elérte.
A legfigyelemreméltóbb a programozási képesség. A LiveCodeBench tesztben 36.0% értéket ért el, a Bird-SQL konverziós pontossága pedig meghaladta az 59.3% értéket. A rendkívül nagy, 2 millió tokenből álló kontextusablakkal párosítva elegendő a legösszetettebb kódelemzési feladatok elvégzésére.

A kurzorban kipróbálhatja.
A többnyelvű megértési képesség is lenyűgöző, a Global MMLU teszt pontszáma 86,5%. A képértési MMMU 72.7%, a videóelemzési képesség pedig 71.9%.
A Gemini 2.0 Flash-Lite egy érdekes egyensúly.
Fenntartja az 1,5 Flash sebességét és költségét, de jobb teljesítményt nyújt. Az 1 millió tokent tartalmazó kontextusablak több információ feldolgozását teszi lehetővé.
A legpraktikusabb az ár/teljesítmény aránya: 40 000 fotóhoz a feliratkészítés kevesebbe kerül, mint az $1. Ez a mesterséges intelligenciát egyszerűbbé teszi.

Shrivastava blogger megemlítette: A Gemini 2.0 Pro kódolás őrült!
Tipp: a Three.js használatával hozzon létre egy napelemrendszer-szimulációt. Adjon hozzá időskálát, fókusz legördülő menüt, mutasson pályát és mutasson címkéket. Hozzon létre mindent egy fájlban, hogy be tudjam illeszteni egy online szerkesztőbe, és megtekinthesse a kimenetet.

Ezenkívül néhány felhasználó megemlítette, hogy a Gemini 2.0 Flash jobb eredményeket produkált az egyik saját paradox tesztjében:

Végül a Google megemlítette, hogy a Gemini 2.0 biztonsága, nem csak a javítás, kezdettől fogva a tervezés középpontjában áll.
Tanuljon meg a modell önkritikusnak lenni. Használja a megerősítő tanulást, hogy hagyja, hogy az Ikrek értékelje saját válaszait, és pontosabb visszajelzést adjon. Ez erőteljesebbé teszi a kényes témák kezelésekor.
Érdekes az automatizált vörös csapat tesztelése. Kifejezetten arra tervezték, hogy megakadályozza a közvetett felszólító szavak befecskendezését, ami olyan, mintha az AI-t egy immunrendszerrel látnák el, amely megakadályozza, hogy valaki rosszindulatú parancsokat rejtsen el az adatokban.