A Google Gemini 2.0 végre teljes a család! Megjelenése után azonnal uralja a slágerlistákat.
Az üldözés és a blokádok közepette Deepseek, Qwen és o3, a Google ma kora reggel három modellt adott ki egyszerre: Gemini 2.0 Pro, Gemini 2.0 Flash és Gemini 2.0 Flash-Lite.

A nagy modellek LMSYS rangsorában a Gemini 2.0-Pro az élre lőtt, a Gemini-2.0 család pedig mind a legjobb 10-be.

Először nézzük meg a modell teljesítményét
A Gemini 2.0 modellek ezúttal megjelent mindegyiknek megvannak a maga csúcspontjai a teljesítmény tekintetében!

Gemini 2.0 Pro (kísérleti)
Ahogy a zászlóshajó modell A Gemini sorozatból a Pro verzió a Google legfejlettebb AI-képességeit képviseli, és jeleskedik kódolás és következtetés különösen:
- Extra nagy kontextus ablak: ig támogatja a kontextus feldolgozását 2M token
- Hatékony szerszámintegráció: mélyen integrálja a Google keresést és a kódvégrehajtást
- Elérhetőség: már elérhető kísérleti verzióként a Google AI Studio, a Vertex AI és a Gemini Advanced platformon

Gemini 2.0 Flash
úgy van elhelyezve, mint a “Nagyon hatékony igásló”. Úgy tervezték, hogy a sebesség és a teljesítmény kiegyensúlyozására összpontosítson, és ideális támogatást nyújt az olyan alkalmazási forgatókönyvekhez, amelyek alacsony késleltetésű válaszokat igényelnek:
- Több millió kontextusablak: Támogatja az 1M token környezetet
- Kiváló multimodális következtetési képességek: Jól kezeli a multimodális adatokat, jelenleg támogatja a multimodális bevitelt és az egymodális szövegbevitelt
- Jövőbeni funkcióbővítés: Hamarosan elérhetők lesznek a képgenerálás és a szövegfelolvasó funkciók
- Elérhetőség: Hivatalosan megjelent a Vertex AI Studio és a Google AI Studio platformokon, és a Gemini API-n keresztül érhető el.
Gemini 2.0 Flash-Lite (előzetes verzió)
A „legköltséghatékonyabb” modellként a Flash-Lite a legjobb egyensúlyt kínálja a sebesség, a költség és a teljesítmény között.
- Költséghatékony előnyök: Az 1,5 Flash-éval azonos sebesség és költség fenntartása mellett a legtöbb benchmark tesztben felülmúlja az 1,5 Flash-t.
- Millió szintű kontextusablak: Támogatja a kontextusfeldolgozási teljesítmény 1 millió tokent is.
A Google által közzétett teljesítményértékelési összehasonlítás szerint a Gemini 2.0 Pro Experimental verzió szinte minden benchmark teszten a legmagasabb pontszámot érte el, kiválóan teljesítve:

Különösen jól teljesített a kódgenerálási feladatokban (például a LiveCodeBench v5) és az összetett matematikai problémákban (például algebra, geometria és számítás). Emellett jelentős javulás történt a bonyolult hosszú dokumentumok megértésének tesztjében.
És az árképzés
A Google az API költséghatékonysága tekintetében is lelkiismeretes gyártó.

A Gemini 2.0 Flash millió tokenje kevesebb, mint egy dollárba kerül… Több módot, hálózati keresést és példátlan kontextusablakot támogat.
Ezzel szemben a Deepseek V3 jelenleg egy dollárba kerül egymillió tokenért, az R1-es következtetés négy dollárba kerül.

PS: De továbbra is szeretném megköszönni az DeepSeek-nek az ár csökkentését. Aki tud csökkenteni az árat, az család.
Ez tényleg túl olcsó! A teljesítményhez képest szerintem amit a Gemini figyelmen kívül hagyott, az az ár!
Ügy teljesítmény
Mivel azt állítja, hogy olyan jó, mint a Deepseek, feltétlenül meg kell néznünk, hogyan teljesít ténylegesen az esetekben, és meg kell néznünk, hogyan tesztelték a különböző netezők
Fizikai alapú flipper játék
Először nézzük meg ezt a népszerű esetet, amely egy fizikai motort használ valósághű hatások, például ütközések, súrlódások és gravitáció szimulálására.
Tipp: Írjon egy Python programot, amely egy forgó hatszögön belül pattogó labdát jelenít meg. A labdára hatással kell lennie a gravitációnak és a súrlódásnak, és reálisan kell visszapattannia a forgó falakról
Így teljesít a Deepseek R1 és az o3-min:

A Gemini 2.0 Pro Experimental által generált verzió:

A maradék két modell nem teljesít jól
Dupla a nehézség! Oszd fel a labdát 100 golyóra!
Tipp: Írjon egy szkriptet 100 pattogó élénksárga golyóhoz egy gömbön belül, ügyelve arra, hogy megfelelően kezelje az ütközésészlelést. Lassan forogjon a gömb. Ügyeljen arra, hogy a golyók a gömb belsejében maradjanak. Végezze el a p5.js-ben

Gratulálok! A gömb lassú forgása nagyon egyenletes, a fizikai törvények szimulációja kiváló. A 100 golyó is folyamatosan ütközik és „teszik a dolgukat” ~
Írjon egy p5.js szkriptet, amely szimulálja a 25 részecske pattogóját egy vákuumtérben egy hengeres tartályban. Használjon minden labdához más színt, és győződjön meg róla, hogy nyomot hagy a mozgásukban. Lassan forgassa el a tartályt, hogy jobban megfigyelje, mi történik a jelenetben. Győződjön meg arról, hogy megfelelő ütközésészlelési és fizikai szabályokat hoz létre, hogy a részecskék a tartályban maradjanak. Adjon hozzá egy külső gömb alakú tartályt. Adjon hozzá lassú nagyítási és kicsinyítési effektust az egész jelenethez.

Eper tesztkérdés, amit nem lehet megkerülni
Az okos (ravasz) netezők pedig ismét kidobták a klasszikus epertesztet:
Hány r van az eperben

És a Gemini 2.0 Flash Thinking Experimental megkapta a megfelelő választ:

A Google főnöke, Jeff Dean személyesen tesztelte programozási képességeit
Jeff Dean, a Google DeepMind és a Google Research vezető tudósa szintén tesztelte a Gemini 2.0 Pro hullámának programozási képességeit:

A modell befejezte a klasszikus Boggle játékot, és a generált kód az első alkalommal befejezte az összes érvényes szó megtalálását a "betűnégyzet" játék:

Ráadásul Jeff Dean elmondta, hogy a kód mindössze 18,9 másodperc alatt készült el, ami nagyon gyors.

A Google DeepMind vezérigazgatója tele van bizalommal a modell e jelentős frissítése iránt, mondván, hogy ez a kiadás lefekteti az alapot a Google számára a jövőbeni intelligens ügynöki munkához:

Sundar Pichai, a Google vezérigazgatója korábban egyértelművé tette, hogy 2025 kritikus időszak lesz a Google számára a mesterséges intelligencia fejlesztésének felgyorsításában. Úgy érzi a kiadás után a Google útja világosabb!
Más óriások útvonalaihoz képest a Google AI útvonala nagyobb hangsúlyt fektet a praktikumra, és közvetlenül több verziólehetőséget kínál, pont úgy mesterséges intelligencia eszköztár, ahol tetszés szerint válogathat, igényeinek megfelelően, rugalmasan és kényelmesen, és mindenféle igényt képes kielégíteni.