Gemini 2.0 hallitsee listoja, kun taas DeepSeek V3 huutaa hinnassaan, ja uusi kustannustehokas mestari on syntynyt!

The Google Gemini 2.0 perhe on vihdoin valmis! Se hallitsee listoja heti julkaisun jälkeen.

Keskellä takaa-ajoa ja saartoja Deepseek, Qwen ja o3, Google julkaisi kolme mallia kerralla aikaisin tänä aamuna: Gemini 2.0 Pro, Gemini 2.0 Flash ja Gemini 2.0 Flash-Lite.

Suurissa LMSYS-malleissa Gemini 2.0-Pro on noussut kärkeen, ja Gemini-2.0 perhe on edennyt 10 parhaan joukkoon.

Sisällysluettelo

Katsotaanpa ensin mallin suorituskykyä

The Gemini 2.0 mallit Tällä kertaa julkaistuilla kaikilla on omat kohokohtansa suorituskyvyn suhteen!

Gemini 2.0 Pro (kokeellinen)

Kuten lippulaivamalli Gemini-sarjan Pro-versio edustaa Googlen edistyneimpiä tekoälyominaisuuksia ja loistaa koodaus ja päättely erityisesti:

Erittäin suuri konteksti-ikkuna: tukee kontekstin käsittelyä jopa 2M tokeneja
Tehokas työkaluintegraatio: integroi syvästi Google-haun ja koodin suorittamisen
Saatavuus: saatavilla jo kokeellisena versiona Google AI Studiossa, Vertex AI:ssä ja Gemini Advanced -alustassa

Gemini 2.0 Flash

on sijoitettu a “Erittäin tehokas työhevonen”. Se on suunniteltu keskittymään nopeuden ja suorituskyvyn tasapainottamiseen, ja se on tarkoitettu tarjoamaan ihanteellista tukea sovellusskenaarioihin, jotka vaativat matalan viiveen reagointia:

Miljoonia kontekstiikkunoita: Tukee 1M tokenin kontekstia
Erinomaiset multimodaaliset päättelyominaisuudet: Käsittelee hyvin multimodaalista dataa, tukee tällä hetkellä multimodaalista syöttöä ja yksimuotoista tekstinsyöttöä
Tuleva ominaisuuslaajennus: Kuvanluonti- ja tekstistä puheeksi -toiminnot ovat saatavilla pian
Saatavuus: Virallisesti julkaistu Vertex AI Studio- ja Google AI Studio -alustoille, ja niitä voi käyttää Gemini API:n kautta.

Gemini 2.0 Flash-Lite (esikatselu)

"Kustannustehokkaimpana" mallina Flash-Lite tarjoaa parhaan tasapainon nopeuden, kustannusten ja suorituskyvyn välillä.

Kustannustehokkaat edut: Vaikka se säilyttää saman nopeuden ja kustannukset kuin 1.5 Flash, se ylittää 1.5 Flashin useimmissa vertailutesteissä.
Miljoonan tason kontekstiikkuna: Tukee myös 1 miljoonaa kontekstinkäsittelytehoa.

Googlen julkaiseman suorituskyvyn arviointivertailun mukaan Gemini 2.0 Pro Experimental -versio saavutti korkeimmat pisteet lähes kaikissa vertailutesteissä suoriutuen erinomaisesti:

Se suoriutui erityisen hyvin koodin luontitehtävissä (kuten LiveCodeBench v5) ja monimutkaisissa matemaattisissa ongelmissa (kuten algebra, geometria ja laskenta). Lisäksi monimutkaisten pitkien asiakirjojen ymmärtämisessä tapahtui merkittävä parannus.

Ja hinnoittelu

Google on myös tunnollinen valmistaja API-kustannustehokkuuden suhteen.

Gemini 2.0 Flashin miljoona merkkiä maksavat alle yhden dollarin… Se tukee useita tiloja, verkkohakuja ja ennennäkemätöntä kontekstiikkunaa.

Sen sijaan Deepseek V3 maksaa tällä hetkellä yhden dollarin miljoonasta rahakkeesta, ja R1-päätelmä maksaa neljä dollaria.

PS: Haluan silti kiittää DeepSeek:tä hinnan alentamisesta. Jokainen, joka voi alentaa hintaa, on perhe.

Tämä on todellakin liian halpaa! Suoritukseen verrattuna mielestäni Gemini on jättänyt huomiotta hinta!

Tapauksen suorituskyky

Koska se väittää olevansa yhtä hyvä kuin Deepseek, meidän on ehdottomasti nähtävä, kuinka se todella toimii tapauksissa ja kuinka useat verkkoyhteisöt ovat testanneet sitä

Fysiikkaan perustuva flipperi

Katsotaanpa ensin tätä suosittua tapausta, jossa fysiikkamoottorilla simuloidaan realistisia vaikutuksia, kuten törmäyksiä, kitkaa ja painovoimaa.

Vihje: Kirjoita Python-ohjelma, joka näyttää pallon pomppivan pyörivän kuusikulmion sisällä. Painovoiman ja kitkan tulee vaikuttaa palloon, ja sen tulee pomppia realistisesti pyörivistä seinistä

Näin Deepseek R1 ja o3-min toimivat:

Gemini 2.0 Pro Experimentalin luoma versio:

Loput kaksi mallia eivät toimi hyvin

Tuplaa vaikeus! Jaa pallo 100 palloon!

Vihje: Kirjoita käsikirjoitus 100 pomppivalle kirkkaan keltaiselle pallolle pallon sisällä ja varmista, että käsittelet törmäyksen havaitsemista oikein. Pyöritä pallo hitaasti. Varmista, että pallot pysyvät pallon sisällä. Toteuta tiedostossa p5.js

Hyvin tehty! Pallon hidas pyöriminen on erittäin tasaista, ja fysikaalisten lakien simulointi on erinomaista. 100 palloa törmäävät myös tasaisesti ja "tekevät työnsä" ~

Kirjoita p5.js-skripti, joka simuloi 25 hiukkasta, jotka pomppivat tyhjiötilassa sylinterimäisen säiliön sisällä. Käytä jokaiselle pallolle eri väriä ja varmista, että ne jättävät jäljen liikkeensä näyttämiseksi. Lisää astian hidas pyöritys nähdäksesi paremmin, mitä kohtauksessa tapahtuu. Varmista, että luot asianmukaiset törmäyksen havaitsemis- ja fysiikan säännöt varmistaaksesi, että hiukkaset pysyvät säiliön sisällä. Lisää ulkoinen pallomainen säiliö. Lisää hidas zoomaustehoste koko kohtaukseen.

Mansikkatestin kysymys, jota ei voi ohittaa

Ja fiksut (viekkaat) nettimiehet ovat taas heittäneet pois klassisen mansikkatestin:

Kuinka monta r-kirjainta on mansikassa

Ja Gemini 2.0 Flash Thinking Experimental sai oikean vastauksen:

Googlen pomo Jeff Dean testasi ohjelmointitaitojaan henkilökohtaisesti

Google DeepMindin ja Google Researchin johtava tutkija Jeff Dean testasi myös Gemini 2.0 Pro -aallon ohjelmointitaitoja:

Hän sai mallin täydentämään klassisen Boggle-pelin, ja luotu koodi valmistui ensimmäistä kertaa kaikkien kelvollisten sanojen löytämisessä "kirjainneliö" peli:

Lisäksi Jeff Dean sanoi, että koodi valmistui vain 18,9 sekunnissa, mikä on erittäin nopeaa.

Google DeepMindin toimitusjohtaja on täynnä luottamusta tähän suureen mallin päivitykseen ja sanoo, että tämä julkaisu luo pohjan Googlelle tulevaisuuden älykkään agenttityön toteuttamisessa:

Googlen toimitusjohtaja Sundar Pichai on aiemmin tehnyt selväksi, että vuosi 2025 on Googlelle kriittinen aika nopeuttaa tekoälyn kehitystä. Tuntuu siltä tämän julkaisun jälkeen Googlen reitti on selkeämpi!

Verrattuna muiden jättiläisten reitteihin Googlen AI-reitti keskittyy enemmän käytännöllisyyteen ja tarjoaa suoraan useita versiovaihtoehtoja, aivan kuten AI-työkalupakki, josta voit valita haluamallasi tavalla, tarpeidesi mukaan, joustavasti ja kätevästija pystyy vastaamaan kaikenlaisiin tarpeisiin.

Gemini 2.0 hallitsee listoja, kun taas DeepSeek V3 huutaa hinnassaan, ja uusi kustannustehokas mestari on syntynyt!