Gemini 2.0 domineerib edetabelites, samas kui DeepSeek V3 nutab oma hinda ja uus kuluefektiivne meister on sündinud!

The Google Gemini 2.0 pere on lõpuks valmis! See domineerib edetabelites kohe pärast ilmumist.

Keset jälitamist ja blokaade Deepseek, Qwen ja o3, Google avaldas täna varahommikul korraga kolm mudelit: Gemini 2.0 Pro, Gemini 2.0 Flash ja Gemini 2.0 Flash-Lite.

Suurmudelite LMSYS edetabelis on Gemini 2.0-Pro tõusnud tippu ja perekond Gemini-2.0 on tõusnud 10 parima hulka.

Sisukord

Vaatame kõigepealt mudeli jõudlust

The Gemini 2.0 mudelid seekord avaldatud kõigil on jõudluse osas oma tipphetked!

Gemini 2.0 Pro (eksperimentaalne)

Nagu lipulaeva mudel Gemini seeriast esindab Pro versioon Google'i kõige arenenumaid tehisintellekti võimalusi ja paistab silma kodeerimine ja järeldused eelkõige:

Eriti suur konteksti aken: toetab konteksti töötlemist kuni 2M žetoone
Võimas tööriistade integreerimine: integreerib sügavalt Google'i otsingu ja koodi täitmise
Saadavus: juba saadaval eksperimentaalse versioonina Google AI Studio, Vertex AI ja Gemini Advanced platvormil

Gemini 2.0 Flash

on paigutatud kui a "Väga tõhus tööhobune". See on loodud kiiruse ja jõudluse tasakaalustamisele keskendudes ning selle eesmärk on pakkuda ideaalset tuge rakenduse stsenaariumide jaoks, mis nõuavad madala latentsusega vastuseid:

Miljonid kontekstiaknad: Toetab 1M žetoonide konteksti
Suurepärased multimodaalsed järeldused: Töötleb hästi multimodaalseid andmeid, praegu toetab multimodaalset sisestust ja ühemodaalset tekstisisestust
Tulevane funktsioonide laiendus: Piltide genereerimise ja kõneks muutmise funktsioonid on peagi saadaval
Saadavus: Ametlikult välja antud Vertex AI Studio ja Google AI Studio platvormidel ning sellele pääseb juurde Gemini API kaudu.

Gemini 2.0 Flash-Lite (eelvaade)

Kõige kuluefektiivsema mudelina pakub Flash-Lite parimat tasakaalu kiiruse, kulude ja jõudluse vahel.

Kulusäästlikud eelised: säilitades sama kiiruse ja kulu nagu 1,5 välklamp, ületab see enamikus võrdlustestides 1,5 välklampi.
Miljonitasemeline konteksti aken: Toetab ka 1M kontekstitöötlusvõimsuse märgist.

Google'i avaldatud jõudluse hindamise võrdluse kohaselt saavutas Gemini 2.0 Pro Experimental versioon peaaegu kõigis võrdlustestides kõrgeimad tulemused, toimides suurepäraselt:

See toimis eriti hästi koodi genereerimise ülesannetes (nt LiveCodeBench v5) ja keerulistes matemaatilistes probleemides (nt algebra, geomeetria ja arvutus). Lisaks paranes märkimisväärselt keerukate pikkade dokumentide mõistmise test.

Ja hinnakujundus

Google on kohusetundlik tootja ka API kuluefektiivsuse osas.

Gemini 2.0 Flashi miljon žetoone maksavad vähem kui üks dollar... See toetab mitut režiimi, võrguotsingut ja enneolematut kontekstiakent.

Seevastu Deepseek V3 maksab praegu ühe dollari miljoni märgi eest ja R1 järeldamine maksab neli dollarit.

PS: Aga siiski tahan tänada DeepSeek-d hinna langetamise eest. Kes oskab hinda alandada, on perekond.

See on tõesti liiga odav! Võrreldes sooritusega arvan, et see, millest Kaksikud on kahe silma vahele jäänud, on hind!

Juhtumi jõudlus

Kuna see väidetavalt on sama hea kui Deepseek, peame kindlasti nägema, kuidas see juhtudel tegelikult toimib, ja nägema, kuidas erinevad netiinimesed on seda testinud

Füüsikal põhinev pinballimäng

Vaatame esmalt seda populaarset juhtumit, mis kasutab füüsikamootorit, et simuleerida realistlikke efekte, nagu kokkupõrked, hõõrdumine ja gravitatsioon.

Vihje: kirjutage Pythoni programm, mis kuvab pöörleva kuusnurga sees põrkavat palli. Palli peaks mõjutama gravitatsioon ja hõõrdumine ning see peab pöörlevatelt seintelt reaalselt tagasi põrkuma

Deepseek R1 ja o3-min toimivad järgmiselt:

Gemini 2.0 Pro Experimentali loodud versioon:

Ülejäänud kaks mudelit ei tööta hästi

Kahekordne raskus! Jagage pall 100 palliks!

Vihje: kirjutage skript sfääri sees olevale 100 põrkavale erekollasele pallile, veendudes, et käsitlete kokkupõrke tuvastamist õigesti. Pange kera aeglaselt pöörlema. Veenduge, et pallid jääksid kera sisse. Rakendage failis p5.js

Hästi tehtud! Kera aeglane pöörlemine on väga sujuv ja füüsikaliste seaduste simulatsioon on suurepärane. 100 palli põrkuvad samuti pidevalt kokku ja "teidavad oma tööd" ~

Kirjutage skript p5.js, et simuleerida 25 osakest, mis põrkavad ringi silindrilise anuma sees vaakumruumis. Kasutage iga palli jaoks erinevat värvi ja veenduge, et nad jätaksid oma liikumise näitamiseks jälje. Lisage konteineri aeglane pöörlemine, et stseenis toimuvat paremini jälgida. Looge kindlasti sobivad kokkupõrke tuvastamise ja füüsikareeglid, et tagada osakeste jäämine mahutisse. Lisage väline sfääriline konteiner. Lisage kogu stseenile aeglase sisse- ja väljasuumiefekt.

Maasikatesti küsimus, millest ei saa mööda

Ja nutikad (kelmid) netiinimesed on taas klassikalise maasikatesti välja visanud:

Mitu r-i on maasikas

Ja Gemini 2.0 Flash Thinking Experimental sai õige vastuse:

Google'i boss Jeff Dean pani oma programmeerimisoskused isiklikult proovile

Google DeepMindi ja Google Researchi juhtivteadlane Jeff Dean testis ka Gemini 2.0 Pro laine programmeerimisoskusi:

Ta lasi mudelil klassikalise Boggle'i mängu lõpule viia ja esimest korda loodud kood lõpetas kõigi kehtivate sõnade leidmise mängus "tähe ruut" mäng:

Veelgi enam, Jeff Dean ütles, et kood valmis vaid 18,9 sekundiga, mis on väga kiire.

Google DeepMindi tegevjuht on selle mudeli suure uuenduse suhtes täis usaldust, öeldes, et see väljalase paneb aluse Google'ile tulevase intelligentse agenditöö saavutamiseks:

Google'i tegevjuht Sundar Pichai on varem selgelt öelnud, et 2025. aasta on Google'i jaoks kriitiline periood tehisintellekti valdkonna arengu kiirendamiseks. Tundub nagu pärast seda väljalaset on Google'i tee selgem!

Võrreldes teiste hiiglaste marsruutidega Google’i AI marsruut keskendub rohkem praktilisusele ja pakub otse mitut versioonivalikut, just nagu AI tööriistakast, kus saate valida ja valida vastavalt oma vajadustele, paindlik ja mugavja suudab rahuldada igasuguseid vajadusi.

Gemini 2.0 domineerib edetabelites, samas kui DeepSeek V3 nutab oma hinda ja uus kuluefektiivne meister on sündinud!