Tarina Geminminä 2.0 on kiihtymässä.

Flash Thinking Experimental -versio joulukuussa toi kehittäjille toimivan mallin alhaisella latenssilla ja korkealla suorituskyvyllä.

Aiemmin tänä vuonna 2.0 Flash Thinking Experimental päivitettiin Google AI Studiossa suorituskyvyn parantamiseksi entisestään yhdistämällä Flashin nopeus parannettuihin päättelyominaisuuksiin.

Viime viikolla päivitetty versio 2.0 Flash julkaistiin täysin Geminin työpöytä- ja mobiilisovelluksissa.

Tänään on paljastettu kolme uutta jäsentä samaan aikaan: Gemini 2.0 Pron kokeellinen versio, joka on toistaiseksi menestynyt parhaiten koodauksessa ja monimutkaisissa kehotteissa, kustannustehokas 2.0 Flash-Lite ja ajattelua parantava versio 2.0 Flash Thinking.

Gemini 2.0 Pro on ensimmäinen kaikissa luokissa. Gemini-2.0-Flash sijoittuu kolmen parhaan joukkoon koodauksessa, matematiikassa ja pulmapelissä. Flash-lite sijoittuu kymmenen parhaan joukkoon kaikissa luokissa.

Vertailukaavio kolmen mallin kyvyistä:

Kaikki mallit tukevat multimodaalista tekstin syöttöä ja tulostusta.

Lisää modaalikykyjä on tulossa. Mallin vahvuuskaavio koodausarenalla

Voittonopeuden lämpökartta

Google kohtelee ilmaisia käyttäjiä paremmin kuin OpenAI Plus-käyttäjiä. Ilmainen pääsy Gemini 2.0 Pro Experimentaliin AI Studiossa:

Napsauta pelataksesi

Deepseek-palvelu näyttää aina virheilmoituksen odottamassa… Muista, että ensimmäinen päätelmäton malli oli myös 2.0 Flash Thinking, jota käytettiin Google aistudiossa.

Lisäksi siellä on Geminin verkkoversio:

On myös yhdistetty päättelymalli (joten miksi erottaa se…)

Google julkaisi kokeellisen version Gemini 2.0 Prosta, ja virallisten vertailutestien parannus on varsin silmiinpistävää.

Siinä on tehokkaimmat koodausominaisuudet ja kyky käsitellä monimutkaisia kehotteita, ja sillä on parempi kyky ymmärtää ja perustella maailmantietoa kuin mikään Googlen tähän mennessä julkaisema malli.

Siinä on suurin kontekstiikkuna (200k, ja pitkä kontekstini on suhteellisen suuri Gemini-mallin etu), jonka avulla se pystyy analysoimaan ja ymmärtämään kattavasti suuren määrän tietoa sekä kutsumaan työkaluja, kuten Google-hakua ja koodin suoritusta.

MATH-testissä se saavutti 91.8%, mikä on noin 5 prosenttiyksikköä kasvua versioon 1.5 verrattuna. GPQA-päättelykyky saavutti 64,7%:n ja SimpleQA:n maailmantietotesti jopa 44,3%.

Merkittävin on ohjelmointikyky. Se saavutti 36.0% LiveCodeBench-testissä ja Bird-SQL-muunnostarkkuus ylitti 59.3%. Yhdessä erittäin suuren 2 miljoonan tokenin kontekstiikkunan kanssa se riittää monimutkaisimpien koodianalyysitehtävien hoitamiseen.

Voit kokeilla sitä kursorilla.

Monikielinen ymmärryskyky on myös vaikuttava, maailmanlaajuisen MMLU-testin pistemäärä on 86.5%. Kuvan ymmärtämisen MMMU on 72.7% ja videoanalyysikyky 71.9%.

Gemini 2.0 Flash-Lite on mielenkiintoinen tasapaino.

Se ylläpitää 1,5 Flashin nopeutta ja hintaa, mutta parantaa suorituskykyä. Konteksti-ikkuna, jossa on 1 miljoonaa merkkiä, antaa mahdollisuuden käsitellä enemmän tietoa.

Käytännöllisin asia on sen hinta/suorituskykysuhde: kuvatekstien luominen 40 000 valokuvalle maksaa vähemmän kuin $1. Tämä tekee tekoälystä maanläheisemmän.

Bloggaaja Shrivastava mainitsi: Gemini 2.0 Pro -koodaus on hullua!

Vinkki: käytä Three.js:ää aurinkokunnan simulaation luomiseen. Lisää aika-asteikko, avattava tarkennusvalikko, näytä kiertoradat ja näytä tarrat. Luo kaikki yhdessä tiedostossa, jotta voin liittää sen online-editoriin ja tarkastella tulosta.

Lisäksi jotkut käyttäjät mainitsivat, että Gemini 2.0 Flash tuotti parempia tuloksia yhdessä hänen omasta paradoksitestistään:

Lopuksi Google mainitsi, että Gemini 2.0:n turvallisuus, ei vain korjaustiedosto, on suunnittelun ytimessä alusta alkaen.

Anna mallin oppia olemaan itsekriittinen. Käytä vahvistusoppimista antaaksesi Kaksosille arvioida omia vastauksiaan ja antaaksesi tarkempaa palautetta. Tämä tekee siitä vahvemman käsiteltäessä arkaluonteisia aiheita.

Automatisoitu punaisen tiimin testaus on mielenkiintoinen. Se on erityisesti suunniteltu estämään epäsuorien kehotteiden ruiskuttaminen, mikä on kuin tekoälyn varustamista immuunijärjestelmällä, joka estää ketään piilottamasta haitallisia komentoja tietoihin.

Samankaltaisia viestejä

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *