Google on julkaissut kolme uutta mallia kerralla: Gemini-2.0-Pro on ilmainen, sillä on erinomaiset pisteet ja ykkössija, ja se sopii monimutkaisten kehotteiden koodaamiseen ja käsittelyyn!

Tarina Gemi n minä 2.0 on kiihtymässä.

Flash Thinking Experimental -versio joulukuussa toi kehittäjille toimivan mallin alhaisella latenssilla ja korkealla suorituskyvyllä.

Aiemmin tänä vuonna 2.0 Flash Thinking Experimental päivitettiin Google AI Studiossa suorituskyvyn parantamiseksi entisestään yhdistämällä Flashin nopeus parannettuihin päättelyominaisuuksiin.

Viime viikolla päivitetty versio 2.0 Flash julkaistiin täysin Geminin työpöytä- ja mobiilisovelluksissa.

Tänään on paljastettu kolme uutta jäsentä samaan aikaan: Gemini 2.0 Pron kokeellinen versio, joka on toistaiseksi menestynyt parhaiten koodauksessa ja monimutkaisissa kehotteissa, kustannustehokas 2.0 Flash-Lite ja ajattelua parantava versio 2.0 Flash Thinking.

Gemini 2.0 Pro on ensimmäinen kaikissa luokissa. Gemini-2.0-Flash sijoittuu kolmen parhaan joukkoon koodauksessa, matematiikassa ja pulmapelissä. Flash-lite sijoittuu kymmenen parhaan joukkoon kaikissa luokissa.

Vertailukaavio kolmen mallin kyvyistä:

Kaikki mallit tukevat multimodaalista tekstin syöttöä ja tulostusta.

Lisää modaalikykyjä on tulossa. Mallin vahvuuskaavio koodausarenalla

Voittonopeuden lämpökartta

Google kohtelee ilmaisia käyttäjiä paremmin kuin OpenAI Plus-käyttäjiä. Ilmainen pääsy Gemini 2.0 Pro Experimentaliin AI Studiossa:

Napsauta pelataksesi

Deepseek-palvelu näyttää aina virheilmoituksen odottamassa… Muista, että ensimmäinen päätelmäton malli oli myös 2.0 Flash Thinking, jota käytettiin Google aistudiossa.

Lisäksi siellä on Geminin verkkoversio:

On myös yhdistetty päättelymalli (joten miksi erottaa se…)

Google julkaisi kokeellisen version Gemini 2.0 Prosta, ja virallisten vertailutestien parannus on varsin silmiinpistävää.

Siinä on tehokkaimmat koodausominaisuudet ja kyky käsitellä monimutkaisia kehotteita, ja sillä on parempi kyky ymmärtää ja perustella maailmantietoa kuin mikään Googlen tähän mennessä julkaisema malli.

Siinä on suurin kontekstiikkuna (200k, ja pitkä kontekstini on suhteellisen suuri Gemini-mallin etu), jonka avulla se pystyy analysoimaan ja ymmärtämään kattavasti suuren määrän tietoa sekä kutsumaan työkaluja, kuten Google-hakua ja koodin suoritusta.

MATH-testissä se saavutti 91.8%, mikä on noin 5 prosenttiyksikköä kasvua versioon 1.5 verrattuna. GPQA-päättelykyky saavutti 64,7%:n ja SimpleQA:n maailmantietotesti jopa 44,3%.

Merkittävin on ohjelmointikyky. Se saavutti 36.0% LiveCodeBench-testissä ja Bird-SQL-muunnostarkkuus ylitti 59.3%. Yhdessä erittäin suuren 2 miljoonan tokenin kontekstiikkunan kanssa se riittää monimutkaisimpien koodianalyysitehtävien hoitamiseen.

Voit kokeilla sitä kursorilla.

Monikielinen ymmärryskyky on myös vaikuttava, maailmanlaajuisen MMLU-testin pistemäärä on 86.5%. Kuvan ymmärtämisen MMMU on 72.7% ja videoanalyysikyky 71.9%.

Gemini 2.0 Flash-Lite on mielenkiintoinen tasapaino.

Se ylläpitää 1,5 Flashin nopeutta ja hintaa, mutta parantaa suorituskykyä. Konteksti-ikkuna, jossa on 1 miljoonaa merkkiä, antaa mahdollisuuden käsitellä enemmän tietoa.

Käytännöllisin asia on sen hinta/suorituskykysuhde: kuvatekstien luominen 40 000 valokuvalle maksaa vähemmän kuin $1. Tämä tekee tekoälystä maanläheisemmän.

Bloggaaja Shrivastava mainitsi: Gemini 2.0 Pro -koodaus on hullua!

Vinkki: käytä Three.js:ää aurinkokunnan simulaation luomiseen. Lisää aika-asteikko, avattava tarkennusvalikko, näytä kiertoradat ja näytä tarrat. Luo kaikki yhdessä tiedostossa, jotta voin liittää sen online-editoriin ja tarkastella tulosta.

Lisäksi jotkut käyttäjät mainitsivat, että Gemini 2.0 Flash tuotti parempia tuloksia yhdessä hänen omasta paradoksitestistään:

Lopuksi Google mainitsi, että Gemini 2.0:n turvallisuus, ei vain korjaustiedosto, on suunnittelun ytimessä alusta alkaen.

Anna mallin oppia olemaan itsekriittinen. Käytä vahvistusoppimista antaaksesi Kaksosille arvioida omia vastauksiaan ja antaaksesi tarkempaa palautetta. Tämä tekee siitä vahvemman käsiteltäessä arkaluonteisia aiheita.

Automatisoitu punaisen tiimin testaus on mielenkiintoinen. Se on erityisesti suunniteltu estämään epäsuorien kehotteiden ruiskuttaminen, mikä on kuin tekoälyn varustamista immuunijärjestelmällä, joka estää ketään piilottamasta haitallisia komentoja tietoihin.

Uncategorized

OpenAI o3-mini vs. DeepSeek-R1: Kuka on uuden sukupolven tekoälymallien kuningas?

Byzddeepseeker helmikuu 1, 2025helmikuu 1, 2025

o3-mini on täällä haastajan vauhdilla 31. tammikuuta OpenAI julkaisi upouuden o3-mini-suuren mallin ja tarjosi osan sen toiminnoista ilmaiseksi kaikille ChatGPT-käyttäjille. Vaikka kyselyiden määrä on rajoitettu, käyttäjät pääsevät kokemaan OpenAI:n uusimman kaupallisen mallin mahdollisimman pian....

Uncategorized

DeepSeek-R1-tekniikka paljastettiin: paperin perusperiaatteet murretaan ja avain läpimurtomallin suorituskykyyn paljastuu

Byzddeepseeker helmikuuta 9.2025helmikuuta 9.2025

Tänään jaamme DeepSeek R1:n, Otsikko: DeepSeek-R1: Päättelykyvyn kannustaminen LLM:issä vahvistusoppimisen avulla: LLM:n päättelykyvyn kannustaminen vahvistusoppimisen avulla. Tässä artikkelissa esitellään DeepSeek:n ensimmäisen sukupolven päättelymallit, DeepSeek-R1-Zero ja DeepSeek-R1. DeepSeek-R1-Zero-mallia koulutettiin laajamittaisella vahvistusoppimisella (RL) ilman valvottua hienosäätöä (SFT) alkuvaiheessa,…

Uncategorized

Suuret kielimallien hallinnan artefaktit, kuten DeepSeek: Cherry Studio, Chatbox, AnythingLLM, kuka on tehokkuuden kiihdyttimesi?

Byzddeepseeker helmikuuta 11, 2025helmikuuta 11, 2025

Monet ihmiset ovat jo alkaneet ottaa käyttöön ja käyttää Deepseek Large Language -malleja paikallisesti käyttämällä Chatboxia visualisointityökaluna Tässä artikkelissa esitellään edelleen kaksi muuta AI Large Language Model -hallinta- ja visualisointiartefaktia ja verrataan näitä kolmea yksityiskohtaisesti, jotta voit käyttää AI Large Language -malleja tehokkaammin. Vuonna 2025…

Uncategorized

Maailman valtavirran tekoälytuotteet keskittyvät analysointiin ja kattaviin käyttökokemusohjeisiin (mukaan lukien DeepSeek ja GPT)

Byzddeepseeker helmikuuta 10, 2025helmikuuta 10, 2025

Toimintojen paikannus ja ydinetuanalyysi ChatGPT (OpenAI) – maailmanlaajuinen benchmark monikäyttöisille ChatGPT Tekniset geenit: generatiivinen tekoäly, joka perustuu suurten mallien GPT-sarjaan, jonka ydinetuina ovat yleiset keskustelutaidot ja looginen päättely. Monikielinen käsittely: toimii parhaiten englannin kielellä, ja kiinaa parannetaan jatkuvasti; mutta suosittelemme käyttämään englantia…

Uncategorized

Googlen halpamalli, Gemini 2.0 -sarja, hyökkää: taistelu suurten mallien kustannustehokkuudesta kiihtyy.

Byzddeepseeker helmikuuta 8.2025helmikuuta 8.2025

Suurten tekoälymallien käytön korkeat kustannukset ovat suuri syy siihen, miksi monia tekoälysovelluksia ei ole vielä otettu käyttöön ja mainostettu. Äärimmäisen suorituskyvyn valitseminen merkitsee valtavia laskentatehokustannuksia, mikä johtaa korkeisiin käyttökustannuksiin, joita tavalliset käyttäjät eivät voi hyväksyä. Kilpailu suurista tekoälymalleista on kuin sotaa ilman savua. Jälkeen…

Uncategorized

a16z-vuoropuhelu 27-vuotiaan toimitusjohtajan kanssa: AI Agentilla on valtava vipuvaikutus, ja pitkän aikavälin hinnoittelu liitetään työvoimakustannuksiin

Byzddeepseeker helmikuuta 8.2025helmikuuta 8.2025

Kohokohdat AI Agent muokkaa asiakaskokemusta Jesse Zhang: Miten agentti oikeastaan rakennetaan? Näkemyksemme on, että ajan myötä siitä tulee yhä enemmän luonnollisen kielipohjaisen agentin kaltainen, koska näin suuria kielimalleja (LLM) koulutetaan. Pitkällä aikavälillä, jos sinulla on erittäin älykäs agentti, joka…

Samankaltaisia viestejä

Vastaa Peruuta vastaus