Povestea lui Gemineu 2.0 se accelerează.

Versiunea Flash Thinking Experimental din decembrie a adus dezvoltatorilor un model de lucru cu latență scăzută și performanță ridicată.

La începutul acestui an, 2.0 Flash Thinking Experimental a fost actualizat în Google AI Studio pentru a îmbunătăți și mai mult performanța, combinând viteza Flash cu capabilități îmbunătățite de inferență.

Săptămâna trecută, versiunea actualizată 2.0 Flash a fost lansată complet pe desktop și aplicațiile mobile Gemini.

Astăzi, trei noi membri au fost dezvăluiți în același timp: versiunea experimentală a Gemini 2.0 Pro, care a avut până acum cele mai bune rezultate la codare și prompturi complexe, 2.0 Flash-Lite rentabil și versiunea 2.0 Flash Thinking îmbunătățită pentru gândire.

Gemini 2.0 Pro ocupă primul loc la toate categoriile. Gemini-2.0-Flash se clasează în primele trei la codificare, matematică și puzzle-uri. Flash-lite se clasează în primele zece la toate categoriile.

O diagramă de comparație a abilităților celor trei modele:

Toate modelele acceptă textul de intrare și ieșire multimodal.

Mai multe abilități modale sunt pe cale. Diagrama de putere a modelului în arena de codare

Harta de căldură a ratei de câștig

Google tratează utilizatorii gratuiti mai bine decât OpenAI tratează utilizatorii Plus. Acces gratuit la Gemini 2.0 Pro Experimental în AI Studio:

Faceți clic pentru a juca

Serviciul Deepseek afișează întotdeauna o eroare în așteptare... Amintiți-vă că primul model fără inferențe a fost și 2.0 Flash Thinking, care a fost folosit în Google aistudio.

În plus, există versiunea web a Gemeni:

Există, de asemenea, un model de inferență conectat (deci de ce să-l separați...)

Google a lansat versiunea experimentală a Gemini 2.0 Pro, iar îmbunătățirea testelor de referință oficiale este destul de atrăgătoare.

Are cele mai puternice capacități de codare și capacitatea de a procesa solicitări complexe și are o capacitate mai bună de a înțelege și de a raționa despre cunoștințele lumii decât orice model lansat de Google până acum.

Are cea mai mare fereastră de context (200k, iar contextul meu lung este un avantaj relativ mare al modelului Gemini), ceea ce îi permite să analizeze și să înțeleagă cuprinzător o cantitate mare de informații și să apeleze instrumente precum căutarea Google și execuția codului.

La testul MATH, a atins 91.8%, o creștere de aproximativ 5 puncte procentuale față de versiunea 1.5. Capacitatea de raționament GPQA a ajuns la 64,7%, iar testul de cunoștințe mondial SimpleQA a ajuns chiar la 44,3%.

Cea mai notabilă este capacitatea de programare. A atins 36,0% la testul LiveCodeBench, iar acuratețea conversiei Bird-SQL a depășit 59,3%. Împreună cu fereastra de context foarte mare de 2 milioane de jetoane, este suficient pentru a gestiona cele mai complexe sarcini de analiză a codului.

Îl poți încerca în cursor.

Abilitatea de înțelegere în mai multe limbi este, de asemenea, impresionantă, cu un scor global la testul MMLU de 86,5%. Înțelegerea imaginii MMMU este 72.7%, iar capacitatea de analiză video este 71.9%.

Gemini 2.0 Flash-Lite este un echilibru interesant.

Menține viteza și costul de 1,5 Flash, dar aduce performanțe mai bune. Fereastra de context cu 1 milion de jetoane îi permite să proceseze mai multe informații.

Cel mai practic lucru este raportul preț/performanță: generarea de subtitrări pentru 40.000 de fotografii costă mai puțin decât $1. Acest lucru face AI mai practic.

Blogger Shrivastava a menționat: Codarea Gemini 2.0 Pro este o nebunie!

Sfat: utilizați Three.js pentru a crea o simulare a sistemului solar. Adăugați o scară de timp, un meniu derulant de focalizare, afișați orbitele și afișați etichetele. Creați totul într-un singur fișier, astfel încât să îl pot lipi într-un editor online și să văd rezultatul.

În plus, unii utilizatori au menționat că Gemini 2.0 Flash a produs rezultate mai bune la unul dintre propriile teste paradoxale:

În cele din urmă, Google a menționat că securitatea Gemini 2.0, nu doar patch-ul, este în centrul designului de la început.

Lăsați modelul să învețe să fie autocritic. Folosiți învățarea prin întărire pentru a-i lăsa pe Gemeni să-și evalueze propriile răspunsuri și să ofere feedback mai precis. Acest lucru îl face mai robust atunci când se ocupă de subiecte sensibile.

Testarea automată a echipei roșii este interesantă. Este conceput special pentru a preveni injectarea de cuvinte indirecte prompte, ceea ce este ca și cum ați echipa AI cu un sistem imunitar pentru a preveni pe cineva să ascundă comenzile rău intenționate în date.

Posturi similare

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *