Gemini 2.0 domina le classifiche, mentre DeepSeek V3 piange nel suo prezzo, e nasce un nuovo campione conveniente!

Il Google Gemelli 2.0 famiglia è finalmente al completo! Domina le classifiche non appena esce.

In mezzo all'inseguimento e ai blocchi di Deepseek, Qwen e o3, Google ha rilasciato tre modelli in una volta sola questa mattina presto: Gemini 2.0 Pro, Gemini 2.0 Flash e Gemini 2.0 Flash-Lite.

Nella classifica dei modelli LMSYS di grandi dimensioni, Gemini 2.0-Pro ha raggiunto la vetta e l'intera famiglia Gemini-2.0 è entrata nella top 10.

Indice dei contenuti

Diamo prima un'occhiata alle prestazioni del modello

Il Modelli Gemini 2.0 rilasciati questa volta hanno tutti i loro punti salienti in termini di prestazioni!

Gemini 2.0 Pro (sperimentale)

Come il modello di punta della serie Gemini, la versione Pro rappresenta le capacità AI più avanzate di Google, ed eccelle in codifica e inferenza in particolare:

Finestra di contesto extra-large: supporta l'elaborazione del contesto fino a 2 milioni di token
Potente integrazione degli strumenti: integra profondamente la ricerca di Google e l'esecuzione del codice
Disponibilità: già disponibile come versione sperimentale su Google AI Studio, Vertex AI e la piattaforma Gemini Advanced

Gemelli 2.0 Flash

è posizionato come un “cavallo da tiro altamente efficiente”È progettato con un focus sul bilanciamento di velocità e prestazioni, ed è destinato a fornire un supporto ideale per scenari applicativi che richiedono risposte a bassa latenza:

Milioni di finestre di contesto: Supporta il contesto di 1M token
Eccellenti capacità di inferenza multimodale: Ottimo per l'elaborazione di dati multimodali, attualmente supporta input multimodali e input di testo monomodale
Espansione futura delle funzionalità: Le funzioni di generazione di immagini e di conversione del testo in voce saranno presto disponibili
Disponibilità: Rilasciato ufficialmente sulle piattaforme Vertex AI Studio e Google AI Studio, è accessibile tramite la Gemini API.

Gemini 2.0 Flash-Lite (Anteprima)

Essendo il modello “più conveniente”, Flash-Lite offre il miglior equilibrio tra velocità, costo e prestazioni.

Vantaggi in termini di costi: pur mantenendo la stessa velocità e lo stesso costo della versione 1.5 Flash, le sue prestazioni sono superiori nella maggior parte dei test di benchmark.
Finestra di contesto a livello di milione: Supporta anche 1 milione di token di potenza di elaborazione del contesto.

Secondo il confronto delle prestazioni pubblicato da Google, la versione sperimentale di Gemini 2.0 Pro ha ottenuto i punteggi più alti in quasi tutti i test di benchmark, ottenendo risultati eccellenti:

Ha funzionato particolarmente bene in attività di generazione di codice (come LiveCodeBench v5) e problemi matematici complessi (come algebra, geometria e calcolo). Inoltre, c'è stato un miglioramento significativo nel test di comprensione di documenti lunghi e complessi.

E il prezzo

Google è un produttore attento anche al rapporto costo-efficacia delle API.

I milioni di token di Gemini 2.0 Flash costano meno di un dollaro... Supporta più modalità, ricerche in rete e una finestra di contesto senza precedenti.

Al contrario, Deepseek V3 attualmente costa un dollaro per un milione di token, mentre l'inferenza R1 costa quattro dollari.

PS: Ma voglio comunque ringraziare DeepSeek per aver abbassato il prezzo. Chiunque possa abbassare il prezzo è parte della famiglia.

Questo è davvero troppo economico! Rispetto alle prestazioni, penso che ciò che Gemini ha trascurato è il prezzo!

Prestazioni del caso

Dal momento che afferma di essere buono quanto Deepseek, dobbiamo assolutamente vedere come si comporta realmente nei casi e vedere come vari internauti lo hanno testato

Un gioco di flipper basato sulla fisica

Diamo prima un'occhiata a questo caso comune, che utilizza un motore fisico per simulare effetti realistici come collisioni, attrito e gravità.

Suggerimento: scrivi un programma Python che visualizzi una palla che rimbalza all'interno di un esagono rotante. La palla deve essere influenzata dalla gravità e dall'attrito e deve rimbalzare realisticamente dalle pareti rotanti

Ecco come si comportano Deepseek R1 e o3-min:

La versione generata da Gemini 2.0 Pro Experimental:

I restanti due modelli non funzionano bene

Raddoppia la difficoltà! Fai dividere la palla in 100 palline!

Suggerimento: scrivi uno script per 100 palline gialle rimbalzanti all'interno di una sfera, assicurandoti di gestire correttamente il rilevamento delle collisioni. Fai ruotare lentamente la sfera. Assicurati che le palline restino all'interno della sfera. Implementa in p5.js

Ben fatto! La lenta rotazione della sfera è molto fluida e la simulazione delle leggi fisiche è eccellente. Anche le 100 palline si scontrano costantemente e "fanno il loro lavoro" ~

Scrivi uno script p5.js per simulare 25 particelle che rimbalzano in uno spazio vuoto all'interno di un contenitore cilindrico. Usa un colore diverso per ogni pallina e assicurati che lascino una scia per mostrare il loro movimento. Aggiungi una rotazione lenta del contenitore per osservare meglio cosa sta succedendo nella scena. Assicurati di creare regole di rilevamento delle collisioni e fisiche appropriate per garantire che le particelle rimangano all'interno del contenitore. Aggiungi un contenitore sferico esterno. Aggiungi un effetto di zoom lento in avanti e indietro all'intera scena.

Una domanda del test sulle fragole che non può essere ignorata

E gli intelligenti (astuti) internauti hanno riproposto il classico test della fragola:

Quante r ci sono in fragola?

E Gemini 2.0 Flash Thinking Experimental ha dato la risposta giusta:

Il capo di Google Jeff Dean ha testato personalmente le sue capacità di programmazione

Jeff Dean, capo scienziato di Google DeepMind e Google Research, ha anche testato le capacità di programmazione di un'ondata di Gemini 2.0 Pro:

Ha fatto completare al modello il classico gioco Boggle e il codice generato la prima volta ha completato la ricerca di tutte le parole valide nel “lettera quadrata” gioco:

Inoltre, Jeff Dean ha affermato che il codice è stato completato in soli 18,9 secondi, il che è molto veloce.

Il CEO di Google DeepMind è pieno di fiducia in questo importante aggiornamento del modello, affermando che questa versione getta le basi affinché Google possa realizzare in futuro lavori di agente intelligente:

Il CEO di Google Sundar Pichai ha già chiarito in precedenza che il 2025 sarà un periodo critico per Google per accelerare lo sviluppo nel campo dell'intelligenza artificiale. Sembra che Dopo questa pubblicazione, la rotta di Google è più chiara!

Rispetto ai percorsi di altri giganti, il percorso AI di Google si concentra maggiormente sulla praticità e fornisce direttamente più opzioni di versione, proprio come una cassetta degli attrezzi AI, dove puoi scegliere come preferisci, in base alle tue esigenze, flessibile e convenientee in grado di soddisfare ogni tipo di esigenza.

Gemini 2.0 domina le classifiche, mentre DeepSeek V3 piange nel prezzo, ed è nato un nuovo campione conveniente!