
Η ιστορία του Gemini 2.0 επιταχύνεται.
Η έκδοση Flash Thinking Experimental τον Δεκέμβριο έφερε στους προγραμματιστές ένα λειτουργικό μοντέλο με χαμηλό λανθάνοντα χρόνο και υψηλή απόδοση.
Νωρίτερα φέτος, το 2.0 Flash Thinking Experimental ενημερώθηκε στο Google AI Studio για να βελτιώσει περαιτέρω την απόδοση συνδυάζοντας την ταχύτητα του Flash με βελτιωμένες δυνατότητες συμπερασμάτων.
Την περασμένη εβδομάδα, η ενημερωμένη έκδοση 2.0 Flash κυκλοφόρησε πλήρως στις εφαρμογές Gemini για υπολογιστές και κινητά.
Σήμερα, τρία νέα μέλη έχουν αποκαλυφθεί ταυτόχρονα: η πειραματική έκδοση του Gemini 2.0 Pro, η οποία μέχρι στιγμής έχει καλύτερες επιδόσεις στην κωδικοποίηση και τα πολύπλοκα μηνύματα, η οικονομικά αποδοτική έκδοση 2.0 Flash-Lite και η βελτιωμένη έκδοση 2.0 Flash Thinking.
Το Gemini 2.0 Pro κατατάσσεται πρώτο σε όλες τις κατηγορίες. Το Gemini-2.0-Flash κατατάσσεται στις τρεις πρώτες θέσεις σε κωδικοποίηση, μαθηματικά και παζλ. Το Flash-lite κατατάσσεται στην πρώτη δεκάδα σε όλες τις κατηγορίες.


Ένα γράφημα σύγκρισης των ικανοτήτων των τριών μοντέλων:

Όλα τα μοντέλα υποστηρίζουν πολυτροπικό κείμενο εισαγωγής και εξόδου.
Περισσότερες τροπικές ικανότητες είναι στο δρόμο. Διάγραμμα ισχύος μοντέλου στην αρένα κωδικοποίησης

Χάρτης θερμότητας ρυθμού νίκης

Η Google αντιμετωπίζει τους δωρεάν χρήστες καλύτερα από ό,τι το OpenAI στους χρήστες Plus. Δωρεάν πρόσβαση στο Gemini 2.0 Pro Experimental στο AI Studio:

Η υπηρεσία Deepseek εμφανίζει πάντα ένα σφάλμα σε αναμονή… Να θυμάστε ότι το πρώτο μοντέλο χωρίς συμπεράσματα ήταν επίσης το Flash Thinking 2.0, το οποίο χρησιμοποιήθηκε στο Google aistudio.

Επιπλέον, υπάρχει το web έκδοση του Gemini:
Υπάρχει επίσης ένα συνδεδεμένο μοντέλο συμπερασμάτων (άρα γιατί να το διαχωρίσετε…)

Η Google κυκλοφόρησε την πειραματική έκδοση του Gemini 2.0 Pro και η βελτίωση στις επίσημες δοκιμές αναφοράς είναι αρκετά εντυπωσιακή.

Έχει τις πιο ισχυρές δυνατότητες κωδικοποίησης και την ικανότητα να επεξεργάζεται πολύπλοκα μηνύματα και έχει καλύτερη ικανότητα κατανόησης και λογικής της παγκόσμιας γνώσης από οποιοδήποτε μοντέλο που έχει κυκλοφορήσει μέχρι στιγμής η Google.
Έχει το μεγαλύτερο παράθυρο περιβάλλοντος (200k, και το μακρύ περιβάλλον μου είναι ένα σχετικά μεγάλο πλεονέκτημα του μοντέλου Gemini), το οποίο του επιτρέπει να αναλύει και να κατανοεί διεξοδικά μεγάλο όγκο πληροφοριών και να καλεί εργαλεία όπως η αναζήτηση Google και η εκτέλεση κώδικα.
Στη δοκιμή MATH, πέτυχε 91,8%, αύξηση περίπου 5 ποσοστιαίων μονάδων σε σχέση με την έκδοση 1.5. Η ικανότητα συλλογιστικής GPQA έφτασε τα 64,7% και το παγκόσμιο τεστ γνώσεων SimpleQA έφτασε ακόμη και το 44,3%.
Το πιο αξιοσημείωτο είναι η ικανότητα προγραμματισμού. Πέτυχε 36,0% στη δοκιμή LiveCodeBench και η ακρίβεια μετατροπής Bird-SQL ξεπέρασε τα 59,3%. Σε συνδυασμό με το εξαιρετικά μεγάλο παράθυρο περιβάλλοντος των 2 εκατομμυρίων διακριτικών, είναι αρκετό για να χειριστείτε τις πιο σύνθετες εργασίες ανάλυσης κώδικα.

Μπορείτε να το δοκιμάσετε στον κέρσορα.
Η ικανότητα κατανόησης πολλών γλωσσών είναι επίσης εντυπωσιακή, με βαθμολογία παγκόσμιας δοκιμής MMLU 86,5%. Το MMMU κατανόησης εικόνας είναι 72,7% και η ικανότητα ανάλυσης βίντεο είναι 71,9%.
Το Gemini 2.0 Flash-Lite είναι μια ενδιαφέρουσα ισορροπία.
Διατηρεί την ταχύτητα και το κόστος του 1,5 Flash, αλλά φέρνει καλύτερη απόδοση. Το παράθυρο περιβάλλοντος με 1 εκατομμύριο μάρκες του επιτρέπει να επεξεργάζεται περισσότερες πληροφορίες.
Το πιο πρακτικό είναι η αναλογία τιμής/απόδοσης: η δημιουργία λεζάντας για 40.000 φωτογραφίες κοστίζει λιγότερο από $1. Αυτό κάνει το AI πιο προσγειωμένο.

Η Blogger Shrivastava ανέφερε: Η κωδικοποίηση Gemini 2.0 Pro είναι τρελή!
Συμβουλή: χρησιμοποιήστε το Three.js για να δημιουργήσετε μια προσομοίωση ηλιακού συστήματος. Προσθέστε μια κλίμακα χρόνου, ένα αναπτυσσόμενο μενού εστίασης, εμφανίστε τροχιές και εμφανίστε ετικέτες. Δημιουργήστε τα πάντα σε ένα αρχείο, ώστε να μπορώ να το επικολλήσω σε ένα ηλεκτρονικό πρόγραμμα επεξεργασίας και να προβάλω την έξοδο.

Επιπλέον, ορισμένοι χρήστες ανέφεραν ότι το Gemini 2.0 Flash είχε καλύτερα αποτελέσματα σε ένα από τα δικά του τεστ παράδοξων:

Τέλος, η Google ανέφερε ότι η ασφάλεια του Gemini 2.0, όχι μόνο το patch, βρίσκεται στον πυρήνα του σχεδιασμού από την αρχή.
Αφήστε το μοντέλο να μάθει να κάνει αυτοκριτική. Χρησιμοποιήστε την ενισχυτική μάθηση για να αφήσετε τον Δίδυμο να αξιολογήσει τις δικές του απαντήσεις και να παρέχει πιο ακριβή σχόλια. Αυτό το καθιστά πιο ισχυρό όταν ασχολείστε με ευαίσθητα θέματα.
Οι αυτοματοποιημένες δοκιμές της κόκκινης ομάδας είναι ενδιαφέρουσες. Έχει σχεδιαστεί ειδικά για να αποτρέπει την έγχυση έμμεσων προτρεπτικών λέξεων, κάτι που είναι σαν να εξοπλίζεις την τεχνητή νοημοσύνη με ένα ανοσοποιητικό σύστημα για να εμποδίζει κάποιον να κρύβει κακόβουλες εντολές στα δεδομένα.