L'histoire de Gémeauxnje 2.0 s'accélère.

La version expérimentale de Flash Thinking en décembre a apporté aux développeurs un modèle fonctionnel avec une faible latence et des performances élevées.

Plus tôt cette année, Flash Thinking Experimental 2.0 a été mis à jour dans Google AI Studio pour améliorer encore les performances en combinant la vitesse de Flash avec des capacités d'inférence améliorées.

La semaine dernière, la version mise à jour 2.0 de Flash a été entièrement lancée sur les applications de bureau et mobiles Gemini.

Aujourd'hui, trois nouveaux membres ont été dévoilés en même temps : la version expérimentale de Gemini 2.0 Pro, qui a jusqu'à présent obtenu les meilleurs résultats en matière de codage et de questions complexes, la version économique 2.0 Flash-Lite et la version améliorée de la réflexion 2.0 Flash Thinking.

Gemini 2.0 Pro se classe premier dans toutes les catégories. Gemini-2.0-Flash se classe parmi les trois premiers en codage, mathématiques et puzzles. Flash-lite se classe parmi les dix premiers dans toutes les catégories.

Un tableau comparatif des capacités des trois modèles :

Tous les modèles prennent en charge l'entrée et la sortie de texte multimodales.

D'autres fonctionnalités modales sont en cours de développement. Tableau des points forts du modèle dans le domaine du codage

Carte thermique du taux de victoire

Google traite mieux les utilisateurs de la version gratuite qu'OpenAI traite les utilisateurs de la version Plus. Accès gratuit à Gemini 2.0 Pro Experimental dans AI Studio :

Cliquez pour jouer

Le service Deepseek affiche toujours une erreur en attente… Rappelez-vous que le premier modèle sans inférence était également Flash Thinking 2.0, qui a été utilisé dans Google aistudio.

En outre, il y a le version Web de Gemini:

Il existe également un modèle d’inférence connecté (alors pourquoi le séparer…)

Google a publié la version expérimentale de Gemini 2.0 Pro, et l'amélioration des tests de référence officiels est assez accrocheuse.

Il dispose des capacités de codage les plus puissantes et de la capacité de traiter des invites complexes, et a une meilleure capacité à comprendre et à raisonner sur la connaissance du monde que n'importe quel modèle publié par Google jusqu'à présent.

Il possède la plus grande fenêtre de contexte (200 000, et mon long contexte est un avantage relativement important du modèle Gemini), ce qui lui permet d'analyser et de comprendre de manière exhaustive une grande quantité d'informations, et d'appeler des outils tels que la recherche Google et l'exécution de code.

Au test de mathématiques, il a obtenu 91,8%, soit une augmentation d'environ 5 points de pourcentage par rapport à la version 1.5. La capacité de raisonnement GPQA a atteint 64,7% et le test de connaissances mondiales SimpleQA a même atteint 44,3%.

La capacité de programmation est particulièrement remarquable. Elle a atteint 36,0% dans le test LiveCodeBench et la précision de conversion Bird-SQL a dépassé 59,3%. Associée à la fenêtre de contexte ultra-large de 2 millions de jetons, elle est suffisante pour gérer les tâches d'analyse de code les plus complexes.

Vous pouvez l'essayer dans le curseur.

La capacité de compréhension multilingue est également impressionnante, avec un score au test Global MMLU de 86,5%. La compréhension d'images MMMU est de 72,7% et la capacité d'analyse vidéo est de 71,9%.

Gemini 2.0 Flash-Lite est un équilibre intéressant.

Il conserve la vitesse et le coût de Flash 1.5, mais apporte de meilleures performances. La fenêtre de contexte avec 1 million de jetons lui permet de traiter plus d'informations.

Le plus pratique est son rapport qualité/prix : la génération de légendes pour 40 000 photos coûte moins cher que $1. L'IA est donc plus pragmatique.

Le blogueur Shrivastava a mentionné : L'encodage Gemini 2.0 Pro est fou !

Astuce : utilisez Three.js pour créer une simulation du système solaire. Ajoutez une échelle de temps, un menu déroulant de mise au point, affichez les orbites et affichez les étiquettes. Créez tout dans un seul fichier afin que je puisse le coller dans un éditeur en ligne et afficher le résultat.

De plus, certains utilisateurs ont mentionné que Gemini 2.0 Flash produisait de meilleurs résultats dans l'un de ses propres tests de paradoxe :

Enfin, Google a mentionné que la sécurité de Gemini 2.0, et pas seulement le patch, est au cœur de la conception depuis le début.

Laissez le modèle apprendre à être autocritique. Utilisez l'apprentissage par renforcement pour permettre à Gemini d'évaluer ses propres réponses et de fournir des commentaires plus précis. Cela le rend plus robuste lorsqu'il s'agit de traiter des sujets sensibles.

Les tests automatisés de l'équipe rouge sont intéressants. Ils sont spécifiquement conçus pour empêcher l'injection de mots d'invite indirects, ce qui revient à équiper l'IA d'un système immunitaire pour empêcher quelqu'un de cacher des commandes malveillantes dans les données.

A lire également

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *