Google a publié trois nouveaux modèles à la fois : Gemini-2.0-Pro est gratuit, a un score exceptionnel et se classe au premier rang, et est adapté au codage et au traitement d'invites complexes !

L'histoire de Gémeaux n je 2.0 s'accélère.

La version expérimentale de Flash Thinking en décembre a apporté aux développeurs un modèle fonctionnel avec une faible latence et des performances élevées.

Plus tôt cette année, Flash Thinking Experimental 2.0 a été mis à jour dans Google AI Studio pour améliorer encore les performances en combinant la vitesse de Flash avec des capacités d'inférence améliorées.

La semaine dernière, la version mise à jour 2.0 de Flash a été entièrement lancée sur les applications de bureau et mobiles Gemini.

Aujourd'hui, trois nouveaux membres ont été dévoilés en même temps : la version expérimentale de Gemini 2.0 Pro, qui a jusqu'à présent obtenu les meilleurs résultats en matière de codage et de questions complexes, la version économique 2.0 Flash-Lite et la version améliorée de la réflexion 2.0 Flash Thinking.

Gemini 2.0 Pro se classe premier dans toutes les catégories. Gemini-2.0-Flash se classe parmi les trois premiers en codage, mathématiques et puzzles. Flash-lite se classe parmi les dix premiers dans toutes les catégories.

Un tableau comparatif des capacités des trois modèles :

Tous les modèles prennent en charge l'entrée et la sortie de texte multimodales.

D'autres fonctionnalités modales sont en cours de développement. Tableau des points forts du modèle dans le domaine du codage

Carte thermique du taux de victoire

Google traite mieux les utilisateurs de la version gratuite qu'OpenAI traite les utilisateurs de la version Plus. Accès gratuit à Gemini 2.0 Pro Experimental dans AI Studio :

Cliquez pour jouer

Le service Deepseek affiche toujours une erreur en attente… Rappelez-vous que le premier modèle sans inférence était également Flash Thinking 2.0, qui a été utilisé dans Google aistudio.

En outre, il y a le version Web de Gemini:

Il existe également un modèle d’inférence connecté (alors pourquoi le séparer…)

Google a publié la version expérimentale de Gemini 2.0 Pro, et l'amélioration des tests de référence officiels est assez accrocheuse.

Il dispose des capacités de codage les plus puissantes et de la capacité de traiter des invites complexes, et a une meilleure capacité à comprendre et à raisonner sur la connaissance du monde que n'importe quel modèle publié par Google jusqu'à présent.

Il possède la plus grande fenêtre de contexte (200 000, et mon long contexte est un avantage relativement important du modèle Gemini), ce qui lui permet d'analyser et de comprendre de manière exhaustive une grande quantité d'informations, et d'appeler des outils tels que la recherche Google et l'exécution de code.

Au test de mathématiques, il a obtenu 91,8%, soit une augmentation d'environ 5 points de pourcentage par rapport à la version 1.5. La capacité de raisonnement GPQA a atteint 64,7% et le test de connaissances mondiales SimpleQA a même atteint 44,3%.

La capacité de programmation est particulièrement remarquable. Elle a atteint 36,0% dans le test LiveCodeBench et la précision de conversion Bird-SQL a dépassé 59,3%. Associée à la fenêtre de contexte ultra-large de 2 millions de jetons, elle est suffisante pour gérer les tâches d'analyse de code les plus complexes.

Vous pouvez l'essayer dans le curseur.

La capacité de compréhension multilingue est également impressionnante, avec un score au test Global MMLU de 86,5%. La compréhension d'images MMMU est de 72,7% et la capacité d'analyse vidéo est de 71,9%.

Gemini 2.0 Flash-Lite est un équilibre intéressant.

Il conserve la vitesse et le coût de Flash 1.5, mais apporte de meilleures performances. La fenêtre de contexte avec 1 million de jetons lui permet de traiter plus d'informations.

Le plus pratique est son rapport qualité/prix : la génération de légendes pour 40 000 photos coûte moins cher que $1. L'IA est donc plus pragmatique.

Le blogueur Shrivastava a mentionné : L'encodage Gemini 2.0 Pro est fou !

Astuce : utilisez Three.js pour créer une simulation du système solaire. Ajoutez une échelle de temps, un menu déroulant de mise au point, affichez les orbites et affichez les étiquettes. Créez tout dans un seul fichier afin que je puisse le coller dans un éditeur en ligne et afficher le résultat.

De plus, certains utilisateurs ont mentionné que Gemini 2.0 Flash produisait de meilleurs résultats dans l'un de ses propres tests de paradoxe :

Enfin, Google a mentionné que la sécurité de Gemini 2.0, et pas seulement le patch, est au cœur de la conception depuis le début.

Laissez le modèle apprendre à être autocritique. Utilisez l'apprentissage par renforcement pour permettre à Gemini d'évaluer ses propres réponses et de fournir des commentaires plus précis. Cela le rend plus robuste lorsqu'il s'agit de traiter des sujets sensibles.

Les tests automatisés de l'équipe rouge sont intéressants. Ils sont spécifiquement conçus pour empêcher l'injection de mots d'invite indirects, ce qui revient à équiper l'IA d'un système immunitaire pour empêcher quelqu'un de cacher des commandes malveillantes dans les données.

Non classé

Paper-DeepSeek-R1 : Incitation à la capacité de raisonnement dans les LLM via l'apprentissage par renforcement

Pardeepseeker 29 janvier 202529 janvier 2025

Résumé Ce document présente les modèles de raisonnement de première génération de DeepSeek : DeepSeek-R1-Zero et DeepSeek-R1. DeepSeek-R1-Zero, formé par apprentissage par renforcement à grande échelle (RL) sans réglage fin supervisé (SFT), démontre des capacités de raisonnement remarquables. Grâce à l'apprentissage par renforcement, il développe naturellement de puissants comportements de raisonnement. Cependant, il est confronté à des défis tels qu'une mauvaise lisibilité et un mélange de langues. Pour résoudre ces problèmes et améliorer les performances de raisonnement, DeepSeek-R1 a été développé,...

Non classé

Dernières nouvelles ! OpenAI a publié 2 nouveaux modèles d'inférence aujourd'hui : o3-mini et o3-mini-high.

Parzddeepseeker 1er février 20251er février 2025

o3-mini et o3-mini (high) seront disponibles aujourd'hui. Les utilisateurs réguliers recevront également o3-mini, et les utilisateurs plus pourront utiliser o3-mini (high). o3-mini (high) est environ 200 points plus élevé que o1 sur Codeforce, plus rapide que o1, et a de meilleures performances en codage et en mathématiques, mais le coût est encore au niveau de o1-mini....

Non classé

Comment DeepSeek a-t-il été créé ? Une analyse de l'historique de la croissance de DeepSeek

Parzddeepseeker 3 février 20253 février 2025

À l'avenir, il y aura de plus en plus d'innovations radicales. Ce n'est peut-être pas facile à comprendre aujourd'hui, parce que l'ensemble du groupe social a besoin d'être éduqué par des faits. Lorsque cette société permettra aux personnes qui innovent de façon radicale de réussir, l'état d'esprit collectif changera. Nous avons juste besoin d'un ensemble de faits et d'un processus....

Non classé

Mise à jour DeepSeek-R1-0528 : Réflexion plus approfondie, raisonnement plus solide

Parzddeepseeker 29 mai 202529 mai 2025

Le modèle DeepSeek R1 a bénéficié d'une mise à jour mineure, la version actuelle étant la DeepSeek-R1-0528. Lorsque vous accédez à la page web ou à l'application DeepSeek, activez la fonction « Réflexion approfondie » dans l'interface de dialogue pour découvrir la dernière version. Les poids du modèle DeepSeek-R1-0528 ont été téléchargés sur HuggingFace. Au cours des quatre derniers mois, le DeepSeek-R1 a bénéficié…

Non classé

Il est proche de DeepSeek-R1-32B et écrase le s1 de Fei-Fei Li ! UC Berkeley et d'autres nouveaux modèles d'inférence SOTA open source

Parzddeepseeker 14 février 202514 février 2025

Le modèle d'inférence 32B n'utilise que 1/8 des données et est à égalité avec DeepSeek-R1 de la même taille ! À l'heure actuelle, des institutions telles que Stanford, UC Berkeley et l'Université de Washington ont publié conjointement un modèle d'inférence de niveau SOTA, OpenThinker-32B, et ont également ouvert le code source de jusqu'à 114 000 données d'entraînement. Page d'accueil du projet OpenThinker : OpenThinker Hugging Face :…

Non classé

Cathie Wood : DeepSeek ne fait qu'accélérer le processus de réduction des coûts ; la structure de marché extrêmement concentrée comparable à celle de la Grande Dépression va changer

Parzddeepseeker 8 février 20258 février 2025

Points forts La concurrence avec DeepSeek est bonne pour les États-Unis Cathie Wood : Je pense que cela montre que le coût de l’innovation est en baisse spectaculaire et que cette tendance a déjà commencé. Par exemple, avant DeepSeek, le coût de la formation de l’intelligence artificielle a chuté de 75% par an, et le coût de l’inférence a même chuté de 85% pour atteindre 10 ...

Google a publié trois nouveaux modèles à la fois : Gemini-2.0-Pro est gratuit, a un score exceptionnel et se classe au premier rang, et convient au codage et au traitement d'invites complexes !

Paper-DeepSeek-R1 : Incitation à la capacité de raisonnement dans les LLM via l'apprentissage par renforcement

Dernières nouvelles ! OpenAI a publié 2 nouveaux modèles d'inférence aujourd'hui : o3-mini et o3-mini-high.

Comment DeepSeek a-t-il été créé ? Une analyse de l'historique de la croissance de DeepSeek

Mise à jour DeepSeek-R1-0528 : Réflexion plus approfondie, raisonnement plus solide

Il est proche de DeepSeek-R1-32B et écrase le s1 de Fei-Fei Li ! UC Berkeley et d'autres nouveaux modèles d'inférence SOTA open source

Cathie Wood : DeepSeek ne fait qu'accélérer le processus de réduction des coûts ; la structure de marché extrêmement concentrée comparable à celle de la Grande Dépression va changer

Laisser un commentaire Annuler la réponse

A lire également

Laisser un commentaire Annuler la réponse