Google heeft drie nieuwe modellen tegelijk uitgebracht: Gemini-2.0-Pro is gratis, heeft een uitstekende score en staat op de eerste plaats, en is geschikt voor het coderen en verwerken van complexe prompts!

Het verhaal van Tweelingen n ik 2.0 versnelt.

De experimentele versie van Flash Thinking in december bood ontwikkelaars een werkend model met lage latentie en hoge prestaties.

Eerder dit jaar werd Flash Thinking Experimental 2.0 geüpdatet in Google AI Studio om de prestaties verder te verbeteren door de snelheid van Flash te combineren met verbeterde inferentiemogelijkheden.

Afgelopen week werd de bijgewerkte versie 2.0 Flash volledig gelanceerd op de Gemini desktop- en mobiele apps.

Vandaag zijn er tegelijkertijd drie nieuwe leden onthuld: de experimentele versie van Gemini 2.0 Pro, die tot nu toe het beste presteerde op het gebied van codering en complexe prompts, de kosteneffectieve 2.0 Flash-Lite en de denkverbeterde versie 2.0 Flash Thinking.

Gemini 2.0 Pro staat op de eerste plaats in alle categorieën. Gemini-2.0-Flash staat in de top drie in codering, wiskunde en puzzels. Flash-lite staat in de top tien in alle categorieën.

Een vergelijkingstabel van de mogelijkheden van de drie modellen:

Alle modellen ondersteunen multimodale invoer- en uitvoertekst.

Er komen meer modale mogelijkheden. Model strength chart in de coding arena

Heatmap voor winstpercentage

Google behandelt gratis gebruikers beter dan OpenAI Plus-gebruikers behandelt. Gratis toegang tot Gemini 2.0 Pro Experimental in AI Studio:

Klik om te spelen

De Deepseek-service geeft altijd een foutmelding weer bij het wachten… Vergeet niet dat het eerste inferentievrije model ook Flash Thinking 2.0 was, dat werd gebruikt in Google aistudio.

Daarnaast is er de webversie van Gemini:

Er is ook een samenhangend inferentiemodel (waarom zouden we het dan scheiden…)

Google heeft de experimentele versie van Gemini 2.0 Pro uitgebracht en de verbeteringen in officiële benchmarktests zijn opvallend.

Het beschikt over de krachtigste coderingsmogelijkheden, kan complexe opdrachten verwerken en kan wereldkennis beter begrijpen en erover redeneren dan elk ander model dat Google tot nu toe heeft uitgebracht.

Het heeft het grootste contextvenster (200k, en mijn lange context is een relatief groot voordeel van het Gemini-model), waardoor het een grote hoeveelheid informatie uitgebreid kan analyseren en begrijpen, en hulpmiddelen zoals Google-zoekopdrachten en code-uitvoering kan aanroepen.

In de MATH-test behaalde het een score van 91,8%, een stijging van ongeveer 5 procentpunten ten opzichte van versie 1.5. Het GPQA-redeneervermogen bereikte een score van 64,7% en de SimpleQA-wereldkennistest zelfs een score van 44,3%.

Het meest opvallende is het programmeervermogen. Het behaalde 36.0% in de LiveCodeBench-test en de Bird-SQL-conversienauwkeurigheid overtrof 59.3%. Gecombineerd met het supergrote contextvenster van 2 miljoen tokens is het voldoende om de meest complexe codeanalysetaken uit te voeren.

Je kunt het in de cursor uitproberen.

Ook het vermogen om meerdere talen te begrijpen is indrukwekkend, met een Global MMLU-testscore van 86,5%. Het vermogen om afbeeldingen te begrijpen (MMMU) is 72,7% en het vermogen om video's te analyseren is 71,9%.

Gemini 2.0 Flash-Lite is een interessante balans.

Het behoudt de snelheid en kosten van 1.5 Flash, maar levert betere prestaties. Het contextvenster met 1 miljoen tokens zorgt ervoor dat het meer informatie kan verwerken.

Het meest praktische is de prijs/prestatieverhouding: het genereren van onderschriften voor 40.000 foto's kost minder dan $1. Dit maakt AI nuchterder.

Blogger Shrivastava zei: Gemini 2.0 Pro-codering is waanzinnig!

Tip: gebruik Three.js om een simulatie van het zonnestelsel te maken. Voeg een tijdschaal, een focus dropdown menu, toon banen en toon labels. Maak alles in één bestand zodat ik het in een online editor kan plakken en de output kan bekijken.

Bovendien gaven sommige gebruikers aan dat Gemini 2.0 Flash betere resultaten opleverde in een van zijn eigen paradoxtests:

Tot slot gaf Google aan dat de beveiliging van Gemini 2.0, en niet alleen de patch, vanaf het begin centraal staat in het ontwerp.

Laat het model leren zelfkritisch te zijn. Gebruik reinforcement learning om Gemini zijn eigen antwoorden te laten evalueren en nauwkeurigere feedback te geven. Dit maakt het robuuster bij het omgaan met gevoelige onderwerpen.

De geautomatiseerde red team-test is interessant. Het is specifiek ontworpen om de injectie van indirecte promptwoorden te voorkomen, wat vergelijkbaar is met het uitrusten van de AI met een immuunsysteem om te voorkomen dat iemand kwaadaardige commando's in de data verbergt.

Uncategorized

Laatste nieuws! DeepSeek-onderzoeker onthult online: R1-training duurde slechts twee tot drie weken, en een krachtige evolutie van R1 zero werd waargenomen tijdens de Chinese Nieuwjaarsvakantie

Doorzddeepseeker 4 februari 20254 februari 2025

Laatste nieuws! DeepSeek-onderzoeker onthult online: R1-training duurde slechts twee tot drie weken en er werd een krachtige evolutie van R1 zero waargenomen tijdens de Chinese Nieuwjaarsvakantie. We merkten net dat DeepSeek-onderzoeker Daya Guo reageerde op vragen van internetgebruikers over DeepSeek R1 en de plannen van het bedrijf voor de toekomst. We kunnen alleen maar zeggen...

Uncategorized

Ali Qwen2.5-Max haalt DeepSeek-V3 in! Netizen: Chinese AI dicht snel de kloof

Doorzddeepseeker 5 februari 20255 februari 2025

Zojuist is er nog een binnenlands model toegevoegd aan de Big Model Arena-lijst van Ali, Qwen2.5-Max, die DeepSeek-V3 overtrof en zevende werd in de algemene rangschikking met een totaalscore van 1332. Het overtrof ook modellen als Claude 3.5 Sonnet en Llama 3.1 405B in één klap. Het blinkt met name uit in programmeren…

Uncategorized

Le Chat staat bovenaan de lijst, met een investering van honderd miljard dollar. Is het na de VS en China de derde AI-macht?

Doorzddeepseeker 11 februari 202511 februari 2025

Op 9 februari kondigde de Franse president Emmanuel Macron aan dat Frankrijk de komende jaren 109 miljard euro (113 miljard Amerikaanse dollars) zou investeren in het veld van AI. Deze investering zal worden gebruikt om een AI-park in Frankrijk te bouwen, de infrastructuur te verbeteren en te investeren in lokale AI-startups. Ondertussen heeft Mistral, een Franse startup,…

Uncategorized

Qwen2.5-max vs DeepSeek R1: een diepgaande vergelijking van modellen: een volledige analyse van toepassingsscenario's

Doorzddeepseeker 14 februari 202514 februari 2025

Inleiding Tegenwoordig spelen grote taalmodellen (LLM's) een cruciale rol. Begin 2025, toen de concurrentie voor AI toenam, lanceerde Alibaba het nieuwe Qwen2.5-max AI-model en DeepSeek, een bedrijf uit Hangzhou, China, lanceerde het R1-model, dat het hoogtepunt van LLM-technologie vertegenwoordigt. Deepseek R1 is een open source AI-model dat…

Uncategorized

DeepSeek TOP17 Beste alternatieven: uitgebreide analyse (2025)

Doordeepseeker 6 februari 20256 februari 2025

Inleiding In het snel evoluerende landschap van kunstmatige intelligentie is DeepSeek naar voren gekomen als een krachtig taalmodel. Deze uitgebreide analyse onderzoekt de 17 beste alternatieven voor DeepSeek en onderzoekt hun unieke functies, mogelijkheden en use cases. Ons onderzoek richt zich op zowel internationale als Chinese platforms die DeepSeek-integratie of vergelijkbare mogelijkheden bieden. Analyse van de beste alternatieven 1….

Uncategorized

OpenAI o3-mini vs. DeepSeek-R1: Wie is de koning van de nieuwe generatie AI-modellen?

Doorzddeepseeker 1 februari 20251 februari 2025

o3-mini is er, met het momentum van een uitdager Op 31 januari heeft OpenAI het gloednieuwe grote model o3-mini vrijgegeven en een aantal functies ervan gratis beschikbaar gesteld aan alle ChatGPT-gebruikers. Hoewel er een limiet is op het aantal query's, kunnen gebruikers OpenAI's nieuwste commerciële model zo snel mogelijk ervaren....

Vergelijkbare berichten

Geef een reactie Reactie annuleren