Google je izdal tri nove modele naenkrat: Gemini-2.0-Pro je brezplačen, ima izjemen rezultat in je na prvem mestu ter je primeren za kodiranje in obdelavo zapletenih pozivov!

Zgodba o Gemi n i 2.0 se pospešuje.

Različica Flash Thinking Experimental decembra je razvijalcem prinesla delujoč model z nizko zakasnitvijo in visoko zmogljivostjo.

V začetku tega leta je bil 2.0 Flash Thinking Experimental posodobljen v Google AI Studio za nadaljnje izboljšanje zmogljivosti s kombinacijo hitrosti Flasha in izboljšanih zmožnosti sklepanja.

Prejšnji teden je bila posodobljena različica 2.0 Flash v celoti predstavljena v namiznih in mobilnih aplikacijah Gemini.

Danes so bili hkrati predstavljeni trije novi člani: eksperimentalna različica Gemini 2.0 Pro, ki se je do zdaj najbolje obnesla pri kodiranju in zapletenih pozivih, stroškovno učinkovita različica 2.0 Flash-Lite in različica 2.0 Flash Thinking z izboljšano miselnostjo.

Gemini 2.0 Pro je na prvem mestu v vseh kategorijah. Gemini-2.0-Flash se uvršča med prve tri na področju kodiranja, matematike in ugank. Flash-lite se v vseh kategorijah uvršča med prvih deset.

Primerjalna tabela sposobnosti treh modelov:

Vsi modeli podpirajo multimodalni vnos in izhod besedila.

Več modalnih zmožnosti je na poti. Tabela moči modela v areni kodiranja

Toplotni zemljevid stopnje zmage

Google brezplačne uporabnike obravnava bolje kot OpenAI uporabnike Plus. Brezplačen dostop do Gemini 2.0 Pro Experimental v AI Studio:

Kliknite za igranje

Storitev Deepseek vedno prikaže čakajočo napako ... Ne pozabite, da je bil tudi prvi model brez sklepanja 2.0 Flash Thinking, ki je bil uporabljen v Google aistudio.

Poleg tega obstaja spletna različica Geminija:

Obstaja tudi povezan model sklepanja (zakaj bi ga torej ločevali ...)

Google je izdal eksperimentalno različico Gemini 2.0 Pro, izboljšanje uradnih primerjalnih testov pa je kar vpadljivo.

Ima najmočnejše zmožnosti kodiranja in zmožnost obdelave zapletenih pozivov ter ima boljšo zmožnost razumevanja in razmišljanja o svetovnem znanju kot kateri koli model, ki ga je doslej izdal Google.

Ima največje kontekstno okno (200k, moj dolg kontekst pa je relativno velika prednost modela Gemini), kar mu omogoča celovito analizo in razumevanje velike količine informacij ter priklic orodij, kot je Google iskanje in izvajanje kode.

V testu MATH je dosegel 91,8%, kar je približno 5 odstotnih točk več kot različica 1.5. Sposobnost sklepanja GPQA je dosegla 64,7%, svetovni test znanja SimpleQA pa celo 44,3%.

Najbolj opazna je sposobnost programiranja. V testu LiveCodeBench je dosegel 36,0%, natančnost pretvorbe Bird-SQL pa je presegla 59,3%. Skupaj z izjemno velikim kontekstnim oknom z 2 milijonoma žetonov je dovolj za reševanje najzapletenejših nalog analize kode.

Preizkusite ga lahko v kazalcu.

Zmožnost večjezičnega razumevanja je prav tako impresivna, z rezultatom testa Global MMLU 86,5%. Razumevanje slike MMMU je 72,7%, zmožnost analize videa pa 71,9%.

Gemini 2.0 Flash-Lite je zanimivo ravnotežje.

Ohranja hitrost in ceno 1.5 Flash, vendar prinaša boljšo zmogljivost. Kontekstno okno z 1 milijonom žetonov omogoča obdelavo več informacij.

Najbolj praktično je njegovo razmerje med ceno in zmogljivostjo: ustvarjanje napisov za 40.000 fotografij stane manj kot $1. Zaradi tega je AI bolj prizemljen.

Bloger Shrivastava je omenil: kodiranje Gemini 2.0 Pro je noro!

Nasvet: uporabite Three.js za ustvarjanje simulacije solarnega sistema. Dodajte časovno lestvico, spustni meni za fokus, pokažite orbite in pokažite oznake. Ustvarite vse v eni datoteki, da jo lahko prilepim v spletni urejevalnik in si ogledam rezultat.

Poleg tega so nekateri uporabniki omenili, da je Gemini 2.0 Flash dosegel boljše rezultate v enem od njegovih testov paradoksa:

Nazadnje je Google omenil, da je varnost Gemini 2.0, ne le popravek, v središču zasnove že od začetka.

Naj se model nauči biti samokritičen. Uporabite okrepljeno učenje, da Gemini omogočite, da sam oceni svoje odgovore in zagotovi natančnejšo povratno informacijo. Zaradi tega je bolj robusten pri obravnavanju občutljivih tem.

Zanimivo je avtomatizirano testiranje rdeče ekipe. Zasnovan je posebej za preprečevanje vbrizgavanja posrednih pozivnih besed, kar je podobno opremljanju AI z imunskim sistemom, ki preprečuje, da bi nekdo skril zlonamerne ukaze v podatkih.

Nekategorizirano

Primerjava štirih najboljših modelov! Pregled prikazuje, kako zmogljiv je Deepseek R1

Avtor:zddeepseeker 1. junij 20251. junij 2025

V zadnjih nekaj dneh je bil Deepseek-R1 0528 uradno odprtokoden. Na LiveCodeBench je njegova zmogljivost skoraj na ravni OpenAI-jevega o3 (visoka); v Aiderjevem večjezičnem primerjalnem testu se kosa s Claude Opusom. Ko je bil predstavljen na uradni spletni strani, smo hitro preizkusili njegove zmogljivosti v vmesniku in ugotovili, da so izjemno ...

Nekategorizirano

Je blizu DeepSeek-R1-32B in zdrobi s1 Fei-Fei Li! UC Berkeley in drugi odprtokodni novi modeli sklepanja SOTA

Avtor:zddeepseeker 14. februar 202514. februar 2025

Inferenčni model 32B uporablja le 1/8 podatkov in je povezan z DeepSeek-R1 enake velikosti! Pravkar so ustanove, kot so Stanford, UC Berkeley in Univerza v Washingtonu, skupaj izdale model sklepanja na ravni SOTA, OpenThinker-32B, in prav tako odprle do 114k podatkov o usposabljanju. Domača stran projekta OpenThinker: OpenThinker Hugging Face:…

Nekategorizirano

Posodobitev DeepSeek-R1-0528: Globlje razmišljanje, močnejše sklepanje

Avtor:zddeepseeker 29. maj 202529. maj 2025

Model DeepSeek R1 je bil podvržen manjši nadgradnji, trenutna različica je DeepSeek-R1-0528. Ko vstopite na spletno stran ali v aplikacijo DeepSeek, v vmesniku za pogovor omogočite funkcijo »Globoko razmišljanje«, da izkusite najnovejšo različico. Uteži modela DeepSeek-R1-0528 so bile naložene na HuggingFace. V zadnjih štirih mesecih je bil DeepSeek-R1 podvržen…

Nekategorizirano

a16z dialog s 27-letnim izvršnim direktorjem: AI Agent ima ogromen učinek finančnega vzvoda, dolgoročne cene pa bodo povezane s stroški dela

Avtor:zddeepseeker 8. februar 20258. februar 2025

Poudarki AI Agent preoblikuje uporabniško izkušnjo Jesse Zhang: Kako je agent pravzaprav sestavljen? Naše mnenje je, da bo sčasoma vse bolj podoben agentu, ki temelji na naravnem jeziku, ker se tako usposabljajo veliki jezikovni modeli (LLM). Dolgoročno, če imate super inteligentnega agenta, ki ...

Nekategorizirano

Ali Qwen2.5-Max prehitel DeepSeek-V3! Netizen: Kitajska umetna inteligenca hitro zmanjšuje vrzel

Avtor:zddeepseeker 5. februar 20255. februar 2025

Ravno zdaj je bil na seznam Big Model Arena družbe Ali dodan še en domači model, Qwen2.5-Max, ki je presegel DeepSeek-V3 in se uvrstil na sedmo mesto v skupni razvrstitvi s skupnim rezultatom 1332. Z enim zamahom je presegel tudi modela, kot sta Claude 3.5 Sonnet in Llama 3.1 405B. Predvsem se odlikuje v programiranju…

Nekategorizirano

Cathie Wood: DeepSeek samo pospešuje proces zmanjševanja stroškov; ekstremno koncentrirana tržna struktura, primerljiva z veliko depresijo, se bo spremenila

Avtor:zddeepseeker 8. februar 20258. februar 2025

Poudarki Konkurenca z DeepSeek je dobra za ZDA Cathie Wood: Mislim, da kaže, da stroški inovacij dramatično padajo in da se je ta trend že začel. Na primer, pred DeepSeek so stroški usposabljanja umetne inteligence padli za 75% na leto, stroški sklepanja pa celo za 85% na ...

Podobne objave

Dodaj odgovor Prekliči odgovor