„Google“ išleido tris naujus modelius vienu metu: „Gemini-2.0-Pro“ yra nemokama, turi puikų balą ir užima pirmąją vietą bei tinka koduoti ir apdoroti sudėtingus raginimus!

Istorija apie Gemi n aš 2.0 įsibėgėja.

Gruodžio mėn. „Flash Thinking Experimental“ versija kūrėjams atnešė veikiantį modelį su maža delsa ir dideliu našumu.

Anksčiau šiais metais „Google AI Studio“ buvo atnaujintas 2.0 „Flash Thinking Experimental“, siekiant dar labiau pagerinti našumą, derinant „Flash“ greitį su patobulintomis išvadų galimybėmis.

Praėjusią savaitę atnaujinta 2.0 Flash versija buvo visiškai paleista Gemini darbalaukio ir mobiliosiose programėlėse.

Šiandien tuo pačiu metu buvo pristatyti trys nauji nariai: eksperimentinė Gemini 2.0 Pro versija, kuri iki šiol geriausiai pasirodė koduojant ir atliekant sudėtingus nurodymus, ekonomiška 2.0 Flash-Lite ir mąstymo patobulinta versija 2.0 Flash Thinking.

Gemini 2.0 Pro užima pirmąją vietą visose kategorijose. Gemini-2.0-Flash patenka į trejetuką pagal kodavimą, matematiką ir galvosūkius. „Flash-lite“ visose kategorijose patenka į dešimtuką.

Trijų modelių gebėjimų palyginimo lentelė:

Visi modeliai palaiko daugiarūšio įvesties ir išvesties tekstą.

Yra daugiau modalinių gebėjimų. Modelio stiprumo diagrama kodavimo arenoje

Laimėjimo greičio šilumos žemėlapis

„Google“ su nemokamais vartotojais elgiasi geriau nei „OpenAI“ su „Plus“ vartotojais. Nemokama prieiga prie Gemini 2.0 Pro Experimental AI Studio:

Spustelėkite norėdami žaisti

Deepseek paslauga visada rodo laukiančią klaidą... Atminkite, kad pirmasis modelis be išvadų taip pat buvo 2.0 Flash Thinking, kuris buvo naudojamas Google aistudio.

Be to, yra Gemini internetinė versija:

Taip pat yra prijungtas išvados modelis (tad kam jį atskirti...)

„Google“ išleido eksperimentinę „Gemini 2.0 Pro“ versiją, o oficialių etaloninių testų patobulinimai gana traukia akį.

Jis turi galingiausias kodavimo galimybes ir gebėjimą apdoroti sudėtingus raginimus, taip pat geriau suprasti ir pagrįsti pasaulio žinias nei bet kuris iki šiol „Google“ išleistas modelis.

Jis turi didžiausią konteksto langą (200k, o mano ilgas kontekstas yra gana didelis Gemini modelio privalumas), kuris leidžia visapusiškai analizuoti ir suprasti didelį kiekį informacijos bei iškviesti tokius įrankius kaip Google paieška ir kodo vykdymas.

Atliekant MATH testą, jis pasiekė 91.8%, ty maždaug 5 procentiniais punktais daugiau nei 1.5 versija. GPQA samprotavimo gebėjimas pasiekė 64,7%, o SimpleQA pasaulio žinių testas pasiekė net 44,3%.

Svarbiausias yra programavimo gebėjimas. „LiveCodeBench“ teste jis pasiekė 36.0%, o Bird-SQL konversijos tikslumas viršijo 59.3%. Kartu su itin dideliu 2 milijonų žetonų konteksto langu pakanka atlikti sudėtingiausias kodo analizės užduotis.

Galite tai išbandyti naudodami žymeklį.

Įspūdingas ir kelių kalbų supratimo gebėjimas, kurio pasaulinis MMLU testo rezultatas yra 86,5%. Vaizdo supratimo MMMU yra 72,7%, o vaizdo analizės galimybė yra 71,9%.

Gemini 2.0 Flash-Lite yra įdomus balansas.

Jis palaiko 1,5 Flash greitį ir kainą, tačiau užtikrina geresnį našumą. Konteksto langas su 1 milijonu žetonų leidžia apdoroti daugiau informacijos.

Praktiškiausias dalykas yra jo kainos ir našumo santykis: titrų generavimas 40 000 nuotraukų kainuoja pigiau nei $1. Tai daro AI paprastesnį.

Tinklaraštininkė Shrivastava paminėjo: Gemini 2.0 Pro kodavimas yra beprotiškas!

Patarimas: naudokite Three.js, kad sukurtumėte saulės sistemos modeliavimą. Pridėkite laiko skalę, fokusavimo išskleidžiamąjį meniu, rodykite orbitas ir rodykite etiketes. Sukurkite viską viename faile, kad galėčiau įklijuoti jį į internetinį redaktorių ir peržiūrėti išvestį.

Be to, kai kurie vartotojai paminėjo, kad „Gemini 2.0 Flash“ davė geresnių rezultatų viename iš jo paties paradokso testų:

Galiausiai „Google“ paminėjo, kad „Gemini 2.0“ saugumas, o ne tik pataisa, yra dizaino pagrindas nuo pat pradžių.

Tegul modelis išmoksta būti savikritiškas. Naudokite sustiprinimo mokymąsi, kad Dvyniai įvertintų savo atsakymus ir pateiktų tikslesnius atsiliepimus. Dėl to jis tampa patikimesnis sprendžiant jautrias temas.

Įdomus yra automatinis raudonosios komandos testavimas. Jis specialiai sukurtas taip, kad būtų išvengta netiesioginių raginimų žodžių įvedimo, o tai tarsi AI aprūpinimas imunine sistema, kad kas nors nepaslėptų kenkėjiškų komandų duomenyse.

Uncategorized

Pirmasis paleidimas! "SiliconFlow X Huawei Cloud" kartu pradeda teikti DeepSeek R1 ir V3 išvadų paslaugas, pagrįstas "Ascend Cloud"!

PagalZddeepseeker vasario 1 d., 2025 m.vasario 1 d., 2025 m.

DeepSeek-R1 ir DeepSeek-V3 sukėlė pasaulinę sensaciją nuo pat jų atvirojo kodo paleidimo. Jie yra DeepSeek komandos dovana visai žmonijai, ir mes nuoširdžiai džiaugiamės jų sėkme. Po kelių dienų sunkaus "Silicon Mobility" ir "Huawei Cloud" komandų darbo, šiandien Kinijos naudotojams taip pat dovanojame kinišką...

Uncategorized

Svarbiausios naujienos! Šiandien "OpenAI" išleido 2 naujus išvadų modelius: o3-mini ir o3-mini-high.

PagalZddeepseeker vasario 1 d., 2025 m.vasario 1 d., 2025 m.

o3-mini ir o3-mini (high) bus išleistos šiandien. Nuolatiniai naudotojai taip pat gaus o3-mini, o plius naudotojai galės naudoti o3-mini (high). o3-mini (high) yra maždaug 200 taškų aukštesnis už o1 Codeforce, greitesnis už o1 ir pasižymi geresniais kodavimo ir matematikos rezultatais, tačiau kaina vis dar yra o1-mini lygio....

Uncategorized

Ali Qwen2.5-Max aplenkė DeepSeek-V3! Internautas: Kinijos AI sparčiai mažina atotrūkį

PagalZddeepseeker 2025 m. vasario 5 d2025 m. vasario 5 d

Ką tik į „Ali“ „Big Model Arena“ sąrašą buvo įtrauktas dar vienas vietinis modelis „Qwen2.5-Max“, kuris aplenkė DeepSeek-V3 ir užėmė septintąją vietą bendroje reitinge, surinkęs 1332 balus. Jis taip pat aplenkė tokius modelius kaip „Claude 3.5 Sonnet“ ir „Llama 3.1 405B“ vienu fellllswoop. Visų pirma, jis išsiskiria programavimu…

Uncategorized

Pagrindiniai pasaulyje dirbtinio intelekto produktai orientuoti į analizę ir išsamias vartotojo patirties gaires (įskaitant DeepSeek ir GPT)

PagalZddeepseeker 2025 m. vasario 10 d2025 m. vasario 10 d

Funkcijų padėties nustatymas ir pagrindinių pranašumų analizė ChatGPT (OpenAI) – pasaulinis etalonas, skirtas visiems ChatGPT Techniniai genai: generuojantis AI, pagrįstas didelių modelių GPT serija, kurio pagrindiniai privalumai yra bendrieji pokalbio įgūdžiai ir loginis samprotavimas. Daugiakalbis apdorojimas: geriausiai veikia anglų kalba, nuolat tobulinama kinų kalba; tačiau rekomenduojame naudoti anglų kalbą, kad…

Uncategorized

Išsamus "OpenAI" naujai išleistų "o3-mini" ir DeepSeek R1 palyginimas

PagalZddeepseeker vasario 1 d., 2025 m.vasario 1 d., 2025 m.

"OpenAI" išleido naujausią išvadų modelį "o3-mini", optimizuotą tokioms sritims kaip gamtos mokslai, matematika ir programavimas, užtikrinantį greitesnį atsaką, didesnį tikslumą ir mažesnes sąnaudas. Palyginti su savo pirmtaku o1-mini, o3-mini gerokai pagerino išvadų darymo galimybes, ypač sprendžiant sudėtingus uždavinius. Testuotojai pirmenybę teikia o3-mini atsakymams 56%, o klaidų lygis sumažėjo...

Uncategorized

Cathie Wood: DeepSeek tik pagreitina sąnaudų mažinimo procesą; keisis itin koncentruota rinkos struktūra, panaši į Didžiąją depresiją

PagalZddeepseeker 2025 m. vasario 8 d2025 m. vasario 8 d

Svarbiausi įvykiai Konkurencija su DeepSeek naudinga JAV Cathie Wood: manau, kad tai rodo, kad naujovių kaina smarkiai krenta ir kad ši tendencija jau prasidėjo. Pavyzdžiui, prieš DeepSeek dirbtinio intelekto mokymo kaina sumažėjo 75% per metus, o išvadų kaina netgi sumažėjo 85% iki…

Panašios žinutės

Parašykite komentarą Atšaukti atsakymą