Google on välja andnud kolm uut mudelit korraga: Gemini-2.0-Pro on tasuta, suurepärase punktisummaga ja esikohal ning sobib keerukate viipade kodeerimiseks ja töötlemiseks!

Lugu sellest Gemi n mina 2.0 kiireneb.

Detsembris ilmunud Flash Thinking Experimental versioon tõi arendajatele madala latentsusajaga ja suure jõudlusega töötava mudeli.

Selle aasta alguses värskendati Google AI Studios versiooni 2.0 Flash Thinking Experimental, et veelgi parandada jõudlust, ühendades Flashi kiiruse täiustatud järeldamisvõimalustega.

Eelmisel nädalal käivitati Gemini töölaua- ja mobiilirakendustes täielikult uuendatud versioon 2.0 Flash.

Täna on korraga avalikustatud kolm uut liiget: Gemini 2.0 Pro eksperimentaalne versioon, mis on seni kõige paremini toiminud kodeerimisel ja keeruliste viipade alal, kuluefektiivne 2.0 Flash-Lite ja mõtlemise täiustatud versioon 2.0 Flash Thinking.

Gemini 2.0 Pro on kõigis kategooriates esikohal. Gemini-2.0-Flash on kodeerimise, matemaatika ja mõistatuste osas esikolmikus. Flash-lite on kõigis kategooriates esikümnes.

Kolme mudeli võimete võrdlustabel:

Kõik mudelid toetavad multimodaalset teksti sisestamist ja väljundit.

Rohkem modaalseid võimeid on teel. Mudeli tugevuskaart kodeerimisareenil

Võidumäära soojuskaart

Google kohtleb tasuta kasutajaid paremini kui OpenAI Plusi kasutajaid. Tasuta juurdepääs Gemini 2.0 Pro Experimentalile AI Studios:

Klõpsake mängimiseks

Deepseek teenus kuvab alati veateadet ootamas... Pidage meeles, et esimene järeldusteta mudel oli ka 2.0 Flash Thinking, mida kasutati Google Aistudios.

Lisaks on olemas Gemini veebiversioon:

Samuti on ühendatud järeldusmudel (miks see siis eraldada…)

Google andis välja Gemini 2.0 Pro eksperimentaalse versiooni ja ametlike võrdlustestide paranemine on üsna pilkupüüdev.

Sellel on võimsaimad kodeerimisvõimalused ja võime töödelda keerulisi viipasid ning paremini mõista ja põhjendada maailmateadmisi kui ükski Google'i seni välja antud mudel.

Sellel on suurim kontekstiaken (200k ja minu pikk kontekst on Gemini mudeli suhteliselt suur eelis), mis võimaldab suurel hulgal infot igakülgselt analüüsida ja mõista ning kutsuda välja selliseid tööriistu nagu Google'i otsing ja koodikäivitus.

MATH testis saavutas see 91.8%, mis on umbes 5 protsendipunkti tõus võrreldes versiooniga 1.5. GPQA arutlusvõime jõudis 64,7%-ni ja SimpleQA maailmateadmiste test isegi 44,3%-ni.

Kõige tähelepanuväärsem on programmeerimisvõime. See saavutas LiveCodeBenchi testis 36,0% ja Bird-SQL-i teisendamise täpsus ületas 59,3%. Koos ülisuure 2 miljonist märgist koosneva kontekstiaknaga piisab kõige keerukamate koodianalüüsi ülesannete lahendamiseks.

Saate seda kursoris proovida.

Muljetavaldav on ka mitme keele mõistmise võime, globaalse MMLU testi skoor on 86.5%. Kujutise mõistmise MMMU on 72,7% ja videoanalüüsi võime on 71,9%.

Gemini 2.0 Flash-Lite on huvitav tasakaal.

See säilitab 1,5 Flashi kiiruse ja maksumuse, kuid tagab parema jõudluse. 1 miljoni märgiga kontekstiaken võimaldab töödelda rohkem teavet.

Kõige praktilisem on selle hinna ja jõudluse suhe: 40 000 foto pealkirjade genereerimine maksab vähem kui $1. See muudab AI maalähedasemaks.

Blogger Shrivastava mainis: Gemini 2.0 Pro kodeering on hull!

Näpunäide: kasutage Päikesesüsteemi simulatsiooni loomiseks Three.js. Lisage ajaskaala, fookuse rippmenüü, kuvage orbiite ja kuvage silte. Looge kõik ühes failis, et saaksin selle veebiredaktorisse kleepida ja väljundit vaadata.

Lisaks mainisid mõned kasutajad, et Gemini 2.0 Flash andis ühes tema enda paradokstestis paremaid tulemusi:

Lõpuks mainis Google, et Gemini 2.0 turvalisus, mitte ainult plaaster, on algusest peale disaini keskmes.

Las modell õpib olema enesekriitiline. Kasutage tugevdavat õpet, et lasta Kaksikutel oma vastuseid hinnata ja anda täpsemat tagasisidet. See muudab selle tundlike teemade käsitlemisel tugevamaks.

Automaatne punase meeskonna testimine on huvitav. See on spetsiaalselt loodud selleks, et vältida kaudsete viipade sisestamist, mis on nagu tehisintellekti varustamine immuunsüsteemiga, et takistada kellelgi pahatahtlikke käske andmetes peitmast.

Mittekategoriseeritud

Kuidas loodi DeepSeek? DeepSeek kasvuloo analüüs

Autorzddeepseeker veebruar 3, 2025veebruar 3, 2025

Tulevikus on üha rohkem ja rohkem uuendusi. Praegu ei pruugi see olla lihtne mõista, sest kogu sotsiaalset rühma tuleb harida faktidega. Kui see ühiskond lubab inimestel, kes uuendavad hardcore, edu saavutada, muutub kollektiivne mõtteviis. Me vajame lihtsalt hulga fakte ja protsessi.....

Mittekategoriseeritud

DeepSeek R1 paberi tõlgendamine ja peamised tehnilised punktid

Autorzddeepseeker 9. veebruar 20259. veebruar 2025

1 Taust Kevadfestivali ajal äratas DeepSeek R1 taas laialdast tähelepanu ning isegi meie varem kirjutatud DeepSeek V3 tõlgendusartikkel edastati uuesti ja seda arutati palju. Kuigi DeepSeek R1 analüüse ja reproduktsioone on tehtud palju, otsustasime siinkohal koostada mõned vastavad lugemismärkmed. Kasutame kolme…

Mittekategoriseeritud

Tehnoloogia DeepSeek-R1 paljastas: paberi põhiprintsiibid on lahti võetud ja mudeli läbimurdelise jõudluse võti paljastatakse

Autorzddeepseeker 9. veebruar 20259. veebruar 2025

Täna jagame DeepSeek R1, pealkiri: DeepSeek-R1: LLM-ide arutlusvõime stimuleerimine tugevdava õppe kaudu: LLM-i arutlusvõime ergutamine tugevdava õppe kaudu. See artikkel tutvustab DeepSeek esimese põlvkonna arutlusmudeleid DeepSeek-R1-Zero ja DeepSeek-R1. Mudelit DeepSeek-R1-Zero koolitati esimese sammuna suuremahulise tugevdusõppe (RL) abil ilma juhendatud peenhäälestuseta (SFT),…

Mittekategoriseeritud

a16z dialoog 27-aastase tegevjuhiga: AI agendil on tohutu võimendav mõju ja pikaajaline hinnakujundus on seotud tööjõukuludega

Autorzddeepseeker veebruar 8, 2025veebruar 8, 2025

Esiletõstetud AI Agent kujundab kliendikogemuse ümber Jesse Zhang: Kuidas agent tegelikult koostatakse? Meie seisukoht on, et aja jooksul muutub see üha enam loomuliku keelepõhise agendi sarnaseks, sest nii koolitatakse suuri keelemudeleid (LLM). Pikas perspektiivis, kui teil on ülitark agent, kes…

Mittekategoriseeritud

Qwen2.5-max vs DeepSeek R1: mudelite põhjalik võrdlus: rakendusstsenaariumide täielik analüüs

Autorzddeepseeker 14. veebruar 202514. veebruar 2025

Sissejuhatus Tänapäeval on suurtel keelemudelitel (LLM) oluline roll. 2025. aasta alguses, kui konkurents tehisintellekti pärast teravnes, tõi Alibaba turule uue Qwen2.5-max AI mudeli ja Hiina Hangzhou ettevõte DeepSeek tõi turule mudeli R1, mis esindab LLM-tehnoloogia tippu. Deepseek R1 on avatud lähtekoodiga AI mudel, mis on meelitanud…

Mittekategoriseeritud

DeepSeek 1 saladus | DeepSeekMath ja GRPO üksikasjad

Autorzddeepseeker 9. veebruar 20259. veebruar 2025

Täna tahaksin jagada DeepSeek artiklit pealkirjaga DeepSeekMath: Matemaatilise arutluse piiride lükkamine avatud keelemudelites. Selles artiklis tutvustatakse versiooni DeepSeekMath 7B, mis on eelkoolitatud versioonil DeepSeek-Coder-Base-v1.5 7B, mis põhineb 120B matemaatikaga seotud žetoonide, loomuliku keele ja koodi andmetel. Mudel saavutas konkurentsitasemel hämmastava skoori 51,7%…

Sarnased postitused

Lisa kommentaar Tühista vastus