
Приказната за Гемиnјас 2.0 се забрзува.
Flash Thinking Experimental верзијата во декември им донесе на програмерите работен модел со мала латентност и високи перформанси.
Претходно оваа година, 2.0 Flash Thinking Experimental беше ажуриран во Google AI Studio за дополнително подобрување на перформансите со комбинирање на брзината на Flash со подобрени способности за заклучување.
Минатата недела, ажурираната верзија 2.0 Flash беше целосно лансирана на Gemini десктоп и мобилни апликации.
Денеска беа претставени три нови членови во исто време: експерименталната верзија на Gemini 2.0 Pro, која досега се покажа најдобро во кодирањето и сложените инструкции, исплатливиот 2.0 Flash-Lite и верзијата 2.0 Flash Thinking засилена со размислување.
Gemini 2.0 Pro е на прво место во сите категории. Gemini-2.0-Flash е рангирана во првите три во кодирање, математика и загатки. Flash-lite се рангира во првите десет во сите категории.


Споредбена табела на способностите на трите модели:

Сите модели поддржуваат мултимодален влез и излез на текст.
Повеќе модални способности се на пат. Табела за јачина на моделот во арената за кодирање

Топлинска карта со стапка на победа

Google ги третира бесплатните корисници подобро отколку OpenAI кон корисниците на Plus. Бесплатен пристап до Gemini 2.0 Pro Experimental во AI Studio:

Услугата Deepseek секогаш прикажува грешка на чекање... Запомнете дека првиот модел без заклучоци беше исто така 2.0 Flash Thinking, кој се користеше во Google aistudio.

Покрај тоа, постои и веб верзија на Близнаци:
Исто така, постои поврзан модел на заклучоци (па зошто да го одделите…)

Google ја објави експерименталната верзија на Gemini 2.0 Pro, а подобрувањето на официјалните бенчмарк тестови е прилично привлечно.

Ги има најмоќните способности за кодирање и способност да обработува сложени потсетници и има подобра способност да разбере и расудува за светското знаење од кој било модел објавен од Google досега.
Има најголем контекстен прозорец (200k, а мојот долг контекст е релативно голема предност на моделот Gemini), што му овозможува сеопфатно да анализира и разбере голема количина на информации и да повикува алатки како што се пребарување на Google и извршување на код.
Во тестот по МАТЕМАТИКА, тој постигна 91,8%, што претставува зголемување од околу 5 процентни поени во однос на верзијата 1.5. Способноста за расудување GPQA достигна 64,7%, а тестот за светско знаење SimpleQA достигна дури 44,3%.
Најзабележителна е способноста за програмирање. Постигна 36,0% во тестот LiveCodeBench, а точноста на конверзијата Bird-SQL надмина 59,3%. Заедно со супер-големиот контекстен прозорец од 2 милиони токени, доволно е да се справите со најсложените задачи за анализа на кодот.

Можете да го пробате во курсорот.
Способноста за разбирање на повеќе јазици е исто така импресивна, со глобален резултат на тестот MMLU од 86,5%. MMMU за разбирање на слики е 72,7%, а способноста за видео анализа е 71,9%.
Gemini 2.0 Flash-Lite е интересен биланс.
Ја одржува брзината и цената на 1,5 Flash, но носи подобри перформанси. Контексниот прозорец со 1 милион токени му овозможува да обработи повеќе информации.
Најпрактично е неговиот сооднос цена/перформанси: генерирањето натписи за 40.000 фотографии чини помалку од $1. Ова ја прави вештачката интелигенција поприземна.

Блогерката Шривастава спомна: Кодирањето Gemini 2.0 Pro е лудо!
Совет: користете Three.js за да креирате симулација на Сончевиот систем. Додајте временска скала, паѓачко мени за фокусирање, прикажувајте орбити и прикажувајте етикети. Направете сè во една датотека за да можам да ја залепам во онлајн уредник и да го прегледам излезот.

Покрај тоа, некои корисници спомнаа дека Gemini 2.0 Flash даде подобри резултати во еден од неговите сопствени тестови за парадокс:

Конечно, Google спомена дека безбедноста на Gemini 2.0, а не само закрпата, е во сржта на дизајнот од самиот почеток.
Нека моделот научи да биде самокритичен. Користете го учењето за засилување за да му дозволите на Близнаците да ги проценат сопствените одговори и да дадат попрецизни повратни информации. Ова го прави поробустен кога се занимавате со чувствителни теми.
Интересно е автоматизираното тестирање на црвениот тим. Специјално е дизајниран да спречи вбризгување на индиректни брзи зборови, што е како опремување на вештачката интелигенција со имунолошки систем за да спречи некој да крие злонамерни команди во податоците.