
Историята на Джемиnаз 2.0 се ускорява.
Експерименталната версия на Flash Thinking Experimental през декември донесе на разработчиците работещ модел с ниска латентност и висока производителност.
По-рано тази година 2.0 Flash Thinking Experimental беше актуализиран в Google AI Studio за допълнително подобряване на производителността чрез комбиниране на скоростта на Flash с подобрени възможности за извод.
Миналата седмица актуализираната версия 2.0 Flash беше напълно пусната в настолните и мобилните приложения на Gemini.
Днес три нови члена бяха представени едновременно: експерименталната версия на Gemini 2.0 Pro, която досега се представя най-добре при кодиране и сложни подкани, рентабилната 2.0 Flash-Lite и версията 2.0 Flash Thinking с подобрено мислене.
Gemini 2.0 Pro е на първо място във всички категории. Gemini-2.0-Flash се нарежда в челната тройка по кодиране, математика и пъзели. Flash-lite се класира в челната десетка във всички категории.


Сравнителна таблица на способностите на трите модела:

Всички модели поддържат мултимодален вход и изход на текст.
Още модални способности са на път. Диаграма на силата на модела в арената на кодиране

Топлинна карта на процента на печалба

Google се отнася по-добре към безплатните потребители, отколкото OpenAI към потребителите на Plus. Безплатен достъп до Gemini 2.0 Pro Experimental в AI Studio:

Услугата Deepseek винаги показва изчакваща грешка… Не забравяйте, че първият модел без изводи също беше 2.0 Flash Thinking, който беше използван в Google aistudio.

В допълнение, има уеб версия на Gemini:
Има и свързан модел на извод (така че защо да го разделяме...)

Google пусна експерименталната версия на Gemini 2.0 Pro и подобрението в официалните бенчмарк тестове е доста привличащо вниманието.

Той има най-мощните възможности за кодиране и способността да обработва сложни подкани и има по-добра способност да разбира и разсъждава относно световното познание от всеки модел, пуснат от Google досега.
Той има най-големия контекстен прозорец (200k, а моят дълъг контекст е сравнително голямо предимство на модела Gemini), което му позволява да анализира изчерпателно и разбира голямо количество информация и да извиква инструменти като търсене в Google и изпълнение на код.
В теста MATH той постигна 91.8%, увеличение от около 5 процентни пункта спрямо версия 1.5. Способността за разсъждение на GPQA достигна 64.7%, а тестът за световно знание SimpleQA дори достигна 44.3%.
Най-забележителната е възможността за програмиране. Той постигна 36.0% в теста LiveCodeBench, а точността на конвертиране на Bird-SQL надхвърли 59.3%. В съчетание със супер-големия контекстен прозорец от 2 милиона токена, той е достатъчен за справяне с най-сложните задачи за анализ на код.

Можете да го изпробвате в курсора.
Способността за разбиране на много езици също е впечатляваща, с глобален MMLU тестов резултат от 86.5%. MMMU за разбиране на изображението е 72.7%, а способността за анализ на видео е 71.9%.
Gemini 2.0 Flash-Lite е интересен баланс.
Той поддържа скоростта и цената на 1.5 Flash, но осигурява по-добра производителност. Контекстният прозорец с 1 милион жетони му позволява да обработва повече информация.
Най-практичното е съотношението цена/производителност: генерирането на надписи за 40 000 снимки струва по-малко от $1. Това прави AI по-приземен.

Блогърът Шривастава спомена: Кодирането на Gemini 2.0 Pro е лудост!
Съвет: използвайте Three.js, за да създадете симулация на слънчева система. Добавете времева скала, падащо меню за фокус, покажете орбити и покажете етикети. Създайте всичко в един файл, за да мога да го поставя в онлайн редактор и да видя резултата.

В допълнение, някои потребители споменаха, че Gemini 2.0 Flash дава по-добри резултати в един от неговите собствени тестове за парадокс:

И накрая, Google спомена, че сигурността на Gemini 2.0, а не само корекцията, е в основата на дизайна от самото начало.
Нека моделът се научи да бъде самокритичен. Използвайте обучение за подсилване, за да позволите на Близнаци да оцени собствените си отговори и да предостави по-точна обратна връзка. Това го прави по-стабилен при работа с чувствителни теми.
Интересно е автоматизираното тестване на червения отбор. Той е специално проектиран да предотвратява инжектирането на непреки подканващи думи, което е като оборудване на AI с имунна система, за да попречи на някой да скрие злонамерени команди в данните.