
История о Гемиnя 2.0 ускоряется.
Экспериментальная версия Flash Thinking в декабре предоставила разработчикам рабочую модель с низкой задержкой и высокой производительностью.
Ранее в этом году в Google AI Studio была обновлена версия Flash Thinking Experimental 2.0 для дальнейшего повышения производительности за счет объединения скорости Flash с расширенными возможностями вывода.
На прошлой неделе обновленная версия Flash 2.0 была полностью запущена в настольных и мобильных приложениях Gemini.
Сегодня были представлены сразу три новых члена: экспериментальная версия Gemini 2.0 Pro, которая на данный момент показала наилучшие результаты в кодировании и сложных подсказках, экономичная версия 2.0 Flash-Lite и версия 2.0 Flash Thinking с улучшенными возможностями для мышления.
Gemini 2.0 Pro занимает первое место во всех категориях. Gemini-2.0-Flash входит в тройку лидеров по кодированию, математике и головоломкам. Flash-lite входит в десятку лучших по всем категориям.


Сравнительная таблица возможностей трех моделей:

Все модели поддерживают мультимодальный ввод и вывод текста.
Больше модальных способностей на подходе. Диаграмма прочности модели в области кодирования

Тепловая карта процента побед

Google относится к бесплатным пользователям лучше, чем OpenAI относится к пользователям Plus. Бесплатный доступ к Gemini 2.0 Pro Experimental в AI Studio:

Служба Deepseek всегда отображает сообщение об ошибке ожидания… Помните, что первой моделью без вывода также была 2.0 Flash Thinking, которая использовалась в Google aistudio.

Кроме того, есть веб-версия Gemini:
Существует также связанная модель вывода (так зачем же ее разделять…)

Google выпустила экспериментальную версию Gemini 2.0 Pro, и улучшения в официальных тестах производительности весьма бросаются в глаза.

Он обладает самыми мощными возможностями кодирования и способностью обрабатывать сложные подсказки, а также лучше понимает и рассуждает о мировых знаниях, чем любая модель, выпущенная Google до сих пор.
У него самое большое контекстное окно (200 КБ, и мой длинный контекст является относительно большим преимуществом модели Gemini), что позволяет ему всесторонне анализировать и понимать большой объем информации, а также вызывать такие инструменты, как поиск Google и выполнение кода.
В тесте MATH он набрал 91,8%, что примерно на 5 процентных пунктов больше, чем в версии 1.5. Способность к рассуждению GPQA достигла 64,7%, а тест на знание мира SimpleQA даже достиг 44,3%.
Наиболее примечательной является способность к программированию. Она достигла 36.0% в тесте LiveCodeBench, а точность преобразования Bird-SQL превысила 59.3%. В сочетании с супербольшим контекстным окном в 2 миллиона токенов этого достаточно для обработки самых сложных задач анализа кода.

Вы можете попробовать это в курсоре.
Способность понимать несколько языков также впечатляет: результат теста Global MMLU составил 86,5%. Понимание изображений MMMU составляет 72,7%, а способность анализировать видео — 71,9%.
Gemini 2.0 Flash-Lite — это интересный баланс.
Он сохраняет скорость и стоимость 1.5 Flash, но обеспечивает лучшую производительность. Окно контекста с 1 миллионом токенов позволяет ему обрабатывать больше информации.
Самое практичное — это соотношение цены и производительности: генерация подписей для 40 000 фотографий стоит меньше, чем $1. Это делает ИИ более приземленным.

Блогер Шривастава отметил: Кодирование Gemini 2.0 Pro — это безумие!
Совет: используйте Three.js для создания симуляции солнечной системы. Добавьте шкалу времени, раскрывающееся меню фокуса, покажите орбиты и покажите метки. Создайте все в одном файле, чтобы я мог вставить его в онлайн-редактор и просмотреть вывод.

Кроме того, некоторые пользователи отметили, что Gemini 2.0 Flash показал лучшие результаты в одном из его собственных тестов на парадокс:

Наконец, Google отметила, что безопасность Gemini 2.0, а не только патч, с самого начала лежит в основе дизайна.
Позвольте модели научиться быть самокритичной. Используйте обучение с подкреплением, чтобы Gemini могла оценивать свои собственные ответы и предоставлять более точную обратную связь. Это делает ее более надежной при работе с деликатными темами.
Автоматизированное тестирование Red Team интересно. Оно специально разработано для предотвращения инъекции косвенных подсказок, что похоже на оснащение ИИ иммунной системой, чтобы не дать кому-то скрыть вредоносные команды в данных.