Gemini 2.0 доминирует в чартах, в то время как DeepSeek V3 плачет по своей цене, и рождается новый экономически эффективный чемпион!

Сайт Google Близнецы 2.0 Family наконец-то в сборе! Он доминирует в чартах сразу после релиза.

Среди преследований и блокад Deepseek, Qwen и o3, Google сегодня рано утром выпустила сразу три модели: Gemini 2.0 Pro, Gemini 2.0 Flash и Gemini 2.0 Flash-Lite.

В рейтинге LMSYS для крупных моделей Gemini 2.0-Pro вырвался на первое место, а семейство Gemini-2.0 вошло в десятку лучших.

Оглавление

Давайте сначала посмотрим на производительность модели.

Сайт Модели Gemini 2.0 выпущенные в этот раз, все имеют свои собственные преимущества с точки зрения производительности!

Gemini 2.0 Pro (экспериментальный)

Как флагманская модель из серии Gemini, версия Pro представляет самые передовые возможности искусственного интеллекта от Google и превосходит кодирование и вывод в частности:

Очень большое контекстное окно: поддерживает обработку контекста до 2 млн токенов
Мощная интеграция инструментов: глубоко интегрирует поиск Google и выполнение кода
Доступность: уже доступна в качестве экспериментальной версии на платформах Google AI Studio, Vertex AI и Gemini Advanced.

Близнецы 2.0 Флэш

позиционируется как «высокоэффективная рабочая лошадка». Он разработан с упором на баланс скорости и производительности и призван обеспечить идеальную поддержку для сценариев приложений, требующих ответов с малой задержкой:

Миллионы контекстных окон: Поддерживает контекст 1M токенов
Превосходные возможности мультимодального вывода: Хорошо обрабатывает мультимодальные данные, в настоящее время поддерживает мультимодальный ввод и одномодальный текстовый ввод.
Будущее расширение функций: Скоро будут доступны функции генерации изображений и преобразования текста в речь.
Доступность: Официально выпущен на платформах Vertex AI Studio и Google AI Studio, доступ к нему можно получить через Gemini API.

Gemini 2.0 Flash-Lite (предварительный просмотр)

Будучи «самой экономичной» моделью, Flash-Lite предлагает наилучший баланс между скоростью, стоимостью и производительностью.

Преимущества с точки зрения экономии: сохраняя ту же скорость и стоимость, что и 1.5 Flash, он превосходит 1.5 Flash в большинстве тестов.
Окно контекста на миллион уровней: Также поддерживает 1 млн токенов мощности обработки контекста.

Согласно сравнительной оценке производительности, опубликованной Google, экспериментальная версия Gemini 2.0 Pro набрала наивысшие баллы почти во всех тестах производительности, показав превосходные результаты:

Он показал себя особенно хорошо в задачах генерации кода (таких как LiveCodeBench v5) и сложных математических задачах (таких как алгебра, геометрия и исчисление). Кроме того, было отмечено значительное улучшение в тесте на понимание сложных длинных документов.

И цены

Google также является добросовестным производителем с точки зрения экономической эффективности API.

Миллион токенов Gemini 2.0 Flash стоят менее одного доллара... Он поддерживает несколько режимов, сетевой поиск и беспрецедентное контекстное окно.

Для сравнения, Deepseek V3 в настоящее время стоит один доллар за миллион токенов, а вывод R1 стоит четыре доллара.

PS: Но я все равно хочу поблагодарить DeepSeek за снижение цены. Каждый, кто может снизить цену, — это семья.

Это действительно слишком дёшево! По сравнению с производительностью, я думаю, что Gemini упустили из виду цену!

Производительность корпуса

Поскольку он утверждает, что он так же хорош, как Deepseek, нам определенно нужно посмотреть, как он на самом деле себя покажет в реальных условиях, и посмотреть, как его тестировали разные пользователи сети.

Игра в пинбол, основанная на физике

Давайте сначала рассмотрим этот популярный случай, в котором физический движок используется для моделирования реалистичных эффектов, таких как столкновения, трение и гравитация.

Подсказка: Напишите программу на Python, которая отображает мяч, прыгающий внутри вращающегося шестиугольника. Мяч должен подвергаться воздействию гравитации и трения и должен реалистично отскакивать от вращающихся стенок

Вот как работают Deepseek R1 и o3-min:

Версия, созданная Gemini 2.0 Pro Experimental:

Оставшиеся две модели не очень хороши

Удвойте сложность! Разделите шар на 100 шаров!

Подсказка: Напишите скрипт для 100 прыгающих ярко-желтых шариков внутри сферы, убедившись, что правильно обрабатываете обнаружение столкновений. Заставьте сферу медленно вращаться. Убедитесь, что шарики остаются внутри сферы. Реализуйте в p5.js

Молодец! Медленное вращение сферы очень плавное, а симуляция физических законов превосходна. 100 шаров также стабильно сталкиваются и «делают свою работу» ~

Напишите скрипт p5.js для моделирования 25 частиц, прыгающих в вакуумном пространстве внутри цилиндрического контейнера. Используйте разные цвета для каждого шара и убедитесь, что они оставляют след, показывающий их движение. Добавьте медленное вращение контейнера, чтобы лучше наблюдать за тем, что происходит в сцене. Обязательно создайте соответствующие правила обнаружения столкновений и физики, чтобы гарантировать, что частицы остаются внутри контейнера. Добавьте внешний сферический контейнер. Добавьте эффект медленного увеличения и уменьшения масштаба для всей сцены.

Тестовый вопрос о клубнике, который невозможно обойти

И умные (хитрые) пользователи сети снова прибегли к классическому тесту с клубникой:

Сколько букв "р" в слове "клубника"?

И Gemini 2.0 Flash Thinking Experimental дала правильный ответ:

Руководитель Google Джефф Дин лично проверил свои навыки программирования

Джефф Дин, главный научный сотрудник Google DeepMind и Google Research, также проверил навыки программирования у группы Gemini 2.0 Pro:

Он заставил модель завершить классическую игру Boggle, и сгенерированный в первый раз код завершил поиск всех допустимых слов в «квадрат с буквами» игра:

Более того, Джефф Дин сказал, что код был выполнен всего за 18,9 секунды, что очень быстро.

Генеральный директор Google DeepMind полон уверенности в этом крупном обновлении модели, заявляя, что этот релиз закладывает основу для будущих достижений Google в области интеллектуальных агентов:

Генеральный директор Google Сундар Пичаи ранее ясно дал понять, что 2025 год станет для Google критическим периодом для ускорения развития в области ИИ. Похоже, После этого релиза маршрут Google стал яснее!

По сравнению с маршрутами других гигантов, маршрут ИИ от Google больше внимания уделяется практичности и напрямую предоставляет несколько вариантов версий, так же как набор инструментов ИИ, где вы можете выбирать по своему усмотрению, в соответствии с вашими потребностями, гибкий и удобныйи способный удовлетворить все виды потребностей.

Gemini 2.0 доминирует в чартах, в то время как DeepSeek V3 плачет по своей цене, и рождается новый экономически эффективный чемпион!