Gemini 2.0 доминира в класациите, докато DeepSeek V3 плаче в цената си и се ражда нов рентабилен шампион!

Сайтът Google Gemini 2.0 семейството най-накрая е пълно! Той доминира в класациите веднага след като е пуснат.

Сред преследването и блокадите на Deepseek, Qwen и o3, Google пусна три модела наведнъж рано тази сутрин: Gemini 2.0 Pro, Gemini 2.0 Flash и Gemini 2.0 Flash-Lite.

В класацията на големия модел LMSYS Gemini 2.0-Pro се изстреля до върха, а семейството Gemini-2.0 напредна в топ 10.

Съдържание

Нека първо да разгледаме производителността на модела

Сайтът Модели Gemini 2.0 пуснати този път, всички имат свои собствени акценти по отношение на производителността!

Gemini 2.0 Pro (експериментален)

Като водещ модел от серията Gemini, Pro версията представя най-модерните AI възможности на Google и се отличава с кодиране и извод по-специално:

Изключително голям контекстен прозорец: поддържа контекстна обработка на до 2 милиона токена
Мощна интеграция на инструменти: дълбоко интегрира търсенето с Google и изпълнението на код
Наличност: вече се предлага като експериментална версия в Google AI Studio, Vertex AI и платформата Gemini Advanced

Gemini 2.0 Flash

се позиционира като a „високо ефективен работен кон“. Той е проектиран с фокус върху балансирането на скоростта и производителността и е предназначен да осигури идеална поддръжка за сценарии на приложения, които изискват отговори с ниска латентност:

Милиони контекстни прозорци: Поддържа контекст на 1M токени
Отлични възможности за мултимодален извод: Добър в обработката на мултимодални данни, в момента поддържа мултимодално въвеждане и едномодално въвеждане на текст
Бъдещо разширяване на функциите: Функциите за генериране на изображения и текст към говор ще бъдат налични скоро
Наличност: Официално пуснат на платформите Vertex AI Studio и Google AI Studio и може да бъде достъпен чрез Gemini API.

Gemini 2.0 Flash-Lite (Преглед)

Като "най-рентабилен" модел, Flash-Lite предлага най-добрия баланс между скорост, цена и производителност.

Икономически ефективни предимства: Въпреки че поддържа същата скорост и цена като 1.5 Flash, той превъзхожда 1.5 Flash в повечето сравнителни тестове.
Контекстен прозорец на милиони нива: Също така поддържа 1M токени мощност за обработка на контекста.

Според сравнението за оценка на производителността, публикувано от Google, експерименталната версия на Gemini 2.0 Pro постигна най-високите резултати в почти всички бенчмарк тестове, представяйки се отлично:

Той се представи особено добре при задачи за генериране на код (като LiveCodeBench v5) и сложни математически проблеми (като алгебра, геометрия и смятане). Освен това имаше значително подобрение в теста за разбиране на сложни дълги документи.

И ценообразуването

Google също така е съвестен производител по отношение на рентабилността на API.

Милионните токени на Gemini 2.0 Flash струват по-малко от един долар… Той поддържа множество режими, мрежови търсения и безпрецедентен контекстен прозорец.

За разлика от това, Deepseek V3 в момента струва един долар за милион токени, а изводът R1 струва четири долара.

PS: Но все пак искам да благодаря на DeepSeek за намаляването на цената. Всеки, който може да намали цената, е семейство.

Това наистина е твърде евтино! В сравнение с представянето, мисля, че това, което Gemini е пренебрегнато, е цената!

Изпълнение на случая

Тъй като твърди, че е толкова добър, колкото Deepseek, определено трябва да видим как всъщност се представя в случаите и да видим как различни потребители на мрежата са го тествали

Базирана на физиката игра на флипер

Нека първо да разгледаме този популярен случай, който използва физически двигател за симулиране на реалистични ефекти като сблъсъци, триене и гравитация.

Съвет: Напишете програма на Python, която показва топка, подскачаща във въртящ се шестоъгълник. Топката трябва да се влияе от гравитацията и триенето и трябва да отскача реалистично от въртящите се стени

Ето как се представят Deepseek R1 и o3-min:

Версията, генерирана от Gemini 2.0 Pro Experimental:

Останалите два модела не се представят добре

Удвоете трудността! Направете топката разделена на 100 топки!

Подсказка: Напишете скрипт за 100 подскачащи яркожълти топки вътре в сфера, като се уверите, че се справяте правилно с откриването на сблъсък. Накарайте сферата да се върти бавно. Уверете се, че топките остават вътре в сферата. Внедрете в p5.js

браво! Бавното въртене на сферата е много гладко, а симулацията на физическите закони е отлична. 100-те топки също се сблъскват стабилно и „вършат работата си“ ~

Напишете скрипт p5.js, за да симулирате 25 частици, подскачащи във вакуумно пространство вътре в цилиндричен контейнер. Използвайте различен цвят за всяка топка и се уверете, че те оставят следа, за да покажат движението си. Добавете бавно въртене на контейнера, за да наблюдавате по-добре какво се случва в сцената. Уверете се, че сте създали подходящи правила за откриване на сблъсък и физика, за да сте сигурни, че частиците остават вътре в контейнера. Добавете външен сферичен контейнер. Добавете ефект на бавно увеличаване и намаляване към цялата сцена.

Въпрос за тест за ягоди, който не може да бъде заобиколен

И умните (хитри) нетизени отново изхвърлиха класическия тест с ягоди:

Колко r има в ягода

И Gemini 2.0 Flash Thinking Experimental получи правилния отговор:

Шефът на Google Джеф Дийн лично тества уменията му за програмиране

Джеф Дийн, главен учен в Google DeepMind и Google Research, също тества уменията за програмиране на вълна от Gemini 2.0 Pro:

Той накара модела да завърши класическата игра Boggle и кодът, генериран за първи път, завърши намирането на всички валидни думи в "буквен квадрат" игра:

Освен това Джеф Дийн каза, че кодът е завършен само за 18,9 секунди, което е много бързо.

Главният изпълнителен директор на Google DeepMind е пълен с увереност в тази основна актуализация на модела, като казва, че тази версия полага основата за Google за постигане на бъдеща бъдеща работа на интелигентни агенти:

Изпълнителният директор на Google Сундар Пичай по-рано даде да се разбере, че 2025 г. ще бъде критичен период за Google да ускори развитието в областта на AI. Усеща се като след тази версия маршрутът на Google е по-ясен!

В сравнение с маршрутите на други гиганти, AI маршрутът на Google фокусира се повече върху практичността и директно предоставя множество опции за версия, точно като кутия с инструменти за изкуствен интелект, където можете да избирате както желаете, според вашите нужди, гъвкава и удобна, и в състояние да отговори на всякакви нужди.

Gemini 2.0 доминира в класациите, докато DeepSeek V3 плаче в цената си и се ражда нов рентабилен шампион!