Всестороннее сравнение недавно выпущенных OpenAI o3-mini и DeepSeek R1

Компания OpenAI выпустила свою последнюю модель вывода, o3-miniОптимизированный для таких областей, как естественные науки, математика и программирование, он обеспечивает более быстрый отклик, высокую точность и низкую стоимость.

По сравнению со своим предшественником o1-mini, o3-mini значительно улучшил свои способности к умозаключениям, особенно при решении сложных задач. Тестировщики предпочитают ответы o3-mini на 56%, а количество ошибок сократилось на 39%. С сегодняшнего дня, ChatGPT Plus, Команда и Про пользователи могут использовать o3-mini, а бесплатные пользователи также могут испытать некоторые из его возможностей.

По сравнению с моделью вывода DeepSeek-R1Насколько лучше OpenAI o3-mini чем R1?

В этой статье мы сначала сделаем обзор основных характеристик o3-mini, а затем извлечем данные с обеих сторон по каждому бенчмарку и составим график для их визуального сравнения. Кроме того, мы также сравним цены на o3-mini.

Оглавление

Основные моменты

1.Оптимизация STEM: превосходит всех в области математики, программирования, естественных наук и т.д., особенно превосходя o1-mini в режиме больших усилий по выводу.

2.Функции разработчика: поддерживает такие функции, как вызовы функций, структурированный вывод и сообщения разработчика, чтобы удовлетворить потребности производственной среды.

3.Быстрая реакция: 24% быстрее, чем o1-mini, время отклика на запрос составляет 7,7 секунды.

4.Улучшение безопасности: обеспечивает надежный и безопасный выход благодаря технологии глубокого выравнивания.

5.Экономически эффективныйВозможности умозаключений и оптимизация затрат идут рука об руку, значительно снижая порог использования ИИ.

Сравнить

Открытый искусственный интеллект Чтобы подчеркнуть свой класс, его официальный блог только сравнивает его со своими собственными моделями. Поэтому данная статья представляет собой таблицу, извлеченную из статьи DeepSeek R1 и данных из официального блога OpenAI.

OpenAI официально сравнивает o3-mini в списке версий, разбив его на три версии: низкую, среднюю и высокую, которые указывают на силу умозаключений. Поскольку DeepSeek использует Math-500, а OpenAI - набор данных Math, это сравнение было удалено.

График более интуитивен, а Codeforces был удален, поскольку значения слишком велики для интуитивного отображения. Однако сравнение на Codeforces показывает, что высокая сила умозаключений o3-mini не так уж и велика.

↑1AIME2024→2GPQA Diamond→3MMLU→4SWE-bench-Verified

Судя по графику, всего 4 сравнения, и O3-mini (high) в целом лидирует, но отрыв очень небольшой.

Цена

модель	Входная цена	Попадание в кэш	Цена выпуска
o3-mini	$1.10	$0.55	$4.40
o1	$15.00	$7.50	$60.00
Deepseek R1	$0.55	$0.14	$2.19

Резюме

После того как DeepSeek R1 спровоцировал панику DeepSeek в США, первой почувствовала угрозу компания OpenAI, что особенно заметно по ценам на ее новую модель o3-mini.

Когда Openai o1 только вышел, его высокая цена давила на многих разработчиков и пользователей. Появление DeepSeek R1 дало всем больше возможностей для выбора.От 30-кратной разницы в цене между o1 и R1 до конечной цены o3-mini в два раза цена DeepSeek R1,

показывает влияние DeepSeek R1 на openai.Однако бесплатные пользователи ChatGPT могут лишь ограниченно пользоваться o3-mini, в то время как "Глубокое мышление" от DeepSeek в настоящее время доступно всем пользователям.Я также с нетерпением жду, когда openai принесет больше ведущих моделей ai, одновременно снижая стоимость использования для пользователей.

С точки зрения личного опыта блоггера, использующего R1, я хотел бы сказать, что "Глубокое мышление" R1 всегда открывает мой разум. Я рекомендую всем использовать его для обдумывания проблем~.

Без категории

DeepSeek R1 занял первое место в тесте на креативное письмо, а o3 mini оказался еще хуже, чем o1 mini!

Авторzddeepseeker 3 февраля 2025 года3 февраля 2025 года

DeepSeek R1 завоевал первенство в бенчмарк-тесте на написание творческих рассказов, успешно обойдя предыдущего доминирующего игрока Claude 3.5 Sonnet! Эталонный тест Эталонный тест, разработанный исследователем Лехом Мазуром, не является обычным соревнованием по написанию рассказов. Каждая модель искусственного интеллекта должна была написать 500 коротких рассказов, и в каждом из них нужно было ловко включить...

Без категории

Qwen2.5-max против DeepSeek R1: Глубокое сравнение моделей: полный анализ сценариев применения

Авторzddeepseeker 14 февраля 2025 г.14 февраля 2025 г.

Введение Сегодня большие языковые модели (LLM) играют решающую роль. В начале 2025 года, когда конкуренция за ИИ усилилась, Alibaba запустила новую модель ИИ Qwen2.5-max, а DeepSeek, компания из Ханчжоу, Китай, запустила модель R1, которая представляет собой вершину технологии LLM. Deepseek R1 — это модель ИИ с открытым исходным кодом, которая привлекла…

Без категории

Интерпретация доклада DeepSeek R1 и ключевые технические моменты

Авторzddeepseeker 9 февраля 2025 г.9 февраля 2025 г.

1 Предыстория Во время Весеннего фестиваля DeepSeek R1 снова привлекла всеобщее внимание, и даже статья-интерпретация DeepSeek V3, которую мы ранее написали, также была повторно передана и много обсуждалась. Хотя было много анализов и воспроизведений DeepSeek R1, здесь мы решили собрать некоторые соответствующие заметки для чтения. Мы будем использовать три…

Без категории

Секрет DeepSeek 1 | Подробности DeepSeekMath и GRPO

Авторzddeepseeker 9 февраля 2025 г.9 февраля 2025 г.

Сегодня я хотел бы поделиться статьей из DeepSeek под названием DeepSeekMath: Расширяя границы математического обоснования в моделях открытого языка. В этой статье представлен DeepSeekMath 7B, который предварительно обучен на DeepSeek-Coder-Base-v1.5 7B на основе коллекции из 120B математических токенов, естественного языка и кодовых данных. Модель достигла поразительного результата 51.7% на соревновательном уровне…

Без категории

Le Chat возглавляет рейтинги, имея инвестиции в сто миллиардов долларов. Является ли он третьей силой ИИ после США и Китая?

Авторzddeepseeker 11 февраля 2025 г.11 февраля 2025 г.

9 февраля президент Франции Эммануэль Макрон объявил, что Франция вложит 109 миллиардов евро (113 миллиардов долларов США) в сферу ИИ в ближайшие несколько лет. Эти инвестиции пойдут на строительство парка ИИ во Франции, улучшение инфраструктуры и инвестирование в местные стартапы в области ИИ. Между тем, французский стартап Mistral…

Без категории

Paper-DeepSeek-R1: Стимулирование способности к рассуждению в LLM с помощью обучения с подкреплением

Авторdeepseeker 29 января 2025 г.29 января 2025 г.

Аннотация В данной статье представлены модели рассуждений DeepSeek первого поколения: DeepSeek-R1-Zero и DeepSeek-R1. DeepSeek-R1-Zero, обученная с помощью крупномасштабного обучения с подкреплением (RL) без контролируемой тонкой настройки (SFT), демонстрирует замечательные способности к рассуждениям. Благодаря RL он естественным образом развивает мощное поведение рассуждения. Однако он сталкивается с такими проблемами, как плохая читаемость и смешение языков. Чтобы решить эти проблемы и повысить эффективность рассуждений, был разработан DeepSeek-R1,...

Основные моменты

Сравнить

Цена

Резюме

Похожие записи

Добавить комментарий Отменить ответ