Компания OpenAI выпустила свою последнюю модель вывода, o3-miniОптимизированный для таких областей, как естественные науки, математика и программирование, он обеспечивает более быстрый отклик, высокую точность и низкую стоимость.

По сравнению со своим предшественником o1-mini, o3-mini значительно улучшил свои способности к умозаключениям, особенно при решении сложных задач. Тестировщики предпочитают ответы o3-mini на 56%, а количество ошибок сократилось на 39%. С сегодняшнего дня, ChatGPT Plus, Команда и Про пользователи могут использовать o3-mini, а бесплатные пользователи также могут испытать некоторые из его возможностей.

По сравнению с моделью вывода DeepSeek-R1Насколько лучше OpenAI o3-mini чем R1?

В этой статье мы сначала сделаем обзор основных характеристик o3-mini, а затем извлечем данные с обеих сторон по каждому бенчмарку и составим график для их визуального сравнения. Кроме того, мы также сравним цены на o3-mini.

Основные моменты

1.Оптимизация STEM: превосходит всех в области математики, программирования, естественных наук и т.д., особенно превосходя o1-mini в режиме больших усилий по выводу.

2.Функции разработчика: поддерживает такие функции, как вызовы функций, структурированный вывод и сообщения разработчика, чтобы удовлетворить потребности производственной среды.

3.Быстрая реакция: 24% быстрее, чем o1-mini, время отклика на запрос составляет 7,7 секунды.

4.Улучшение безопасности: обеспечивает надежный и безопасный выход благодаря технологии глубокого выравнивания.

5.Экономически эффективныйВозможности умозаключений и оптимизация затрат идут рука об руку, значительно снижая порог использования ИИ.

Сравнить

Открытый искусственный интеллект Чтобы подчеркнуть свой класс, его официальный блог только сравнивает его со своими собственными моделями. Поэтому данная статья представляет собой таблицу, извлеченную из статьи DeepSeek R1 и данных из официального блога OpenAI.

OpenAI официально сравнивает o3-mini в списке версий, разбив его на три версии: низкую, среднюю и высокую, которые указывают на силу умозаключений. Поскольку DeepSeek использует Math-500, а OpenAI - набор данных Math, это сравнение было удалено.

График более интуитивен, а Codeforces был удален, поскольку значения слишком велики для интуитивного отображения. Однако сравнение на Codeforces показывает, что высокая сила умозаключений o3-mini не так уж и велика.

↑1AIME2024→2GPQA Diamond→3MMLU→4SWE-bench-Verified

Судя по графику, всего 4 сравнения, и O3-mini (high) в целом лидирует, но отрыв очень небольшой.

Цена

модельВходная ценаПопадание в кэшЦена выпуска
o3-mini$1.10$0.55$4.40
o1$15.00$7.50$60.00
Deepseek R1$0.55$0.14$2.19

Резюме

После того как DeepSeek R1 спровоцировал панику DeepSeek в США, первой почувствовала угрозу компания OpenAI, что особенно заметно по ценам на ее новую модель o3-mini.

Когда Openai o1 только вышел, его высокая цена давила на многих разработчиков и пользователей. Появление DeepSeek R1 дало всем больше возможностей для выбора.От 30-кратной разницы в цене между o1 и R1 до конечной цены o3-mini в два раза цена DeepSeek R1,

показывает влияние DeepSeek R1 на openai.Однако бесплатные пользователи ChatGPT могут лишь ограниченно пользоваться o3-mini, в то время как "Глубокое мышление" от DeepSeek в настоящее время доступно всем пользователям.Я также с нетерпением жду, когда openai принесет больше ведущих моделей ai, одновременно снижая стоимость использования для пользователей.

С точки зрения личного опыта блоггера, использующего R1, я хотел бы сказать, что "Глубокое мышление" R1 всегда открывает мой разум. Я рекомендую всем использовать его для обдумывания проблем~.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *