OpenAI пусна най-новия си модел за изводи, o3-mini, който е оптимизиран за области като науката, математиката и програмирането, като осигурява по-бърза реакция, по-висока точност и по-ниска цена.
В сравнение с предшественика си o1-mini, o3-mini значително подобри възможностите си за изводи, особено при решаването на сложни задачи. Тестерите предпочитат отговорите на o3-mini с 56%, а процентът на грешките е намален с 39%. От днес, ChatGPT Plus, Отбор и Pro потребителите могат да използват o3-mini, а безплатни потребители можете да се запознаете с някои от функциите му.

В сравнение с модела за извод DeepSeek-R1, колко по-добър е OpenAI o3-mini от R1?
В тази статия първо ще направим преглед на основните характеристики на o3-mini, а след това ще извлечем данните от двете страни за всеки бенчмарк и ще направим графика за визуално сравнение. Освен това ще сравним и цената на o3-mini.
Основни акценти
1.Оптимизация на STEM: превъзхожда в областите на математиката, програмирането, науката и т.н., като особено силно превъзхожда o1-mini в режим на високи усилия за извод.
2.Функции на разработчика: поддържа функции като извикване на функции, структуриран изход и съобщения за разработчици, за да отговори на нуждите на производствената среда.
3.Бърза реакция: 24% е по-бърз от o1-mini с време за отговор от 7,7 секунди за заявка.
4.Подобряване на сигурността: осигурява сигурен и надежден изход благодарение на технологията за дълбоко подравняване.
5.Икономически ефективен: възможностите за изводи и оптимизирането на разходите вървят ръка за ръка, като значително намаляват прага за използване на ИИ.
Сравни
Open AI За да подчертае класа си, неговата официален блог го сравнява само със собствените си модели. Ето защо тази статия представлява таблица, извлечена от статията на DeepSeek R1 и данните от официалния блог на OpenAI.
OpenAI официално сравнява o3-mini в списъка с версии, като го разделя на три версии: ниска, средна и висока, които показват силата на извода. Тъй като DeepSeek използва Math-500, а OpenAI - набор от данни Math, това сравнение е премахнато тук.

Диаграмата е по-интуитивна, а Codeforces е премахнат, тъй като стойностите са твърде големи, за да бъдат показани интуитивно. Въпреки това сравнението в Codeforces показва, че високата сила на изводите на o3-mini не е голяма преднина.

↑1AIME2024→2GPQA Diamond→3MMLU→4SWE-bench-Verified
От графиката се виждат общо 4 сравнения, като O3-mini (high) обикновено води, но преднината е много малка.
Цена
модел | Входна цена | Попадение в кеша | Производствена цена |
o3-mini | $1.10 | $0.55 | $4.40 |
o1 | $15.00 | $7.50 | $60.00 |
Deepseek R1 | $0.55 | $0.14 | $2.19 |
Резюме
След като DeepSeek R1 предизвика паниката на DeepSeek в Съединените щати, първият, който се почувства застрашен, беше OpenAI, което е особено очевидно при ценообразуването на новия му модел o3-mini.
Когато Openai o1 беше пуснат за първи път, високата му цена оказа натиск върху много разработчици и потребители. Появата на DeepSeek R1 даде на всички по-голям избор.От 30-кратната разлика в цените на o1 и R1 до двойно по-високата крайна цена на o3-mini цената на DeepSeek R1,
показва въздействието на DeepSeek R1 върху openai.Безплатните потребители на ChatGPT обаче могат да изпитат o3-mini само по ограничен начин, докато Deep Thinking на DeepSeek в момента е достъпна за всички потребители.Също така очаквам с нетърпение openai да въведе повече водещи модели на ай, като същевременно намали разходите за използване от потребителите.
От гледна точка на личния опит на блогър, който използва R1, бих искал да кажа, че "Дълбокото мислене" на R1 винаги отваря съзнанието ми. Препоръчвам на всички да го използват повече, за да мислят за проблеми~