o3-mini je zde, s hybností vyzyvatele
31. ledna vydala společnost OpenAI zbrusu nový velký model o3-mini a poskytla některé jeho funkce zdarma všem uživatelům ChatGPT. I když je počet dotazů omezen, umožňuje uživatelům vyzkoušet si nejnovější komerční model OpenAI co nejdříve.
Před několika dny vydala velká čínská modelářská společnost DeepSeek svůj nejnovější model s otevřeným zdrojovým kódem DeepSeek-R1, který si rovněž získal svůj vliv v komunitě AI.
Model DeepSeek-R1 má schopnost vyrovnat se modelu open ai o1, ale je levnější. Důležitější je, že DeepSeek R1 je model s otevřeným zdrojovým kódem, což je největší rozdíl oproti openai.
Otázka zní: je o3-mini opravdu lepší než DeepSeek-R1?
V oficiálním srovnání dat, které poskytla OpenAI, jsou porovnávány pouze některé modely zveřejněné OpenAI a výsledky nejsou přímo srovnávány s výsledky velkých modelů. Model DeepSeek R1. Některé nově zveřejněné údaje z benchmarkových testů však ukazují, že o3-mini je v mnoha ohledech o něco lepší. Tuto situaci můžeme pochopit, když se podíváme na výsledky různých testů.
Nechme data mluvit sama za sebe a podrobně analyzujme skutečnou sílu těchto dvou modelů AI. Někdy jsou data jedna věc, ale častěji záleží také na skutečných zkušenostech a používání uživatelem.
Srovnání dat: o3-mini je chytřejší, ale DeepSeek-R1 je "matematičtější"
Celkové průměrné skóre
OpenAI o3-mini: 73.94
DeepSeek-R1: 71.38
Je zřejmé, že celkové skóre o3-mini je o něco vyšší, což svědčí o tom, že si v komplexních úlohách vede stabilněji. Dokáže úlohy plnit stabilněji, ale nemá velký odstup od open source modelu DeepSeek.
Schopnost uvažování (schopnost UI porozumět informacím, analyzovat je a uvažovat o nich).
OpenAI o3-mini: 89.58
DeepSeek-R1: 83.17
V argumentačních úlohách jednoznačně vítězí o3-mini, což znamená, že je lepší v extrakci klíčového obsahu ze složitých informací a v logickém vyvozování závěrů.
Schopnost programování (schopnost UI zpracovávat kód).
OpenAI o3-mini: 82.74
DeepSeek-R1: 66.74
Pokud jste vývojář, může být o3-mini lepší volbou. Skóre ukazují velký rozdíl, přičemž o3-mini je ve schopnostech kódování výrazně před DeepSeek-R1 a dokáže lépe porozumět a řešit programovací problémy. To je také oblast, kde má o3-mini poměrně velkou výhodu
Matematické schopnosti (výpočet, odvozování vzorců, matematické uvažování)
OpenAI o3-mini: 65.65
DeepSeek-R1: 79.54
DeepSeek-R1 je silnější v matematických úlohách, což naznačuje, že je lepší v numerických výpočtech a matematickém uvažování.
Dovednosti v oblasti analýzy dat (schopnost zpracovávat a chápat data)
OpenAI o3-mini: 70.64
DeepSeek-R1: 69.78
o3-mini má mírný náskok v úlohách analýzy dat.
Dovednosti porozumění jazyku
OpenAI o3-mini: 50.68
DeepSeek-R1: 48.53
Ačkoli náskok není velký, o3-mini stále mírně překonává v jazykových úlohách.
NYT Connections (puzzle)
o3-mini: 72,4 bodu (vynikající výkon)
DeepSeek-R1: 54,4 bodů
Závěrečná zkouška (komplexní úloha)
o3-mini: 13.0% přesnost
DeepSeek-R1: přesnost 9.4%
Codeforces (test programátorských schopností)
o3-mini > DeepSeek-R1 AIME 2024 (komplexní porozumění instrukcím)
o3-mini > DeepSeek-R1 Souhrnně lze říci, že o3-mini je silnější v uvažování, programování a jazycích, zatímco DeepSeek-R1 je výhodnější v matematických schopnostech.
Srovnání cen API: kdo je cenově výhodnější?
DeepSeek-R1 je z hlediska cen API levnější, zatímco o3-mini je stále relativně drahý:
DeepSeek-R1 je levnější, a proto je vhodný pro vývojáře s omezeným rozpočtem.
Otevřený a uzavřený zdrojový kód: OpenAI je stále uzavřený
Pokud vám záleží na otevřeném zdrojovém kódu, je lepší volbou DeepSeek-R1. Je zcela open source, zatímco o3-mini stále následuje tradici OpenAI a zůstává uzavřený. To může mít vliv na svobodu vývojářů, pokud jde o optimalizaci a přizpůsobení modelu.
Závěrečný závěr: kdo si zaslouží větší volbu?
Rozměr | o3-mini (OpenAI) | DeepSeek-R1 |
Celkové skóre | 73.94 | 71.38 |
Odvozování | 89,58 (silnější) | 83.17 |
Programování | 82,74 (silnější) | 66.74 |
Matematika | 65.65 | 79.54 |
Analýza dat | 70.64 | 69.78 |
Porozumění jazyku | 50.68 | 48.53 |
Cena API | Dražší | levnější |
Otevřený zdroj | zavřít | Plně otevřený zdrojový kód |
Pro koho je určena?
- Pokud jste vývojář nebo inženýr a potřebují silné programovací a odvozovací schopnosti, je lepší volbou o3-mini. Domníváme se, že open a o3mini mají v této oblasti identifikace a odvozování velmi dobré výsledky. Výkonnější možnosti programování a odvozování vám zároveň pomohou napsat lepší kód a programy, čímž se zkrátí čas potřebný k úpravám a kontrole
- Pokud jste matematický výzkumník nebo citlivé na náklady na API, je DeepSeek-R1 ekonomičtější volbou. Tento model má lepší podporu a asistenci pro matematické výzkumníky a má vhodnější náklady na použití.
- Pokud potřebujete model open source, DeepSeek-R1 je vítězem. Je zřejmé, že meta, která se zaměřuje na otevřený zdrojový kód, není v některých schopnostech s DeepSeek srovnatelná. Srovnatelný velký model openAI je však dražší a jedná se o komerční model s uzavřeným zdrojovým kódem. DeepSeek povede výzkum a vývoj AI a zároveň umožní více společnostem a jednotlivým uživatelům nasadit velké modely AI lokálně nebo na cloudových serverech a chránit bezpečnost a soukromí svých dat
Výhled do budoucna: konkurence v oblasti modelů umělé inteligence sílí
OpenAI i DeepSeek jsou hnací silou vývoje technologie AI. Ačkoli je o3-mini v současné době ve většině úloh o něco lepší, DeepSeek-R1 má stále své jedinečné výhody.
Otevřený zdrojový kód DeepSeek přitáhl pozornost mnoha vývojářů a uživatelů. Nižší cena také vytváří dobrý základ pro vývoj aplikací umělé inteligence.
Naproti tomu OpenAI, jakožto lídr v odvětví AI, má za sebou mnoho inovací a vývoje, ale neotevřený komerční model a vysoké náklady na používání zvýšily práh pro používání, což není příznivé pro podporu AI.
Myslíme si, že společnost deepseek odvedla skvělou práci pro odvětví umělé inteligence. Díky otevřenému zdrojovému kódu budou mít vývojáři větší šanci dozvědět se více o pokročilém modelu Ai.
V budoucnu se možná objeví ještě výkonnější modely, například GPT-5 nebo DeepSeek-R2 od společnosti OpenAI. Pro běžné uživatele není nejlepší umělou inteligencí ta "nejsilnější" umělá inteligence, ale ta, která nejlépe vyhovuje jejich potřebám. Při výběru vhodného modelu UI je třeba zvážit vlastní scénáře použití a rozpočet.