Az OpenAI kiadta legújabb következtetési modelljét, o3-mini, amely olyan területekre optimalizált, mint a tudomány, a matematika és a programozás, gyorsabb reakciót, nagyobb pontosságot és alacsonyabb költségeket biztosít.
Elődjéhez, az o1-minihez képest az o3-mini jelentősen javította következtetési képességeit, különösen az összetett problémák megoldása terén. A tesztelők 56%-tel preferálják az o3-mini válaszait, a hibaarány pedig 39%-tel csökkent. Mától, ChatGPT Plus, csapat és Pro a felhasználók használhatják az o3-mini-t, és ingyenes felhasználók is megtapasztalhatja néhány funkcióját.

Összehasonlítva a következtetési modellel DeepSeek-R1, mennyivel jobb a OpenAI o3-mini mint az R1?
Ez a cikk először áttekintést ad az o3-mini legfontosabb jellemzőiről, majd mindkét oldalról kivonatoljuk az adatokat az egyes benchmarkoknál, és grafikont készítünk, hogy vizuálisan összehasonlíthassuk őket. Ezenkívül az o3-mini árát is összehasonlítjuk.
Legfontosabb kiemelkedő pontok
1.STEM optimalizálás: kiemelkedik a matematika, a programozás, a természettudományok stb. területén, különösen a nagy következtetési erőfeszítésű üzemmódban felülmúlja az o1-mini-t.
2.Fejlesztői funkciók: támogatja az olyan funkciókat, mint a függvényhívások, a strukturált kimenet és a fejlesztői üzenetek, hogy megfeleljen a termelési környezet igényeinek.
3.Gyors reagálás: 24% gyorsabb, mint az o1-mini, a válaszidő 7,7 másodperc kérésenként.
4.A biztonság javítása: biztonságos és megbízható kimenetet biztosít a mély igazítási technológia révén.
5.Költséghatékony: a következtetési képességek és a költségoptimalizálás kéz a kézben járnak, jelentősen csökkentve a mesterséges intelligencia használatának küszöbét.
Összehasonlítás:
Open AI Annak érdekében, hogy kiemelje az osztályát, a hivatalos blog csak a saját modelljeivel hasonlítja össze. Ezért ez a cikk az DeepSeek R1 papírból és az OpenAI hivatalos blogjának adataiból kivont táblázat.
Az OpenAI hivatalosan összehasonlítja o3-mini a verziólistában, három verzióra bontva: alacsony, közepes és magas, amelyek a következtetés erősségét jelzik. Mivel az DeepSeek a Math-500, az OpenAI pedig a Math-adatkészletet használja, ezt az összehasonlítást itt eltávolítottuk.

A diagram intuitívabb, és a Codeforces-t eltávolítottuk, mert az értékek túl nagyok ahhoz, hogy intuitívan megjelenítsük őket. A Codeforces-on végzett összehasonlítás azonban azt mutatja, hogy az o3-mini magas következtetési erőssége nem sok előnyt jelent.

↑1AIME2024→2GPQA Diamond→3MMLU→4SWE benchch-ellenőrzött
A diagramon összesen 4 összehasonlítás látható, és az O3-mini (magas) általában vezet, de az előny nagyon kicsi.
Ár
modell | Bemeneti ár | Cache találat | Kimeneti ár |
o3-mini | $1.10 | $0.55 | $4.40 |
o1 | $15.00 | $7.50 | $60.00 |
Deepseek R1 | $0.55 | $0.14 | $2.19 |
Összefoglaló
Miután az DeepSeek R1 kiváltotta az DeepSeek pánikot az Egyesült Államokban, elsőként az OpenAI érezte magát fenyegetve, ami különösen az új o3-mini modelljének árazásán látszik.
Amikor az Openai o1 először megjelent, magas ára sok fejlesztőre és felhasználóra nyomást gyakorolt. Az DeepSeek R1 megjelenése mindenkinek több választási lehetőséget adott.Az o1 és az R1 közötti 30-szoros árkülönbségtől az o3-mini végső árának kétszereséig. az DeepSeek R1 ára,
az DeepSeek R1 hatását mutatja az openai-ra.A ChatGPT ingyenes felhasználói azonban csak korlátozottan tapasztalhatják meg az o3-mini-t, míg az DeepSeek Deep Thinking jelenleg minden felhasználó számára elérhető.Azt is várom, hogy az openai több vezető ai-modellt hozzon, miközben csökkenti a felhasználók számára a használat költségeit.
Egy blogger személyes R1-használati tapasztalataiból kiindulva azt szeretném mondani, hogy az R1 mély gondolkodása mindig megnyitja az elmémet. Mindenkinek ajánlom, hogy használja többet a problémákon való gondolkodáshoz~