
o3-mini ir o3-mini (didelis) bus išleisti šiandien.

Nuolatiniai naudotojai taip pat gaus o3-mini, o "plus" naudotojai galės naudoti "o3-mini" (aukštą).
o3-mini (aukštas) yra maždaug 200 taškų aukštesnis už o1 Codeforce, greitesnis už o1, geriau atlieka kodavimo ir matematikos užduotis, tačiau kaina vis dar yra o1-mini lygio.

Be to, naudotojai gali naudoti "o3-mini" 100 kartų per dieną. Tačiau "o3-mini" naudojimo ribą (aukštą) reikia papildomai patvirtinti.
Kai kurie tinklaraštininkai sakė, kad taip, R1 yra toks populiarus, kad "Openai" negali susilaikyti:


Anksčiau "Alibaba Qwen" komanda Naujųjų metų išvakarėse išleido qwen2.5-max. Pavasario festivalio metu visiems vis dar reikia suktis, hahaha...
Tiesą sakant, jau per Kalėdų tiesioginę transliaciją, "Openai" paskelbė, kad "o3 mini" bus galima įsigyti 2025 m. pradžioje:


Vis dar turime kalbėti apie tai, kas yra o3 ir o3-mini?
o3: Naujausias išvadų modelis, kuris puikiai atlieka kodavimo, matematikos ir net į AGI orientuotus lyginamuosius testus. Jis nustato naują intelekto ir problemų sprendimo etaloną.
o3-mini: Ekonomiška o3 versija, kuri užtikrina puikų našumą už labai mažą kainą ir greitį.
Šie modeliai perkėlė išvadas į visiškai naują lygmenį ir leido pasiekti proveržį sprendžiant sudėtingas užduotis, kurioms reikia gilaus supratimo ir logikos.
"o3" - tai trys svarbūs pasiekimai.
Programavimo gebėjimai: 71,7% praktinio programavimo tikslumas, 20% didesnis nei o1. 2727 taškai Codeforces, jau pranoksta žmogaus lygį.
Matematikos lygis: beveik 97% tikslumas JAV matematikos olimpiados atrankos etape. Net sudėtingiausių "Epic AI frontier" matematikos uždavinių rezultatai gali būti 25%.
Labiausiai stebina "Arc AGI" testas: 87,5%, pirmą kartą pranokęs žmones šiame itin sudėtingame lyginamajame teste.

Kodėl "o3-mini" yra perversmą sukelianti naujovė? "o3-mini" atneša du pokyčius.
Prisitaikantis mąstymas: mąstymo gilumą galima reguliuoti atsižvelgiant į užduoties sudėtingumą, galima rinktis iš trijų režimų: žemo, vidutinio ir aukšto.
Dėl to dirbtinis intelektas labiau atitinka realius naudojimo scenarijus.
Ekonominio efektyvumo proveržis: mažesnė kaina nei o1-mini, greitesnis atsakas ir geresni rezultatai.
Tačiau tinklaraštininkai apgailestauja, kad "o3 high" sunaudoja $1,000 vienai užduočiai:

Be to, iš tiesų yra per daug modelių ir dar turime patvirtinti, kaip juos perjungti.
