OpenAI on julkaissut uusimman päättelymallinsa, o3-mini, joka on optimoitu esimerkiksi luonnontieteiden, matematiikan ja ohjelmoinnin aloille ja joka tarjoaa nopeamman vasteen, suuremman tarkkuuden ja alhaisemmat kustannukset.
Edeltäjäänsä o1-miniin verrattuna o3-mini on parantanut merkittävästi päättelykykyään erityisesti monimutkaisten ongelmien ratkaisemisessa. Testaajat suosivat o3-minin vastauksia 56%:llä, ja virheprosentti on pienentynyt 39%:llä. Tästä päivästä alkaen, ChatGPT Plus, joukkue ja Pro käyttäjät voivat käyttää o3-miniä, ja ilmaiset käyttäjät voi myös kokea joitakin sen ominaisuuksia.

Verrattuna päätelmämalliin DeepSeek-R1, kuinka paljon parempi on OpenAI o3-mini kuin R1?
Tässä artikkelissa luodaan ensin yleiskatsaus o3-minin tärkeimpiin ominaisuuksiin, minkä jälkeen poimimme tiedot molemmilta puolilta kustakin vertailuarvosta ja laadimme kaavion niiden visuaalista vertailua varten. Lisäksi vertailemme myös o3-minin hintaa.
Keskeiset kohokohdat
1.STEM-optimointi: loistaa matematiikan, ohjelmoinnin, luonnontieteiden jne. aloilla, erityisesti ohittaen o1-mini:n korkean päättelytehon tilassa.
2.Kehittäjän toiminnot: tukee toimintoja, kuten funktiokutsuja, strukturoitua tulostusta ja kehittäjien viestejä tuotantoympäristön tarpeiden täyttämiseksi.
3.Nopea vastaus: 24% nopeampi kuin o1-mini, vasteaika on 7,7 sekuntia pyyntöä kohti.
4.Turvallisuuden parantaminen: takaa turvallisen ja luotettavan tulostuksen syväkohdistustekniikan avulla.
5.Kustannustehokas: päättelyvalmiudet ja kustannusten optimointi kulkevat käsi kädessä, mikä alentaa huomattavasti tekoälyn käytön kynnystä.
Vertaa
Avoin tekoäly Luokkansa korostamiseksi, sen virallinen blogi vertaa sitä ainoastaan omiin malleihinsa. Siksi tämä artikkeli on taulukko, joka on poimittu DeepSeek R1:n paperista ja OpenAI:n virallisen blogin tiedoista.
OpenAI vertaa virallisesti o3-mini versioluettelossa ja jakaa sen kolmeen versioon: matala, keskitasoinen ja korkea, jotka ilmaisevat päättelyn voimakkuuden. Koska DeepSeek käyttää Math-500-tietokokonaisuutta ja OpenAI Math-tietokokonaisuutta, tämä vertailu on poistettu tästä.

Kaavio on intuitiivisempi, ja Codeforces on poistettu, koska arvot ovat liian suuria, jotta niitä voisi näyttää intuitiivisesti. Codeforces-vertailu osoittaa kuitenkin, että o3-minin korkea päättelyvoima ei ole kovin suuri johtoasema.

↑1AIME2024→2GPQA Diamond→3MMLU→4SWE-penkki-verifioitu
Kaaviossa on yhteensä 4 vertailua, ja O3-mini (korkea) johtaa yleensä, mutta etumatka on hyvin pieni.
Hinta
malli | Panoshinta | Välimuistin osuma | Tuotantohinta |
o3-mini | $1.10 | $0.55 | $4.40 |
o1 | $15.00 | $7.50 | $60.00 |
Deepseek R1 | $0.55 | $0.14 | $2.19 |
Yhteenveto
Kun DeepSeek R1 laukaisi DeepSeek-paniikin Yhdysvalloissa, OpenAI tunsi ensimmäisenä itsensä uhatuksi, mikä näkyy erityisesti sen uuden mallin o3-mini hinnoittelussa.
Kun Openai o1 julkaistiin ensimmäisen kerran, sen korkea hinta painosti monia kehittäjiä ja käyttäjiä. DeepSeek R1:n ilmestyminen antoi kaikille lisää vaihtoehtoja.O1:n ja R1:n 30-kertaisesta hintaerosta siihen, että o3-minin lopullinen hinta on kaksinkertainen. DeepSeek R1:n hinta,
osoittaa DeepSeek R1:n vaikutuksen openaihin.ChatGPT:n ilmaiskäyttäjät voivat kuitenkin kokea o3-minin vain rajoitetusti, kun taas DeepSeek:n Deep Thinking on tällä hetkellä kaikkien käyttäjien saatavilla.Odotan myös innolla, että openai tuo lisää johtavia ai-malleja ja alentaa samalla käyttäjille aiheutuvia käyttökustannuksia.
Bloggaajan henkilökohtaisen R1:n käyttökokemuksen näkökulmasta haluan sanoa, että R1:n Deep Thinking avaa aina mieleni. Suosittelen, että kaikki käyttävät sitä enemmän ongelmien pohtimiseen~