OpenAI heeft zijn nieuwste inferentiemodel uitgebracht, o3-minidie geoptimaliseerd is voor vakgebieden als wetenschap, wiskunde en programmeren en snellere reacties, hogere nauwkeurigheid en lagere kosten biedt.
Vergeleken met zijn voorganger o1-mini heeft o3-mini zijn inferentiemogelijkheden aanzienlijk verbeterd, vooral bij het oplossen van complexe problemen. Testers geven de voorkeur aan de antwoorden van o3-mini met 56% en het foutenpercentage is verminderd met 39%. Vanaf vandaag, ChatGPT Plus, Team en Pro gebruikers kunnen o3-mini gebruiken en gratis gebruikers kan ook enkele van de functies ervaren.

Vergeleken met het inferentiemodel DeepSeek-R1hoeveel beter is OpenAI o3-mini dan R1?
In dit artikel geven we eerst een overzicht van de belangrijkste kenmerken van o3-mini. Daarna extraheren we de gegevens van beide zijden van elke benchmark en maken we een grafiek om ze visueel te vergelijken. Daarnaast vergelijken we ook de prijs van o3-mini.
Belangrijkste punten
1.STEM optimalisatieblinkt uit op het gebied van wiskunde, programmeren, wetenschap, enz. en overtreft met name o1-mini in de modus voor hoge inferentie-inspanning.
2.Functies voor ontwikkelaars: ondersteunt functies zoals functieaanroepen, gestructureerde uitvoer en ontwikkelaarsberichten om te voldoen aan de behoeften van de productieomgeving.
3.Snelle reactie24% sneller dan o1-mini, met een responstijd van 7,7 seconden per aanvraag.
4.Verbetering van de beveiliging: zorgt voor een veilige en betrouwbare uitvoer dankzij de deep alignment technologie.
5.Kosteneffectief: inferentiemogelijkheden en kostenoptimalisatie gaan hand in hand, waardoor de drempel voor het gebruik van AI sterk wordt verlaagd.
Vergelijk
Open AI Om zijn klasse te benadrukken, is zijn officiële blog vergelijkt het alleen met zijn eigen modellen. Daarom is dit artikel een tabel uit de DeepSeek R1 paper en de gegevens van de officiële OpenAI blog.
OpenAI vergelijkt officieel o3-mini in de versielijst, onderverdeeld in drie versies: laag, medium en hoog, die de inferentiesterkte aangeven. Omdat DeepSeek Math-500 gebruikt en OpenAI de Math-dataset, is deze vergelijking hier verwijderd.

Een grafiek is intuïtiever en Codeforces is verwijderd omdat de waarden te groot zijn om intuïtief te worden weergegeven. De vergelijking op Codeforces laat echter zien dat de hoge inferentiesterkte van o3-mini niet veel voorsprong heeft.

↑1AIME2024→2GPQA Diamond→3MMLU→4SWE-bench-gecontroleerd
Uit de grafiek blijkt dat er in totaal 4 vergelijkingen zijn en de O3-mini (hoog) leidt over het algemeen, maar de voorsprong is erg klein.
Prijs
model | Invoerprijs | Cache hit | Uitvoerprijs |
o3-mini | $1.10 | $0.55 | $4.40 |
o1 | $15.00 | $7.50 | $60.00 |
Diepzoeker R1 | $0.55 | $0.14 | $2.19 |
Samenvatting
Nu DeepSeek R1 in de Verenigde Staten de DeepSeek-paniek heeft veroorzaakt, was OpenAI de eerste die zich bedreigd voelde, wat vooral blijkt uit de prijsstelling van zijn nieuwe model o3-mini.
Toen Openai o1 voor het eerst werd uitgebracht, zette de hoge prijs veel ontwikkelaars en gebruikers onder druk. Het verschijnen van DeepSeek R1 gaf iedereen meer keuzes.Van het 30-voudige prijsverschil tussen o1 en R1 tot de uiteindelijke prijs van o3-mini die twee keer zo hoog is de prijs van DeepSeek R1,
toont de invloed van DeepSeek R1 op openai.Gratis gebruikers van ChatGPT kunnen o3-mini echter slechts beperkt ervaren, terwijl Deep Thinking van DeepSeek momenteel beschikbaar is voor alle gebruikers.Ik kijk er ook naar uit dat openai meer toonaangevende ai modellen brengt en tegelijkertijd de gebruikskosten voor gebruikers verlaagt.
Vanuit het perspectief van de persoonlijke ervaring van een blogger die R1 gebruikt, wil ik zeggen dat het Diep Denken van R1 mijn geest altijd opent. Ik raad iedereen aan het meer te gebruiken om na te denken over problemen~