OpenAI telah merilis model inferensi terbarunya, o3-miniyang dioptimalkan untuk bidang-bidang seperti sains, matematika, dan pemrograman, memberikan respons yang lebih cepat, akurasi yang lebih tinggi, dan biaya yang lebih rendah.
Dibandingkan dengan pendahulunya, o1-mini, o3-mini telah secara signifikan meningkatkan kemampuan inferensinya, terutama dalam memecahkan masalah yang kompleks. Para penguji lebih menyukai jawaban o3-mini sebesar 56%, dan tingkat kesalahan telah berkurang sebesar 39%. Mulai hari ini, ChatGPT Plus, Tim dan Pro pengguna dapat menggunakan o3-mini, dan pengguna gratis juga dapat merasakan beberapa fiturnya.

Dibandingkan dengan model inferensi DeepSeek-R1, betapa jauh lebih baik OpenAI o3-mini daripada R1?
Artikel ini pertama-tama akan memberikan gambaran umum tentang hal-hal yang menarik dari o3-mini, lalu kami akan mengekstrak data dari kedua sisi pada setiap tolok ukur dan membuat grafik untuk membandingkannya secara visual. Selain itu, kami juga akan membandingkan harga o3-mini.
Sorotan utama
1.Pengoptimalan STEMunggul dalam bidang matematika, pemrograman, sains, dll., terutama melampaui o1-mini dalam mode upaya inferensi yang tinggi.
2.Fungsi pengembangmendukung fungsi-fungsi seperti pemanggilan fungsi, output terstruktur, dan pesan pengembang untuk memenuhi kebutuhan lingkungan produksi.
3.Respon cepat24% lebih cepat daripada o1-mini, dengan waktu respons 7,7 detik per permintaan.
4.Peningkatan keamananmemastikan output yang aman dan andal melalui teknologi deep alignment.
5.Hemat biayakemampuan inferensi dan pengoptimalan biaya berjalan beriringan, sangat mengurangi ambang batas penggunaan AI.
Bandingkan
Open AI Untuk menonjolkan kelasnya, fitur blog resmi hanya membandingkannya dengan modelnya sendiri. Oleh karena itu, artikel ini adalah tabel yang diambil dari makalah DeepSeek R1 dan data dari blog resmi OpenAI.
OpenAI secara resmi membandingkan o3-mini dalam daftar versi, membaginya menjadi tiga versi: rendah, sedang, dan tinggi, yang mengindikasikan kekuatan inferensi. Karena DeepSeek menggunakan Math-500 dan OpenAI menggunakan dataset Math, perbandingan ini telah dihapus di sini.

Bagan lebih intuitif, dan Codeforces telah dihapus karena nilainya terlalu besar untuk ditampilkan secara intuitif. Namun, perbandingan pada Codeforces menunjukkan bahwa kekuatan inferensi yang tinggi dari o3-mini tidak banyak membantu.

↑1AIME2024 → 2GPQA Diamond → 3MMLU → 4SWE-bench-Diverifikasi
Dari bagan, ada total 4 perbandingan, dan O3-mini (tinggi) pada umumnya memimpin, tetapi keunggulannya sangat kecil.
Harga
model | Harga input | Cache terkena | Harga keluaran |
o3-mini | $1.10 | $0.55 | $4.40 |
o1 | $15.00 | $7.50 | $60.00 |
Deepseek R1 | $0.55 | $0.14 | $2.19 |
Ringkasan
Dengan DeepSeek R1 yang memicu kepanikan DeepSeek di Amerika Serikat, yang pertama kali merasa terancam adalah OpenAI, yang terutama terlihat dalam penetapan harga model barunya, o3-mini.
Ketika Openai o1 pertama kali dirilis, harganya yang tinggi memberikan tekanan pada banyak pengembang dan pengguna. Kemunculan DeepSeek R1 memberikan lebih banyak pilihan kepada semua orang.Dari selisih harga 30 kali lipat antara o1 dan R1 hingga harga akhir o3-mini menjadi dua kali lipat harga DeepSeek R1,
menunjukkan dampak DeepSeek R1 pada openai.Namun, pengguna gratis ChatGPT hanya dapat menikmati o3-mini secara terbatas, sementara Deep Thinking dari DeepSeek saat ini tersedia untuk semua pengguna.Saya juga menantikan openai menghadirkan lebih banyak model ai terkemuka sekaligus mengurangi biaya penggunaan bagi pengguna.
Dari sudut pandang pengalaman pribadi seorang blogger yang menggunakan R1, saya ingin mengatakan bahwa Pemikiran Mendalam R1 selalu membuka pikiran saya. Saya merekomendasikan agar semua orang lebih banyak menggunakannya untuk memikirkan masalah~