OpenAI 發布了其最新的推理模型, o3-迷你針對科學、數學和程式設計等領域進行了最佳化,提供更快的反應速度、更高的準確度和更低的成本。

與前代o1-mini相比,o3-mini的推理能力有顯著提升,特別是在解決複雜問題方面。測試人員對o3-mini的答案的喜愛度提高了56%,錯誤率降低了39%。從今天起, ChatGPT Plus,團隊 專業版 使用者可以使用 o3-mini,且 免費用戶 還可以體驗它的一些功能。

與推理模型相比 DeepSeek-R1,到底有多好 OpenAI o3-mini 比 R1 怎麼樣?

本文將首先概述o3-mini的亮點,然後我們將在每個基準測試上提取雙方的數據並製作成圖表來直觀地進行比較。另外我們還會對比一下o3-mini的價格。

核心亮點

1.STEM 優化:在數學、程式設計、科學等領域表現出色,尤其是在高推理努力模式下超越o1-mini。

2.開發人員功能:支援函數呼叫、結構化輸出、開發者訊息等功能,滿足生產環境的需求。

3.快速回應:24% 比 o1-mini 更快,每個請求的回應時間為 7.7 秒。

4.安全性改進:透過深度對準技術,確保輸出安全可靠。

5.經濟高效:推理能力與成本優化並進,大大降低了AI的使用門檻。

比較

Open AI 為了凸顯其級別,其 官方博客 僅將其與自己的模型進行比較。因此本文是從DeepSeek R1論文和OpenAI官方部落格的資料中提取的表格。

OpenAI 官方比較 o3-迷你 在版本清單中,將其分為低、中、高三個版本,表示推理強度。由於 DeepSeek 使用 Math-500 而 OpenAI 使用 Math 資料集,因此這裡已刪除此比較。

圖表更加直觀,Codeforces 已經因為數值太大而無法直觀展示而被移除。但在Codeforces上的比較中,o3-mini的高推理強度並沒能領先太多。

↑1AIME2024→2GPQA 鑽石→3MMLU→4SWE 工作台驗證

從圖表上看,總共4次對比,O3-mini(高)整體領先,但是領先幅度非常小。

價格

模型輸入價格緩存命中產出價格
o3-迷你$1.10$0.55$4.40
o1$15.00$7.50$60.00
深尋 R1$0.55$0.14$2.19

概括

隨著DeepSeek R1在美國引發DeepSeek恐慌,最先感受到威脅的是OpenAI,這一點尤其體現在其新款機型o3-mini的定價上。

Openai o1剛發佈時,高昂的價格給許多開發者和使用者帶來了壓力。 DeepSeek R1的出現,給了大家更多的選擇。從o1和R1價格相差30倍,到o3-mini最終售價是r1的兩倍 DeepSeek R1的價格,

展示了DeepSeek R1對openai的影響。不過,ChatGPT 免費用戶只能有限地體驗 o3-mini,而 DeepSeek 的 Deep Thinking 目前對所有用戶開放。也期待OpenAI帶來更多領先的AI模型,同時降低使用者的使用成本。

站在部落客的親身使用R1的感受來說,我想說,R1的Deep Thinking總是能讓我思路開闊。建議大家多用它來思考問題~

類似文章

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *