OpenAI 新發布的 o3-mini 與 DeepSeek R1 的全面對比—

OpenAI 發布了其最新的推理模型， o3-迷你針對科學、數學和程式設計等領域進行了最佳化，提供更快的反應速度、更高的準確度和更低的成本。

與前代o1-mini相比，o3-mini的推理能力有顯著提升，特別是在解決複雜問題方面。測試人員對o3-mini的答案的喜愛度提高了56%，錯誤率降低了39%。從今天起， ChatGPT Plus，團隊 和 專業版 使用者可以使用 o3-mini，且 免費用戶 還可以體驗它的一些功能。

與推理模型相比 DeepSeek-R1，到底有多好 OpenAI o3-mini 比 R1 怎麼樣？

本文將首先概述o3-mini的亮點，然後我們將在每個基準測試上提取雙方的數據並製作成圖表來直觀地進行比較。另外我們還會對比一下o3-mini的價格。

核心亮點

1.STEM 優化：在數學、程式設計、科學等領域表現出色，尤其是在高推理努力模式下超越o1-mini。

2.開發人員功能：支援函數呼叫、結構化輸出、開發者訊息等功能，滿足生產環境的需求。

3.快速回應：24% 比 o1-mini 更快，每個請求的回應時間為 7.7 秒。

4.安全性改進：透過深度對準技術，確保輸出安全可靠。

5.經濟高效：推理能力與成本優化並進，大大降低了AI的使用門檻。

比較

Open AI 為了凸顯其級別，其 官方博客 僅將其與自己的模型進行比較。因此本文是從DeepSeek R1論文和OpenAI官方部落格的資料中提取的表格。

OpenAI 官方比較 o3-迷你在版本清單中，將其分為低、中、高三個版本，表示推理強度。由於 DeepSeek 使用 Math-500 而 OpenAI 使用 Math 資料集，因此這裡已刪除此比較。

圖表更加直觀，Codeforces 已經因為數值太大而無法直觀展示而被移除。但在Codeforces上的比較中，o3-mini的高推理強度並沒能領先太多。

↑1AIME2024→2GPQA 鑽石→3MMLU→4SWE 工作台驗證

從圖表上看，總共4次對比，O3-mini（高）整體領先，但是領先幅度非常小。

價格

模型	輸入價格	緩存命中	產出價格
o3-迷你	$1.10	$0.55	$4.40
o1	$15.00	$7.50	$60.00
深尋 R1	$0.55	$0.14	$2.19

概括

隨著DeepSeek R1在美國引發DeepSeek恐慌，最先感受到威脅的是OpenAI，這一點尤其體現在其新款機型o3-mini的定價上。

Openai o1剛發佈時，高昂的價格給許多開發者和使用者帶來了壓力。 DeepSeek R1的出現，給了大家更多的選擇。從o1和R1價格相差30倍，到o3-mini最終售價是r1的兩倍 DeepSeek R1的價格，

展示了DeepSeek R1對openai的影響。不過，ChatGPT 免費用戶只能有限地體驗 o3-mini，而 DeepSeek 的 Deep Thinking 目前對所有用戶開放。也期待OpenAI帶來更多領先的AI模型，同時降低使用者的使用成本。

站在部落客的親身使用R1的感受來說，我想說，R1的Deep Thinking總是能讓我思路開闊。建議大家多用它來思考問題~

未分類

四大模特兒的對決！評測展現 Deepseek R1 的強大功能

經過雙ddeepseeker 2025 年 6 月 1 日2025 年 6 月 1 日

這幾天，Deepseek-R1 0528 正式開源。在LiveCodeBench上，它的性能幾乎與OpenAI的o3（高）相當；在 Aider 的多語言基準測試中，它與 Claude Opus 不相上下。當它在官方網站上線時，我們快速測試了它的前端功能，發現它非常…

未分類

DeepSeek R1論文解讀&關鍵技術點

經過雙ddeepseeker 2025年2月9日2025年2月9日

1 背景春節期間，DeepSeek R1再次引發了廣泛關注，就連我們先前撰寫的DeepSeek V3解讀文章也被重新轉發並引發了大量討論。雖然對DeepSeek R1已經有了很多的分析和重述，但我們還是決定在這裡寫一些對應的閱讀筆記。我們將使用三個…

未分類

全球主流AI產品著重分析和全面的使用者體驗指南（包括DeepSeek和GPT）

經過雙ddeepseeker 2025年2月10日2025年2月10日

功能定位與核心優勢分析 ChatGPT（OpenAI）－全能型人工智慧的全球標竿 ChatGPT 技術基因：基於GPT系列大模型的生成式人工智慧，以通用對話能力與邏輯推理能力為核心優勢。多語言處理：英文表現最佳，中文持續改善；但建議使用英文…

未分類

Google低價機型Gemini 2.0系列來襲：大機型性價比之爭愈演愈烈

經過雙ddeepseeker 2025年2月8日2025年2月8日

使用大型AI模型的成本過高，是許多AI應用尚未實現和推廣的一個重要原因。選擇極限效能意味著巨大的算力成本，這導致高昂的使用成本是一般使用者無法接受的。大型AI模型的競爭就像一場沒有硝煙的戰爭。後…

未分類

DeepSeek-R1-0528 更新：更深入的思考，更強的推理

經過雙ddeepseeker 2025 年 5 月 29 日2025 年 5 月 29 日

DeepSeek R1型號進行了小版本升級，目前版本為DeepSeek-R1-0528。當您進入DeepSeek網頁或App時，在對話式介面開啟「深度思考」功能即可體驗最新版本。 DeepSeek-R1-0528 模型重量已上傳至 HuggingFace 在過去的四個月中，DeepSeek-R1 經歷了…

未分類

Cathie Wood：DeepSeek只是加速了降低成本的進程；堪比大蕭條時期的極度集中的市場結構將會改變

經過雙ddeepseeker 2025年2月8日2025年2月8日

亮點與 DeepSeek 的競爭對美國有利 Cathie Wood：我認為這表明創新成本正在大幅下降，而且這種趨勢已經開始。例如，在DeepSeek之前，訓練人工智慧的成本每年下降了75%，推理的成本甚至下降了85%至......

OpenAI 新發布的 o3-mini 與 DeepSeek R1 的全面比較

核心亮點

比較

價格

概括

四大模特兒的對決！評測展現 Deepseek R1 的強大功能

DeepSeek R1論文解讀&關鍵技術點

全球主流AI產品著重分析和全面的使用者體驗指南（包括DeepSeek和GPT）

Google低價機型Gemini 2.0系列來襲：大機型性價比之爭愈演愈烈

DeepSeek-R1-0528 更新：更深入的思考，更強的推理

Cathie Wood：DeepSeek只是加速了降低成本的進程；堪比大蕭條時期的極度集中的市場結構將會改變

發佈留言取消回覆

核心亮點

比較

價格

概括

類似文章

發佈留言 取消回覆

發佈留言取消回覆