DeepSeek R1 型號 進行了小版本升級,目前版本為DeepSeek-R1-0528。當您進入DeepSeek網頁或App時,在對話式介面開啟「深度思考」功能即可體驗最新版本。

DeepSeek-R1-0528 模型重量已上傳至 HuggingFace

在過去的四個月裡,DeepSeek-R1經歷了超級進化,實現了超乎尋常的編碼能力和顯著更長的思考時間。雖然它可能不是 DeepSeek-R2 正如大家所期待的,DeepSeek-R1-0528 型號的改進是巨大的。

據介紹,新模型是在DeepSeek-V3-0324(擁有660B參數)上進行訓練的。

讓我們先透過表格快速瀏覽此版本中的關鍵更新

能力維度deepseek-R1Deepseek-R1-0528
最大情境64k(API)128K(API)甚至更多
程式碼生成liveCodeBench 關閉 openai O1接近O3
推理深度複雜的問題需要分段提示。支持30-60分鐘的深度思考
語言自然性相當冗長結構緊湊,書寫方式類似O3
使用成本開源或 API$0.5/M開源或 API$0.5/M

增強深度思考能力

DeepSeek-R1-0528仍以2024年12月發布的DeepSeek V3 Base模型為基礎,但在後期訓練中投入了更多的算力,顯著增強了模型的思考深度和推理能力。

升級後的R1模型在數學、程式設計、通用邏輯等多項基準評測中,均取得了國產模型頂尖水平,綜合性能已與o3、Gemini-2.5-Pro等國際頂級模型相當。

  • 數學與程式設計能力:在AIME 2025數學競賽中,準確率由上一版本的70%提升至87.5%; LiveCodeBench 基準測試中的程式碼產生能力幾乎與 OpenAI 的 o3-high 模型相當,達到了 pass@1 的分數 73.3deepseek R1。

用戶測試表明,新型 DeepSeek-R1 的編程功能簡直令人驚嘆!

AI專家「karminski-dentist」使用相同提示對DeepSeek-R1-0528和Claude 4 Sonnet進行了測試,結果發現:

無論是牆壁上光線的漫反射、球撞擊後的運動方向,或是控制面板的美觀度,R1 都明顯優於競爭對手。

用戶 Haider。讓模型建立一個單字評分系統。 R1 簡要地考慮了這項任務並立即產生了兩個檔案 - 一個用於程式碼,另一個用於工作測試 - 這兩個檔案在第一次嘗試時就完美運行。

在此之前,o3是唯一能夠完成這項任務的模型。現在,R1無疑是完成這項任務的最佳模型。

請注意,R1 的性能如此出色,因為它返回的兩個文件在第一次嘗試時就完美運行,無需任何編輯或重試,這是極為罕見的。

以前,大多數模型要么在邊緣情況下終止,要么解決方案過於複雜,要么缺乏足夠的測試覆蓋率。

  • 推理深度:單任務思考時間延長至30-60分鐘,解決複雜問題(如物理模擬、多步驟邏輯謎題)的能力顯著增強。

更長的思考時間已成為網路上討論最多的功能。有使用者反映,在實際測驗中R1的思考時間超過了25分鐘。

此外,這似乎是唯一能夠始終正確回答「9.9 減 9.11 等於多少?」的模型。

DeepSeek-R1-0528 取得了優異的性能 在所有評估資料集上

相較於上一版本R1,新模型在複雜推理任務上展現了顯著的提升。例如在AIME 2025測試中,新模型的準確率從70%提升至87.5%。

這項提升得益於模型推理深度的增強:在 AIME 2025 測試集上,舊模型平均每題使用 12K 個 token,而新模型平均每題使用 23K 個 token,這表明在解決問題的過程中思考得更加細緻和深入。

此外,deepseek團隊從DeepSeek-R1-0528中提取了推理鏈,並對Qwen3-8B Base進行了微調,得到了DeepSeek-R1-0528-Qwen3-8B。

這款 8B 型號在 AIME 2024 數學測驗中排名僅次於 DeepSeek-R1-0528,優於 Qwen3-8B (+10.0%) 並與 Qwen3-235B 持平。

DeepSeek-R1-0528的推理鏈對於推理模型的學術研究和小型模型的工業發展具有重要意義。

有網友稱讚DeepSeek-R1能夠像o3一樣糾正推理鏈,並像克勞德一樣創造性地建構世界。

值得注意的是,DeepSeek是一款開源模型,這標誌著開源模型的重大勝利。

DeepSeek-R1-0528-Qwen3-8B 等開源模型的 AIME 2024 比較結果

其他功能更新

  • 幻覺改進:新版DeepSeek R1針對「幻覺」問題進行了性能優化。與先前的版本相比,更新後的模型在重寫和潤飾、總結和閱讀理解等任務中幻覺發生率降低了 45–50%,從而提供了更準確和可靠的結果。
  • 創意寫作:更新後的 R1 模型在上一代 R1 版本的基礎上,針對散文、小說、散文等寫作風格進行了進一步優化,能夠生成篇幅更長、結構更完整的作品,同時呈現更符合人類寫作習慣的寫作風格。
  • 工具呼叫:DeepSeek-R1-0528支援工具呼叫(思考中不支援工具呼叫)。目前模型的 Tau-Bench 評估得分為航空類 53.5%,零售類 63.9%,與 OpenAI o1-high 相當,但仍落後於 o3-High 和 Claude 4 Sonnet。

此範例展示了透過 LobeChat 使用 DeepSeek-R1-0528 的工具呼叫功能產生的網路文章摘要。此外,DeepSeek-R1-0528 在前端程式碼產生和角色扮演等方面進行了更新和改進。

此範例展示了一個使用 HTML/CSS/JavaScript 透過在網頁上呼叫 DeepSeek-R1-0528 開發的現代簡約單字卡應用程式。

DeepSeek-R1-0528 更新的主要亮點

  • 深度推理能力堪比Google模型
  • 文字生成優化:更自然、格式更好
  • 獨特的推理風格:不僅更快,更嚴謹
  • 支持長期思考:單任務處理時間可達30-60分鐘

我們已經測試了新版本 DeepSeek-R1 的功能。雖然是「小版本」更新,但性能卻得到了「史詩級」的增強。

特別是在程式設計能力方面,感覺已經超越或與Claude 4、Gemini 2.5 Pro持平。所有提示都是“一次性的”,不需要修改!並且它可以直接在網頁瀏覽器中運行以展示其功能。

可以明顯感受到新版DeepSeek-R1的思考過程更加穩定。

你可以問deepseek-R1任何你想知道答案的問題,即使你的問題有點無意義,它仍然會仔細思考並組織邏輯。我們強烈建議您嘗試最新的 deepseek-R1 型號。

API更新訊息

API進行了更新,但是介面和呼叫方式保持不變。新的R1 API仍然支援查看模型的思考過程,現在也支援Function Calling和JsonOutput。

deepseek團隊在新的R1 API中調整了max_tokens參數的意義:max_tokens現在限制模型單次輸出的總長度(包含思考過程),預設值為32K,最大值為64K。建議 API 使用者及時調整 max_tokens 參數,以防止輸出過早被截斷。

有關使用 R1 模型的詳細說明,請參閱 deepseek R1 API 指南:

本次R1更新後,官網、小程式、APP、API上的模型上下文長度仍維持64K。如果使用者需要更長的上下文長度,可以透過其他第三方平台呼叫上下文長度為128K的開源版本R1-0528模型。

開源

DeepSeek-R1-0528 使用與先前的 DeepSeek-R1 相同的基礎模型,僅對後訓練方法進行了改進。

私有部署時,只需要更新checkpoint和tokenizer_config.json(工具呼叫相關的變更)。模型參數為685B(其中MTP層為14B),開源版本上下文長度為128K(提供web、app、API各64K上下文長度)。

類似文章

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *