論文-DeepSeek-R1：透過強化學習激勵法學碩士中的推理能力

抽象的

本文介紹了DeepSeek的第一代推理模型：DeepSeek-R1-Zero和DeepSeek-R1。 DeepSeek-R1-Zero 透過大規模強化學習（RL）訓練，無需監督微調（SFT），展現出卓越的推理能力。透過 RL，它自然而然地發展出強大的推理行為。但它面臨可讀性差、語言混合等挑戰。為了解決這些問題並提高推理效能，我們開發了 DeepSeek-R1，在 RL 之前結合了多階段訓練和冷啟動資料。 DeepSeek-R1 在推理任務上實現了與 OpenAI-o1-1217 相當的效能。為了支持研究，DeepSeek 開源了兩個模型以及基於 Qwen 和 Llama 從 DeepSeek-R1 提煉出的六個密集模型（1.5B、7B、8B、14B、32B、70B）。

主要貢獻

訓練後：大規模強化學習

成功將 RL 直接應用於基礎模型（無需 SFT）
開發DeepSeek-R1-Zero，展示自我驗證與反射等功能
首個開放式研究證實推理能力可以純粹透過 RL 來激勵
引入了具有兩個 RL 級和兩個 SFT 級的 DeepSeek-R1 流水線

提煉：賦能小型模型

證明較大模型中的推理模式可以有效地提煉為較小的模型
開源 DeepSeek-R1 及其 API，造福研究界
對幾個密集模型進行了微調，顯示出出色的基準性能
提煉後的模型明顯優於先前的開源模型

評估結果

推理任務

DeepSeek-R1 在 AIME 2024 上取得 79.8% Pass@1 成績，超越 OpenAI-o1-1217
MATH-500 上的成績為 97.3%，與 OpenAI-o1-1217 相當
在 Codeforces 代碼競賽任務中達到專家級表現，Elo 評分為 2,029

知識任務

在 MMLU（90.8%）、MMLU-Pro（84.0%）和 GPQA Diamond（71.5%）上取得優異成績
在教育任務上超越其他閉源模型
在 SimpleQA 等事實基準測試中表現出色

常規功能

擅長創意寫作、問答、編輯和總結
AlpacaEval 2.0 的勝率為 87.6%，ArenaHard 的勝率為 92.3%
在長上下文理解任務中表現出色

未來工作

該團隊計劃重點關注：

增強函數呼叫和複雜角色扮演等領域的一般能力
解決語言混合問題
改進提示工程
提高軟體工程任務的績效

結論

DeepSeek-R1代表了透過強化學習所實現的人工智慧推理能力的重大進步。主模型及其提煉版本的成功證明了這種方法在開發更強大的人工智慧系統方面的潛力。這些模型的開源發布將有助於該領域的進一步研究和開發。

DeepSeek_R1 下載

未分類

DeepSeek R1在創意寫作測驗中獲得了第一名，而o3 mini甚至比o1 mini還差！

經過雙ddeepseeker 2025年2月3日2025年2月3日

DeepSeek R1在創意短篇小說寫作基準測試中奪冠，成功超越上屆霸主Claude 3.5 Sonnet！基準測試研究員 Lech Mazur 設計的基準測試不是一般的寫作比賽。每個 AI 模型都需要完成 500 個短篇故事，並且每個故事都必須巧妙地融入…

未分類

突發新聞！ OpenAI 今天發布了 2 個新的推理模型：o3-mini 和 o3-mini-high。

經過雙ddeepseeker 2025年2月1日2025年2月1日

o3-mini和o3-mini（high）將於今天發布。普通用戶也將獲得 o3-mini，而 Plus 用戶將能夠使用 o3-mini (high)。 o3-mini（high）在Codeforce上比o1高200分左右，速度比o1快，編碼和數學方面表現更佳，但成本還是在o1-mini的水平。

未分類

它接近DeepSeek-R1-32B並粉碎了李飛飛的s1！加州大學柏克萊分校和其他開源新 SOTA 推理模型

經過雙ddeepseeker 2025年2月14日2025年2月14日

32B推理模型僅使用1/8的數據，與相同大小的DeepSeek-R1並列！剛剛，史丹佛大學、加州大學柏克萊分校、華盛頓大學等機構聯合發布了SOTA級別推理模型OpenThinker-32B，並且開源了高達114k的訓練資料。 OpenThinker 專案首頁：OpenThinker 擁抱臉：…

未分類

DeepSeek 是如何建立的？ DeepSeek成長史分析

經過雙ddeepseeker 2025年2月3日2025年2月3日

未來還會有更多、更硬派的創新。現在可能不太容易理解，因為整個社會群體都需要用事實來教育。當這個社會允許那些努力創新的人成功時，集體思維模式就會改變。我們只需要一堆事實和一個過程…

未分類

DeepSeek等大型語言模型管理神器：Cherry Studio、Chatbox、AnythingLLM，誰是你的效率加速器？

經過雙ddeepseeker 2025年2月11日2025年2月11日

許多人已經開始在本地部署並使用Deepseek Large Language Models，並使用Chatbox作為視覺化工具，本文將繼續介紹另外兩個AI Large Language Model管理和視覺化神器，並將對三者進行詳細的比較，以幫助您更有效率的使用AI Large Language Models。 2025年…

未分類

Qwen2.5-max vs DeepSeek R1：深度機型對比：全面分析應用場景

經過雙ddeepseeker 2025年2月14日2025年2月14日

簡介如今，大型語言模型 (LLM) 發揮著至關重要的作用。 2025年初，隨著AI競爭愈演愈烈，阿里巴巴推出了全新的Qwen2.5-max AI模型，來自中國杭州的DeepSeek公司推出了代表LLM技術巔峰的R1模型。 Deepseek R1 是一個開源 AI 模型，吸引了…

抽象的