在AI圈，DeepSeek R1已經在體能測試中穩步超越o1和Claude，我們進入了RL的黃金時代。

誰也沒想到，2025年人工智慧領域會以這樣的方式開始。

DeepSeek R1 真是太棒了！

近期，「神秘的東方勢力」DeepSeek正在「強勢掌控」矽谷。

我請R1詳細解釋一下勾股定理。這一切都由AI在不到30秒的時間內完成，沒有任何失誤。簡而言之，一切都結束了。

在國內外人工智慧圈，一般網友發現了令人驚嘆、功能強大的新型人工智慧（而且還是開源的），學術專家也高喊「我們必須迎頭趕上」。也有傳言稱，海外的AI企業已經面臨重大威脅。

就拿本週發布的DeepSeek R1來說吧。其沒有任何監督訓練的純強化學習路線令人震驚。從去年12月Deepseek-v3基礎的開發，到現在思維鏈能力媲美OpenAI o1，似乎只是時間問題。

然而，當人工智慧社群忙於閱讀技術報告和比較實際測量結果時，人們仍然對 R1 心存疑慮：除了能夠超越一系列基準測試之外，它真的能領先嗎？

它能建立自己的「物理定律」模擬嗎？

你不相信嗎？我們讓大模特兒玩彈珠台吧？

最近，人工智慧社群中的一些人沉迷於一個測試——測試不同的人工智慧大模型（尤其是所謂的推理模型）來解決一個問題：「編寫一個Python 腳本，讓一個黃色的球在某個特定區域內彈跳，形狀。讓形狀緩慢旋轉並確保球保持在形狀內。

在這項「旋轉球」基準測試中，有些模型的表現優於其他模型。根據CoreView CTO Ivan Fioravanti介紹，國內人工智慧實驗室DeepSeek有開源大模型R1，擊敗了OpenAI的o1 pro模型，作為OpenAI ChatGPT Pro計劃的一部分，$200每月的費用為$200。

左邊是OpenAI o1，右邊是DeepSeek R1。如上所述，這裡的提示是：「為正方形內彈跳的黃色球編寫一個 python 腳本，確保正確處理碰撞檢測。使正方形緩慢旋轉。用python實作它。確保球停留在方格內。

據X上的另一位用戶稱，Anthropic的Claude 3.5 Sonnet和Google的Gemini 1.5 Pro型號對物理原理的判斷是錯誤的，導致球的形狀偏離了形狀。有用戶也反映，Google最新的 Gemini 2.0 閃電思維實驗，以及相對較老的 OpenAI GPT-4o 都一次通過了評估。

但這裡有一個方法可以區分：

這則推文下的網友表示：o1的能力本來就很厲害，但是在OpenAI優化速度之後就變弱了，甚至連$200/月的會員版本都不如。

模擬彈跳球是一個經典的程式設計挑戰。精確的模擬結合了碰撞偵測演算法，該演算法需要識別兩個物體（例如一個球和一個形狀的側面）何時發生碰撞。編寫不當的演算法可能會影響模擬的效能或導致明顯的物理錯誤。

人工智慧新創公司 Nous Research 的研究員 N8 Programs 表示，他從頭開始編寫了一個旋轉七邊形中的彈跳球，花了大約兩個小時。 “必須追蹤多個坐標系，需要了解每個系統中如何處理碰撞，並且必須從頭開始設計程式碼以確保其穩健性。”

雖然彈跳球和旋轉形狀對程式設計技能的合理考驗，但對於大型模型來說，它們仍然是新項目，提示中的微小變化也會產生不同的結果。所以如果它最終要成為大型AI模型的基準測試的一部分，它仍然需要改進。

不管怎樣，經過這波實際測試，我們已經感受到了大型車型之間的能力差異。

DeepSeek 是新的「矽穀神話

DeepSeek正在太平洋彼岸引發「恐慌」。

Meta 員工發文表示“Meta 工程師正在瘋狂分析 DeepSeek，試圖從中複製任何可以複製的內容。”

AI科技新創公司Scale AI創辦人Alexandr Wang也公開表示，DeepSeek的AI大模型的效能大致相當於美國最好的模型。

他也認為，過去十年來，美國在人工智慧競爭中可能一直領先中國，但DeepSeek發布其人工智慧大模型可能會「改變一切」。

X Blogger@8teAPi認為，DeepSeek不是一個“副項目”，而像洛克希德·馬丁公司的前身“臭鼬工廠”。

所謂“臭鼬工廠”，是指洛克希德·馬丁公司為了研發多項先進飛機而最初設立的一個高度機密、相對獨立的小團隊，從事尖端或非常規技術的研發。從U-2偵察機、SR-71黑鳥到F-22猛禽、F-35閃電II戰鬥機，都來自這裡。

後來，這個術語逐漸演變為一個通用術語，用來描述大公司或組織內部設立的「小而精」、相對獨立、更靈活的創新團隊。

他給了兩個理由：

一方面，DeepSeek的GPU數量非常多，據報導超過10,000個，Scale AI執行長Alexandr Wang甚至表示可以達到50,000個。
另一方面，DeepSeek只招募國內排名前三的大學的人才，這意味著DeepSeek的競爭力與阿里巴巴、騰訊不相上下。

僅憑這兩個事實，就足以說明DeepSeek顯然已經取得了商業上的成功，並且足夠知名，可以獲得這些資源。

至於DeepSeek的開發成本，該部落客表示，中國科技公司可以獲得多種補貼，例如低電力成本和土地使用費。

因此，DeepSeek的大部分成本很有可能被「放到」了核心業務以外的帳戶上，或以某種資料中心建設補貼的形式存在。

即使除了創辦人之外，也沒有人完全了解所有的財務安排。有些協議可能只是基於聲譽而最終達成的「口頭協議」。

無論如何，有幾件事是清楚的：

模型非常出色，堪比OpenAI兩個月前發布的版本，當然也有可能不如OpenAI和Anthropic尚未發布的新模型。
從目前來看，該研究方向仍以美國公司為主。 DeepSeek車型是o1版本的“快速跟進”，但DeepSeek的研發進度非常迅速，追趕的速度比想像中還要快。他們不算抄襲，也不算作弊，最多算是逆向工程。
DeepSeek主要培養自己的人才，而不是依賴美國培養的博士，這大大擴大了人才庫。
與美國公司相比，DeepSeek在智慧財產權授權、隱私、安全、政治等方面受到的限制較少，對人們不願被教育的資料被不當使用的擔憂也較少。訴訟越來越少，律師越來越少，擔憂也越來越少。

毫無疑問，越來越多的人相信2025年將是決定性的一年。同時，各公司也為此做好準備。以Meta為例，其正在興建2GW+的資料中心，預計2025年投資將達到$60-65億美元，年底將擁有超過130萬塊GPU。

Meta 甚至用圖表將其 2 千兆瓦的數據中心與紐約曼哈頓進行了比較。

但現在 DeepSeek 以更低的成本和更少的 GPU 取得了更好的成績。這怎能不讓人焦慮？

Yann LeCun：我們要感謝這開源

誇張地說，Yuchen Jin，發文表示在短短 4 天內，DeepSeek-R1 就向我們證明了 4 個事實：

開源 AI 只比閉源 AI 落後 6 個月
中國在開源人工智慧競爭中佔據主導地位
我們正進入大型語言模型強化學習的黃金時代
蒸餾模型非常強大，我們將在手機上運行高智慧AI

DeepSeek 引發的連鎖反應還在繼續，例如 OpenAI o3-mini 被免費提供，社群希望減少關於 AGI/ASI 的模糊討論，以及有關 Meta 陷入恐慌的傳言。

他認為，很難預測誰會最終獲勝，但我們不應忘記後發優勢的力量。畢竟，我們都知道，Transformer 是谷歌發明的，而 OpenAI 則釋放了它的真正潛力。

此外，圖靈獎得主、Meta公司首席AI科學家Yann LeCun也發表了自己的看法。

“如果有人看到 DeepSeek 的表現後，就認為‘中國在人工智慧領域正在超越美國’，那你就錯了。正確的理解是，開源模式正在超越專有模式。

LeCun 表示，DeepSeek 這次之所以能引起如此轟動，是因為他們得益於開放研究和開源（例如 Meta 的 PyTorch 和 Llama）。 DeepSeek 提出了新的想法並在其他人的工作基礎上進行了改進。由於他們的工作是公開發布且開源的，所以每個人都可以從中受益。這就是開放研究和開源的力量。

網友們的反思還在繼續。他們在為新科技的發展感到興奮的同時，也能感受到一絲焦慮的氛圍。畢竟，DeepSeekers的出現可能會產生真正的影響。

在AI圈，DeepSeek R1已經在體能測試中穩步超越o1和Claude，我們進入了RL的黃金時代。

它能建立自己的「物理定律」模擬嗎？

DeepSeek 是新的「矽穀神話

Yann LeCun：我們要感謝這開源

奧特曼：我們對開源人工智慧的看法是錯的！ DeepSeek 讓 OpenAI 優勢減弱，下一個是 GPT-5

Google一次發布三個新模型：Gemini-2.0-Pro免費，成績優異排名第一，適合編碼和處理複雜的提示！

論文-DeepSeek-R1：透過強化學習激勵法學碩士中的推理能力

DeepSeek已發布其原始碼，FlashMLA詳解

雙子座2.0霸榜，DeepSeek V3降價驚艷，新性價比冠軍誕生！

DeepSeek R1論文解讀&關鍵技術點

發佈留言取消回覆

它能建立自己的「物理定律」模擬嗎？

DeepSeek 是新的「矽穀神話

Yann LeCun：我們要感謝 這 開源

類似文章

發佈留言 取消回覆

Yann LeCun：我們要感謝這開源

發佈留言取消回覆