誰也沒想到,2025年人工智慧領域會以這樣的方式開始。
DeepSeek R1 真是太棒了!
近期,「神秘的東方勢力」DeepSeek正在「強勢掌控」矽谷。

我請R1詳細解釋一下勾股定理。這一切都由AI在不到30秒的時間內完成,沒有任何失誤。簡而言之,一切都結束了。
在國內外人工智慧圈,一般網友發現了令人驚嘆、功能強大的新型人工智慧(而且還是開源的),學術專家也高喊「我們必須迎頭趕上」。也有傳言稱,海外的AI企業已經面臨重大威脅。
就拿本週發布的DeepSeek R1來說吧。其沒有任何監督訓練的純強化學習路線令人震驚。從去年12月Deepseek-v3基礎的開發,到現在思維鏈能力媲美OpenAI o1,似乎只是時間問題。
然而,當人工智慧社群忙於閱讀技術報告和比較實際測量結果時,人們仍然對 R1 心存疑慮:除了能夠超越一系列基準測試之外,它真的能領先嗎?
它能建立自己的「物理定律」模擬嗎?
你不相信嗎?我們讓大模特兒玩彈珠台吧?
最近,人工智慧社群中的一些人沉迷於一個測試——測試不同的人工智慧大模型(尤其是所謂的推理模型)來解決一個問題:「編寫一個Python 腳本,讓一個黃色的球在某個特定區域內彈跳,形狀。讓形狀緩慢旋轉並確保球保持在形狀內。
在這項「旋轉球」基準測試中,有些模型的表現優於其他模型。根據CoreView CTO Ivan Fioravanti介紹,國內人工智慧實驗室DeepSeek有開源大模型R1,擊敗了OpenAI的o1 pro模型,作為OpenAI ChatGPT Pro計劃的一部分,$200每月的費用為$200。

左邊是OpenAI o1,右邊是DeepSeek R1。如上所述,這裡的提示是:「為正方形內彈跳的黃色球編寫一個 python 腳本,確保正確處理碰撞檢測。使正方形緩慢旋轉。用python實作它。確保球停留在方格內。
據X上的另一位用戶稱,Anthropic的Claude 3.5 Sonnet和Google的Gemini 1.5 Pro型號對物理原理的判斷是錯誤的,導致球的形狀偏離了形狀。有用戶也反映,Google最新的 Gemini 2.0 閃電思維實驗,以及相對較老的 OpenAI GPT-4o 都一次通過了評估。
但這裡有一個方法可以區分:

這則推文下的網友表示:o1的能力本來就很厲害,但是在OpenAI優化速度之後就變弱了,甚至連$200/月的會員版本都不如。
模擬彈跳球是一個經典的程式設計挑戰。精確的模擬結合了碰撞偵測演算法,該演算法需要識別兩個物體(例如一個球和一個形狀的側面)何時發生碰撞。編寫不當的演算法可能會影響模擬的效能或導致明顯的物理錯誤。
人工智慧新創公司 Nous Research 的研究員 N8 Programs 表示,他從頭開始編寫了一個旋轉七邊形中的彈跳球,花了大約兩個小時。 “必須追蹤多個坐標系,需要了解每個系統中如何處理碰撞,並且必須從頭開始設計程式碼以確保其穩健性。”
雖然彈跳球和旋轉形狀對程式設計技能的合理考驗,但對於大型模型來說,它們仍然是新項目,提示中的微小變化也會產生不同的結果。所以如果它最終要成為大型AI模型的基準測試的一部分,它仍然需要改進。
不管怎樣,經過這波實際測試,我們已經感受到了大型車型之間的能力差異。
DeepSeek 是新的「矽穀神話
DeepSeek正在太平洋彼岸引發「恐慌」。

Meta 員工發文表示“Meta 工程師正在瘋狂分析 DeepSeek,試圖從中複製任何可以複製的內容。”
AI科技新創公司Scale AI創辦人Alexandr Wang也公開表示,DeepSeek的AI大模型的效能大致相當於美國最好的模型。
他也認為,過去十年來,美國在人工智慧競爭中可能一直領先中國,但DeepSeek發布其人工智慧大模型可能會「改變一切」。
X Blogger@8teAPi認為,DeepSeek不是一個“副項目”,而像洛克希德·馬丁公司的前身“臭鼬工廠”。
所謂“臭鼬工廠”,是指洛克希德·馬丁公司為了研發多項先進飛機而最初設立的一個高度機密、相對獨立的小團隊,從事尖端或非常規技術的研發。從U-2偵察機、SR-71黑鳥到F-22猛禽、F-35閃電II戰鬥機,都來自這裡。
後來,這個術語逐漸演變為一個通用術語,用來描述大公司或組織內部設立的「小而精」、相對獨立、更靈活的創新團隊。
他給了兩個理由:
- 一方面,DeepSeek的GPU數量非常多,據報導超過10,000個,Scale AI執行長Alexandr Wang甚至表示可以達到50,000個。
- 另一方面,DeepSeek只招募國內排名前三的大學的人才,這意味著DeepSeek的競爭力與阿里巴巴、騰訊不相上下。
僅憑這兩個事實,就足以說明DeepSeek顯然已經取得了商業上的成功,並且足夠知名,可以獲得這些資源。

至於DeepSeek的開發成本,該部落客表示,中國科技公司可以獲得多種補貼,例如低電力成本和土地使用費。
因此,DeepSeek的大部分成本很有可能被「放到」了核心業務以外的帳戶上,或以某種資料中心建設補貼的形式存在。
即使除了創辦人之外,也沒有人完全了解所有的財務安排。有些協議可能只是基於聲譽而最終達成的「口頭協議」。
無論如何,有幾件事是清楚的:
- 模型非常出色,堪比OpenAI兩個月前發布的版本,當然也有可能不如OpenAI和Anthropic尚未發布的新模型。
- 從目前來看,該研究方向仍以美國公司為主。 DeepSeek車型是o1版本的“快速跟進”,但DeepSeek的研發進度非常迅速,追趕的速度比想像中還要快。他們不算抄襲,也不算作弊,最多算是逆向工程。
- DeepSeek主要培養自己的人才,而不是依賴美國培養的博士,這大大擴大了人才庫。
- 與美國公司相比,DeepSeek在智慧財產權授權、隱私、安全、政治等方面受到的限制較少,對人們不願被教育的資料被不當使用的擔憂也較少。訴訟越來越少,律師越來越少,擔憂也越來越少。
毫無疑問,越來越多的人相信2025年將是決定性的一年。同時,各公司也為此做好準備。以Meta為例,其正在興建2GW+的資料中心,預計2025年投資將達到$60-65億美元,年底將擁有超過130萬塊GPU。
Meta 甚至用圖表將其 2 千兆瓦的數據中心與紐約曼哈頓進行了比較。

但現在 DeepSeek 以更低的成本和更少的 GPU 取得了更好的成績。這怎能不讓人焦慮?
Yann LeCun:我們要感謝 這 開源
誇張地說,Yuchen Jin,發文表示在短短 4 天內,DeepSeek-R1 就向我們證明了 4 個事實:
- 開源 AI 只比閉源 AI 落後 6 個月
- 中國在開源人工智慧競爭中佔據主導地位
- 我們正進入大型語言模型強化學習的黃金時代
- 蒸餾模型非常強大,我們將在手機上運行高智慧AI

DeepSeek 引發的連鎖反應還在繼續,例如 OpenAI o3-mini 被免費提供,社群希望減少關於 AGI/ASI 的模糊討論,以及有關 Meta 陷入恐慌的傳言。
他認為,很難預測誰會最終獲勝,但我們不應忘記後發優勢的力量。畢竟,我們都知道,Transformer 是谷歌發明的,而 OpenAI 則釋放了它的真正潛力。
此外,圖靈獎得主、Meta公司首席AI科學家Yann LeCun也發表了自己的看法。
“如果有人看到 DeepSeek 的表現後,就認為‘中國在人工智慧領域正在超越美國’,那你就錯了。正確的理解是,開源模式正在超越專有模式。
LeCun 表示,DeepSeek 這次之所以能引起如此轟動,是因為他們得益於開放研究和開源(例如 Meta 的 PyTorch 和 Llama)。 DeepSeek 提出了新的想法並在其他人的工作基礎上進行了改進。由於他們的工作是公開發布且開源的,所以每個人都可以從中受益。這就是開放研究和開源的力量。

網友們的反思還在繼續。他們在為新科技的發展感到興奮的同時,也能感受到一絲焦慮的氛圍。畢竟,DeepSeekers的出現可能會產生真正的影響。