未來還會有更多、更硬派的創新。現在可能不太容易理解,因為整個社會群體都需要用事實來教育。當這個社會允許那些努力創新的人成功時,集體思維模式就會改變。我們只需要一堆事實和一個過程。 — DeepSeek創始人梁文峰

最近幾天,DeepSeek在全球爆紅,但由於該公司如此低調,沒有發布任何公告,公眾對這家潛力巨大的科技公司知之甚少——無論是其創始背景、業務範圍或產品佈局。

在整理完所有資料後,我寫了這篇文章

目前 AI 玩家的背景如何、他們在做什麼以及他們正在招募誰?

可能是最完整的 DeepSeek 歷史概述。

去年這個時候,Magic Cube Quant的一個朋友來找我,問我“你想在中國做一個大模型嗎?”我只是花了一個下午的時間喝咖啡。果然,人生還是要靠選擇。

這裡提到的Magic Cube Quant就是投資者或其母公司,DeepSeek。

所謂「量化」就是不靠人力、而是靠演算法做決策的投資機構。 Quant Fantasy成立時間不長,始於2015年,到2021年,成立六週年之際,Quant Fantasy的資產管理規模已突破1000億,被譽為中國「四大量化王」之一。

幻想廣場創始人梁文峰,同時也是DeepSeek的創始人, 是80後「非主流」財經領袖:沒有海外留學經驗、不是奧運比賽冠軍,畢業於浙江大學電子工程係人工智慧專業。他是一位低調的本土技術專家,每天「看論文、寫程式、參與小組討論」。

梁文峰沒有傳統企業主的習氣,更像是純粹的“技術極客”。許多業內人士和DeepSeek的研究人員都對梁文鋒給予了極高的評價:“既有強大的基礎設施能力和模型研究能力,又能調動資源”,“既能站在高處做出精準判斷,又能出色地完成任務」。他對一線研究人員的細節瞭如指掌”,還擁有“可怕的學習能力”。

早在DeepSeek成立之前,歡方就已經開始在AI產業進行長期佈局。 2023年5月,梁文峰在接受Darksurge訪問時提到:「2020年OpenAI發布GPT3之後,AI發展的方向已經非常明確,算力會成為關鍵要素;但即使到了2021年,當我們投資建造螢火蟲2號的時候,大多數人仍然無法理解。

基於這樣的判斷,歡方開始建立自己的運算基礎設施。 「從最早的1張卡,到2015年的100張卡,2019年的1000張卡,再到10000張卡,這個過程是逐漸發生的。在幾百張卡片之前,我們都託管在IDC上。當規模變大的時候,託管已經不能滿足要求了,所以我們開始建造自己的機房。

隨後,Finance Eleven 報道稱,「 國內擁有超過10,000家GPU的公司,除了幾家主要廠商外,還包括一家名為Magic Cube的量化基金公司」一般認為,10000塊Nvidia A100晶片是訓練大型模型的算力門檻。

在先前訪談中,梁文峰也提到了一個有趣的點: 很多人會認為這背後有著不為人知的商業邏輯,但其實這主要還是受好奇心的驅動。

DeepSeek初次相遇

在 2023 年 5 月接受 Darksurge 採訪時,當被問及 「前不久歡方宣布要做大模型,一個量化基金為什麼要做這樣的事情?”

梁文峰的回答很響亮:「我們決定建立大型模型與量化或財務無關。 我們已經成立了一家名為 DeepSeek 的新公司來做這件事。棉紡團隊的許多關鍵成員都參與了人工智慧研究。當時我們嘗試了很多場景,最後選定了金融,這已經夠複雜了。通用人工智慧可能是下一個最難實現的事物之一,所以對我們來說,這是一個如何實現的問題,而不是為什麼實現的問題。

不是出於商業利益或追逐市場潮流,而只是單純地出於對AGI技術本身的探索慾望和對「最重要、最困難的事情」的執著追求, 「DeepSeek」名稱於2023年5月正式確認。 2023年7月17日,“杭州DeepSeek人工智慧基礎技術研究有限公司”被納入。

2023 年 11 月 2 日,DeepSeek 給了第一個答案:DeepSeek Coder,一個大型開源程式碼模型。此型號包含1B、7B、33B等多個尺寸。開源內容包括Base模型和命令調優模型。

當時,在開源模型中,Meta 的 CodeLlama 是業界標竿。然而,DeepSeek Coder 一發布,便展現出與 CodeLlama 相比多方面的領先地位:在代碼生成方面,HumanEval 領先 9.3%,MBPP 領先 10.8%,DS-1000 領先 5.9%。

請記住,DeepSeek Coder 是 7B 型號,而 CodeLlama 是 34B 型號。另外,DeepSeek Coder模型經過指令調校後,已經全面超越GPT3.5-Turbo。

DeepSeek Coder 不僅程式碼生成令人印象深刻,而且還展示了其在數學和推理方面的能力。

三天后,2023年11月5日,DeepSeek透過其微信公眾號發布大量招募內容,包括AGI大模型實習生、資料專家、資料架構人才、高級資料擷取工程師、深度學習研發等職缺工程師等,並開始積極擴充團隊。

正如梁文峰所說, DeepSeek人才招募“必備條件”是“熱情、基本功紮實”,他強調說 「創新需要盡可能少的干預和管理,以便每個人都有犯錯和嘗試新事物的自由。創新往往是發自內心的,而不是刻意的安排,當然也不是來自於教學。

模型頻繁發布,開源實踐

在DeepSeek Coder引起轟動之後,DeepSeek把目光轉向了主戰場:通用語言模型。

2023年11月29日,DeepSeek發布了第一個通用大型語言模型DeepSeek LLM 67B。 此模型對標Meta的同等級LLaMA2 70B模型,在中英文近20個公開評測榜單中均有優異表現。特別是它的推理、數學和程式設計能力(例如HumanEval、MATH、CEval和CMMLU)非常出色。

DeepSeek LLM 67B 也選擇了開源路線,支援商業用途。為進一步展現開源的誠意與決心,DeepSeek還史無前例地同時開源了7B、67B兩個不同規模的模型,甚至將模型訓練過程中生成的9個checkpoint全部公開,供科研人員下載使用。這種類似於「教導一切」的操作,在整個開源社群中極為罕見。

為了更全面客觀地評估DeepSeek LLM 67B的真實能力,DeepSeek研究團隊也精心設計了一系列「新題」進行「壓力測試」。這些題目涵蓋了匈牙利高中數學考試題、Google命令追蹤評估集、LeetCode週賽題等高水準、高區分度的考試。測試結果令人鼓舞。 DeepSeek LLM 67B 在超越樣本的泛化能力方面表現出了驚人的潛力,其整體性能甚至接近當時最先進的 GPT-4 模型。

2023 年 12 月 18 日,DeepSeek 開源了 Vincent 3D 型號 DreamCraft3D:能夠由一個句子產生高品質的3D模型,實現了AIGC從二維平面到三維空間的跨越。例如,如果使用者輸入:“穿過樹林,一個豬頭和孫悟空身體的搞笑混合圖像”,DreamCraft3D 可以輸出高品質的內容:

原理上,模型首先完成維恩圖,然後在二維概念圖的基礎上補充整體幾何結構:

在後續的主觀評估中,超過90%的使用者表示DreamCraft3D與先前的生成方法相比,在生成品質上具有優勢。

2024年1月7日,DeepSeek發布了DeepSeek LLM 67B技術報告。 這份40多頁的報告包含了DeepSeek LLM 67B的許多細節,包括自建的縮放定律、完整的模型對齊實際細節以及全面的AGI能力評估系統。

論文地址

2024年1月11日,DeepSeek開源國內首個MoE(混合專家架構)大模型DeepSeekMoE:一個支援中英文、免費商用的全新架構。 MoE架構當時普遍認為是OpenAI GPT-4效能突破的關鍵。 DeepSeek自研的MoE架構在2B、16B、145B等多個尺度上均保持領先,運算能力也十分可圈可點。

2024年1月25日,DeepSeek發布了DeepSeek Coder技術報告。 本報告對其訓練資料、訓練方法、模型表現進行了全面的技術分析。在本次報告中我們看到,其首次建構了倉庫層級的程式碼數據,並使用拓撲排序來分析文件之間的依賴關係,顯著增強了對長距離跨文件的理解能力。在訓練方法方面,加入了Fill-In-Middle方法,大大提升了程式碼補全的能力。

論文地址

2024年1月30日,DeepSeek開放平台正式上線,DeepSeek大模型API服務開始測試。 註冊即可免費獲得1000萬個代幣。介面相容OpenAI API接口,同時提供Chat/Coder雙模型。此時,DeepSeek除了技術研發之外,也開始探索技術服務商的道路。

2024年2月5日,DeepSeek發表另一個垂直領域模型DeepSeekMath,一個數學推理模型。此模型僅有7B個參數,但數學推理能力接近GPT-4。在權威的MATH基準測試清單上,它更是一騎絕塵,超越了一批參數規模在30B到70B之間的開源模型。 DeepSeekMath的發布充分彰顯了DeepSeek在垂直研發和模型研發方面的技術實力和前瞻性佈局。

2024年2月28日,為了進一步緩解開發者對使用DeepSeek開源模型的擔憂,DeepSeek發布了開源政策常見問題解答其中對模型開源許可和商業使用限制等常見問題提供了詳細的解答。 DeepSeek以更透明、開放的態度擁抱開源:

2024年3月11日,DeepSeek發布多式聯運大型機種DeepSeek-VL。這是DeepSeek對多模態AI技術的首次嘗試。模型規模分別為7B和1.3B,模型和技術論文同步開源。

2024年3月20日,歡方AI&DeepSeek再次受邀參加NVIDIA GTC 2024大會,創辦人梁文峰發表技術主題演講 題為「多元化中的和諧:大型語言模型的價值觀的協調與分離」。討論了「單一價值大模型與多元社會文化的衝突」、「大模型價值取向的脫鉤」、「脫鉤價值取向的多維挑戰」等問題。這體現了DeepSeek除了技術研發之外,對人工智慧發展的人文關懷和社會責任。

2024年3月, DeepSeek 介面 正式推出付費服務,徹底點燃了中國大模型市場價格戰的前奏:每百萬輸入代幣收費1元,每百萬輸出代幣收費2元。

2024年,DeepSeek順利通過國家大型車款備案,為其API服務全面開放掃清了政策障礙。

2024年5月,開源通用MoE大模型DeepSeek-V2發布,價格戰正式開始。 DeepSeek-V2採用了MLA(多頭潛在註意力機制),將模型的記憶體佔用降低到了傳統MHA的5%-13%。同時也自主研發了DeepSeek MoE Sparse稀疏結構,大幅降低了模型的計算複雜度。受此影響,模型維持「1元/百萬投入、2元/百萬輸出」的API價格。

DeepSeek產生了巨大的影響。對此,SemiAnalysis的首席分析師認為,DeepSeek V2論文「可能是今年最好的論文之一」。同樣,OpenAI 前員工 Andrew Carr 認為該論文“充滿了驚人的智慧”,並已將其訓練設置應用到自己的模型中。

需要注意的是,這是一個對標GPT-4-Turbo的模型,API價格僅為後者的1/70

六月 2024年17月17日,DeepSeek再次重磅發布,發布DeepSeek Coder V2代碼模型 開源並聲稱其程式碼能力超越了當時最先進的閉源模型GPT-4-Turbo。 DeepSeek Coder V2延續DeepSeek一貫的開源策略,所有模型、程式碼、論文均開源,並提供236B和16B兩個版本。 DeepSeek C oder V2的API服務也已上線,價格維持「1元/百萬次輸入、2元/百萬次輸出」。

2024年6月21日,DeepSeek Coder 支援線上程式碼執行。 同日,Claude3.5 Sonnet發布,新增Artifacts功能,可自動產生程式碼並直接在瀏覽器中執行。同日,DeepSeek網站的程式碼助理也上線了同樣的功能:一鍵產生程式碼並執行。

我們來回顧一下這段時期的重大事件:

不斷突破,全球矚目

2024年5月,DeepSeek發布基於MoE的開源模型DeepSeek V2,一夕成名。其性能媲美GPT-4-Turbo,但價格僅1元/百萬投入,是GPT-4-Turbo的1/70。當時,DeepSeek成為業界有名的“價格屠夫”,隨後,智東西、字節跳動、阿里巴巴…等主流玩家也紛紛跟進降價。也正是在那個時候,又一輪GPT禁令出台,大量AI應用開始首次嘗試國產模型。

2024年7月,DeepSeek創辦人梁文峰再次接受《暗湧》採訪,正面回應價格戰: “非常出乎意料。沒想到價格讓大家這麼敏感。我們只是按照自己的步調做事,然後根據成本定價。我們的原則是不虧錢,也不賺取暴利。這個價格也稍微高於成本,還有點利潤。

可以看出,與許多競爭對手自掏腰包補貼不同,DeepSeek在這個價位上是獲利的。

有人可能會說:降價就像是搶用戶,網路時代的價格戰通常都是這樣

對此,梁文峰也做出回應: 「搶奪用戶不是我們的主要目的。我們降低了價格,一方面是因為隨著我們探索下一代模型的結構,成本已經下降了;另一方面,我們認為 API 和 AI 都應該是每個人都能負擔得起並使用的。

故事就這樣延續著梁文峰的理想主義。

2024年7月4日,DeepSeek API上線。 128K 上下文的價格保持不變。 模型的推理成本與上下文的長度密切相關。因此很多模型對這個長度有嚴格的限制:GPT-3.5 的初始版本只有 4k 上下文。

此時,DeepSeek將上下文長度由先前的32k提升到了128k,同時價格保持不變(每百萬輸入Token 1元,每百萬輸出Token 2元)。

2024年7月10日,全球首屆人工智慧奧林匹克競賽(AIMO)結果揭曉,DeepSeekMath模型成為頂尖團隊的共同選擇。獲獎的4支隊伍均選擇DeepSeekMath-7B作為參賽模式的基礎,並在比賽中取得了不俗的成績。

2024年7月18日,DeepSeek-V2在Chatbot Arena開源模型排行榜上名列前茅, 超越Llama3-70B、Qwen2-72B、Nemotron-4-340B、Gemma2-27B等明星模型,成為開源大模型新標竿。

2024年7月,DeepSeek繼續招募人才 並在AI演算法、AI基礎架構、AI導師、AI產品等多個領域招募全球頂尖人才,為未來的技術創新和產品開發做好準備。

2024年7月26日,DeepSeek API迎來重要升級,全面支援覆蓋、FIM(中間填充)補全、函數呼叫、JSON輸出等一系列高階特性。 FIM函數很有趣:使用者給出開始和結束,大模型填寫中間,非常適合在編程過程中填寫精確的功能代碼。以寫出斐波那契數作為例:

2024年8月2日,DeepSeek創新地引進了硬碟快取技術,API價格大幅下降。 此前API價格僅1元/百萬Token。現在,只要快取命中,API費用就直接降至0.1元。

當涉及連續對話和批次任務時此功能非常實用。

2024年8月16日,DeepSeek發布其數學定理證明模型DeepSeek-Prover-V1.5 作為開源模型,其在高中和大學數學定理證明測驗中超越了許多著名的開源模型。

2024年9月6日,DeepSeek發布DeepSeek-V2.5融合模型。 先前,DeepSeek主要提供了兩種模型:專注於一般對話技巧的Chat模型,以及專注於程式碼處理技巧的Code模型。此次,兩款機型合而為一,升級為DeepSeek-V2.5,更加貼合人性化使用習慣,在書寫、命令遵循等方面也實現了顯著提升。

2024年9月18日,DeepSeek-V2.5再次登上最新LMSYS榜單,領先國產車型 並在多項單項能力上創造了國內模特兒新最佳成績。

2024年11月20日,DeepSeek發布DeepSeek-R1-Lite 在官方網站上。這是一個與o1-preview相當的推理模型,同時也為V3的後期訓練提供了足夠的合成資料。

2024年12月10日,DeepSeek V2系列隨著最終微調版本DeepSeek-V2.5-1210的發布迎來了結束。 此版本透過後期訓練全面提升數學、編碼、寫作和角色扮演等多項能力。

隨著版本的到來,DeepSeek網頁端也開放了網路搜尋功能。

2024年12月13日,DeepSeek在多模態領域再突破,發表開源多模態大模型DeepSeek-VL2。 DeepSeek-VL2採用MoE架構,顯著提升了視覺能力。它有3B、16B、27B三種尺寸,在各項指標上均佔有優勢。

2024年12月26日,DeepSeek-V3開源發布:預計訓練成本僅550萬美元。 DeepSeek-V3全面對標了國外領先閉源模型的效能,大幅提升了生成速度。

API服務定價進行了調整,但同時為新模式設定了45天的優惠試用期。

2025年1月15日,DeepSeek官方APP正式發布,並在各大iOS/Android應用市場全面上線。

2025年1月20日,接近農曆新年,DeepSeek-R1推理模型正式發表開源。 DeepSeek-R1性能與OpenAI o1官方版本完全對接,並開放了思維鏈輸出功能。同時,DeepSeek也宣布模型開源許可證將變更為MIT許可證,用戶協議中明確允許“模型提煉”,進一步擁抱開源,促進技術共享。

後來,這種模式大受歡迎,開創了一個新時代

結果,截至2025年1月27日,DeepSeek App成功超越ChatGPT,榮登美國iOS App Store免費應用程式下載榜首,成為一款現象級的AI應用。

2025年1月27日,除夕凌晨1點,DeepSeek Janus-Pro開源發布。 這是一個多模態模型,以古羅馬神話中的雙面神雅努斯 (Janus) 命名:它既面向過去,又面向未來。這也代表了模型的視覺理解和影像生成兩大能力,以及在多個排名中的主導地位。

DeepSeek的爆紅,立刻引發了全球科技衝擊波,甚至直接導致NVIDIA股價暴跌18%,全球科技股市場市值蒸發約1兆美元。 華爾街和科技媒體驚呼,DeepSeek的崛起正在顛覆全球AI產業格局,對美國科技巨頭構成前所未有的挑戰。

DeepSeek的成功也引發了國際社會對中國人工智慧技術創新能力的高度關注和熱議。美國總統唐納德·川普在一次罕見的公開評論中稱讚DeepSeek的崛起是“積極的”,並表示這對美國來說是一個“警鐘”。微軟執行長薩蒂亞·納德拉 (Satya Nadella) 和 OpenAI 執行長 Sam Altman 也對 DeepSeek 表示讚賞,稱其技術「非常令人印象深刻」。

當然,我們也要明白,他們的讚揚一方面是對DeepSeek實力的認可,另一方面也反映了他們自身的動機。例如,Anthropic在認可DeepSeek成績的同時,也呼籲美國政府加強對中國晶片的管控。

Anthropic CEO發表萬字文章:DeepSeek崛起意味著白宮應加強管控

總結與展望

回顧DeepSeek走過的兩年,真可謂一個“中國奇蹟”:從一家名不見經傳的創業公司,到如今在全球AI舞台上閃耀的“神秘東方力量”,DeepSeek用自己的創新能力書寫了一個又一個「不可能」。

這場技術之旅的深層意義早已超越了商業競爭的範疇。 DeepSeek 已宣布事實 在關乎未來的人工智慧策略領域,中國企業完全有能力攀登核心技術的高峰。

川普敲響的「警鐘」和人類隱藏的恐懼恰恰證實了中國人工智慧能力的重要性:它不僅能乘風破浪,而且還在重塑潮流方向

深度探索 產品 發布 里程碑

  • 2023 年 11 月 2 日: DeepSeek 編碼器 大型型號
  • 2023 年 11 月 29 日: DeepSeek LLM 67B 通用模型
  • 2023 年 12 月 18 日: DreamCraft3D 3D模型
  • 2024 年 1 月 11 日: DeepSeekMoE MoE 大型模型
  • 2024 年 2 月 5 日: DeepSeekMath 數學推理模型
  • 2024 年 3 月 11 日: DeepSeek-VL 多模大型號
  • 2024 年 5 月: DeepSeek-V2 MoE通用型號
  • 2024 年 6 月 17 日: DeepSeek編碼器V2代碼模型
  • 2024 年 9 月 6 日: DeepSeek-V2.5 通用與程式碼能力模型融合
  • 2024 年 12 月 13 日: DeepSeek-VL2 多模態 MoE 模型
  • 2024 年 12 月 26 日: DeepSeek-V3新系列通用大機型
  • 2025年1月20日: DeepSeek-R1推理模型
  • 2025年1月20日: DeepSeek 官方應用程式(iOS 和 Android)
  • 2025年1月27日: DeepSeek Janus-Pro 多模態模型

類似文章

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *