上週,DeepSeek宣布將於下週開源五個項目:

網友們表示,“這次OpenAI真的來了。”

剛剛,第一個開源專案來了,與推理加速相關的,FlashMLA:

開源專案位址:

DeepSeek FlashMLA

開源兩小時,Github 已經有 2.7k+ star:

專案的核心功能是:

“FlashMLA 是適用於 Hopper GPU 的高效 MLA 解碼內核,針對可變長度序列服務進行了最佳化。”

翻譯過來就是:

“FlashMLA 是針對 NVIDIA Hopper 架構 GPU 優化的高效 MLA 解碼內核,專門針對處理變長序列的服務場景進行了優化。”

簡而言之:

FlashMLA 是 DeepInference 為 Hopper 架構 GPU(如 H800)設計的高效解碼核心。透過優化變長序列的多頭潛在註意力計算,在解碼階段達到了3000GB/s記憶體頻寬和580TFLOPS算力的極致性能,顯著提升大模型長上下文推理的效率。

有網友表示:

有些人已經在使用它了,他們說純工程:

本專案屬於工程優化與 將硬體效能壓縮到 限制。

該項目已準備好投入使用。

環境要求:

  • 料斗 GPU
  • CUDA 12.3 及更高版本
  • PyTorch 2.0 以上版本

在計畫最後,官方也表示,受到了FlashAttention 2&3和NVIDIA CUTLASS計畫的啟發。

FlashAttention能夠實現快速、節省記憶體的精準注意力,並被主流大模型採用。最新的第三代版本可以將H100的使用率提高到75%。

訓練速度提升1.5-2倍,FP16下計算吞吐高達740 TFLOPs/s,達到理論最大吞吐率75%,更充分利用運算資源,而先前僅為35%。

FlashMLA 不僅透過硬體級優化實現了效能的飛躍,更為AI推理的工程實踐提供了開箱即用的解決方案,成為加速大模型推理的關鍵技術突破。

第一天就有這麼重大的揭露。

我期待接下來四天的開源內容!

正如網友所說:

鯨魚正在掀起波浪!

DeepSeek 太棒了!

類似文章

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *