部落格

  • DeepSeek已發布其原始碼,FlashMLA詳解
    上週,DeepSeek宣布將於下週開源五個項目:網友表示「這次,OpenAI真的來了」。剛剛,第一個開源專案來了,與推理加速相關,FlashMLA: 開源專案位址:DeepSeek FlashMLA 開源兩個小時,Github已經有2.7k+顆星星: The…
  • 什麼是 FlashMLA?對 AI 解碼內核影響的綜合指南
    FlashMLA 迅速引起了人工智慧領域的關注,特別是在大型語言模型(LLM)領域。這款由 DeepSeek 開發的創新工具是專為 Hopper GPU(常用於 AI 運算的高效能晶片)設計的最佳化解碼核心。 FlashMLA 專注於高效處理可變長度序列,使其特別適合…
  • Qwen2.5-max vs DeepSeek R1:深度機型對比:全面分析應用場景
    簡介 如今,大型語言模型 (LLM) 發揮著至關重要的作用。 2025年初,隨著AI競爭愈演愈烈,阿里巴巴推出了全新的Qwen2.5-max AI模型,來自中國杭州的DeepSeek公司推出了代表LLM技術巔峰的R1模型。 Deepseek R1 是一個開源 AI 模型,吸引了…
  • 它接近DeepSeek-R1-32B並粉碎了李飛飛的s1!加州大學柏克萊分校和其他開源新 SOTA 推理模型
    32B推理模型僅使用1/8的數據,與相同大小的DeepSeek-R1並列!剛剛,史丹佛大學、加州大學柏克萊分校、華盛頓大學等機構聯合發布了SOTA級別推理模型OpenThinker-32B,並且開源了高達114k的訓練資料。 OpenThinker 專案首頁:OpenThinker 擁抱臉:…

今天就建立您的免費帳戶!