DeepSeek, FlashMLA - Deepseek R1'in kaynak kodunu ve ayrıntılı açıklamasını yayınladı

Geçtiğimiz hafta DeepSeek, önümüzdeki hafta beş projeyi açık kaynaklı hale getireceğini duyurdu:

İnternet kullanıcıları, "Bu sefer OpenAI gerçekten burada." dedi.

Az önce çıkarım hızlandırma ile ilgili ilk açık kaynaklı proje FlashMLA'dan geldi:

Açık kaynaklı proje adresi:

DeepSeek FlaşMLA

İki saattir açık kaynaklı ve Github'da halihazırda 2.7k+ yıldız var:

Projenin temel işlevi:

“FlashMLA, Hopper GPU'lar için değişken uzunluktaki dizilerin sunumu için optimize edilmiş, verimli bir MLA kod çözme çekirdeğidir.”

Tercüme edildiğinde, bu:

“FlashMLA, NVIDIA Hopper mimarili GPU'lar için optimize edilmiş, özellikle değişken uzunluktaki dizileri işleyen servis senaryoları için optimize edilmiş, verimli bir MLA kod çözme çekirdeğidir.”

Özetle:

FlashMLA, DeepInference tarafından Hopper mimarisi GPU'ları (örneğin H800) için tasarlanmış verimli bir kod çözme çekirdeğidir. Değişken uzunluktaki dizilerin çok başlı potansiyel dikkat hesaplamasını optimize ederek, kod çözme aşamasında 3000 GB/s bellek bant genişliği ve 580 TFLOPS işlem gücünde nihai performansa ulaşır ve büyük modeller için uzun bağlamlarda akıl yürütme verimliliğini önemli ölçüde iyileştirir.

Bazı internet kullanıcıları şunları söyledi:

Zaten bazı insanlar bunu kullanıyor ve diyorlar ki Saf mühendislik:

Bu proje mühendislik optimizasyonuna aittir ve donanım performansını sıkıştırır sınır.

Proje kullanıma hazırdır.

Çevresel gereklilikler:

Hopper GPU
CUDA 12.3 ve üzeri
PyTorch 2.0 ve üzeri

Yetkili, projenin sonunda FlashAttention 2&3 ve NVIDIA CUTLASS projelerinden esinlenildiğini de belirtti.

FlashAttention, hızlı ve bellek açısından verimli hassas dikkat elde etme yeteneğine sahiptir ve ana akım büyük modellerde kullanılır. En son üçüncü nesil sürüm, H100'ün kullanım oranını 75%'ye çıkarabilir.

Eğitim hızı 1,5-2 kat artırılmış olup, FP16 altında hesaplama verimi 740 TFLOP/s'ye kadar çıkarak teorik maksimum verimin 75%'sine ulaşılmış ve daha önce sadece 35% olan hesaplama kaynakları daha fazla kullanılmıştır.

FlashMLA yalnızca donanım düzeyinde optimizasyon yoluyla performansta bir sıçrama sağlamakla kalmıyor, aynı zamanda yapay zeka çıkarımında mühendislik uygulamaları için sıra dışı bir çözüm sunarak, büyük modellerin çıkarımını hızlandırmada önemli bir teknolojik atılım haline geliyor.

İlk gün çok büyük bir olay yaşandı.

Önümüzdeki dört gün içinde açık kaynaklı şeyleri sabırsızlıkla bekliyorum!

İnternet kullanıcısının da dediği gibi:

Balina dalgalar yaratıyor!

DeepSeek harika!

Uncategorized

DeepSeek-R1-32B'ye yakındır ve Fei-Fei Li'nin s1'ini ezer! UC Berkeley ve diğer açık kaynaklı yeni SOTA çıkarım modelleri

Tarafındanzddeepseeker 14 Şubat 202514 Şubat 2025

32B çıkarım modeli verilerin yalnızca 1/8'ini kullanır ve aynı boyuttaki DeepSeek-R1 ile eşittir! Şu anda, Stanford, UC Berkeley ve Washington Üniversitesi gibi kurumlar ortaklaşa bir SOTA düzeyinde çıkarım modeli olan OpenThinker-32B'yi yayınladılar ve ayrıca 114k'ya kadar eğitim verisini açık kaynaklı hale getirdiler. OpenThinker Projesi ana sayfası: OpenThinker Hugging Face:…

Uncategorized

Son dakika haberi! DeepSeek araştırmacısı çevrimiçi olarak şunları açıkladı: R1 eğitimi yalnızca iki ila üç hafta sürdü ve Çin Yeni Yılı tatili sırasında R1 sıfırının güçlü bir evrimi gözlemlendi

Tarafındanzddeepseeker 4 Şubat 20254 Şubat 2025

Son dakika! DeepSeek araştırmacısı çevrimiçi olarak şunları açıkladı: R1 eğitimi yalnızca iki ila üç hafta sürdü ve Çin Yeni Yılı tatili sırasında R1 sıfırının güçlü bir evrimi gözlemlendi Az önce, DeepSeek araştırmacısı Daya Guo'nun internet kullanıcılarının DeepSeek R1 ve şirketin gelecekteki planları hakkındaki sorularına yanıt verdiğini fark ettik. Sadece şunu söyleyebiliriz...

Uncategorized

Dünyanın ana akım AI ürünleri analiz ve kapsamlı kullanıcı deneyimi yönergelerine (DeepSeek ve GPT dahil) odaklanıyor

Tarafındanzddeepseeker Şubat 10, 2025Şubat 10, 2025

Fonksiyon konumlandırma ve temel avantaj analizi ChatGPT (OpenAI) – çok yönlüler için küresel ölçüt ChatGPT Teknik genler: temel avantajları genel konuşma becerileri ve mantıksal akıl yürütme olan, büyük modellerden oluşan GPT serisine dayalı üretken AI. Çok dilli işleme: Çince'de sürekli iyileştirme ile İngilizce'de en iyi performansı gösterir; ancak İngilizce'yi kullanmanızı öneririz…

Uncategorized

Gemini 2.0 listelere damga vururken, DeepSeek V3 fiyatıyla göz kamaştırıyor ve uygun fiyatlı yeni bir şampiyon doğuyor!

Tarafındanzddeepseeker 8 Şubat 20258 Şubat 2025

Google Gemini 2.0 ailesi sonunda tamamlandı! Yayınlandığı anda listelerde hakimiyet kuruyor. Deepseek, Qwen ve o3'ün takip ve engellemeleri arasında, Google bu sabah erken saatlerde üç modeli tek seferde yayınladı: Gemini 2.0 Pro, Gemini 2.0 Flash ve Gemini 2.0 Flash-Lite. Büyük model LMSYS sıralamalarında, Gemini…

Uncategorized

Son dakika haberleri! OpenAI bugün 2 yeni çıkarım modeli yayınladı: o3-mini ve o3-mini-high.

Tarafındanzddeepseeker Şubat 1, 2025Şubat 1, 2025

o3-mini ve o3-mini (high) bugün yayınlanacak. Normal kullanıcılar da o3-mini alacak ve artı kullanıcılar o3-mini (high) kullanabilecek. o3-mini (high) Codeforce'ta o1'den yaklaşık 200 puan daha yüksek, o1'den daha hızlı ve kodlama ve matematikte daha iyi performans gösteriyor, ancak maliyeti hala o1-mini seviyesinde....

Uncategorized

FlashMLA Nedir? AI Kod Çözme Çekirdekleri Üzerindeki Etkisine İlişkin Kapsamlı Bir Kılavuz

Tarafındandeepseeker 24 Şubat 202524 Şubat 2025

FlashMLA, yapay zeka dünyasında, özellikle büyük dil modelleri (LLM) alanında hızla ilgi gördü. DeepSeek tarafından geliştirilen bu yenilikçi araç, AI hesaplamalarında yaygın olarak kullanılan yüksek performanslı yongalar olan Hopper GPU'lar için tasarlanmış optimize edilmiş bir kod çözme çekirdeği olarak hizmet eder. FlashMLA, değişken uzunluklu dizilerin verimli bir şekilde işlenmesine odaklanır ve bu da onu özellikle uygun hale getirir…

DeepSeek, FlashMLA'nın kaynak kodunu ve ayrıntılı açıklamasını yayınladı

DeepSeek-R1-32B'ye yakındır ve Fei-Fei Li'nin s1'ini ezer! UC Berkeley ve diğer açık kaynaklı yeni SOTA çıkarım modelleri

Son dakika haberi! DeepSeek araştırmacısı çevrimiçi olarak şunları açıkladı: R1 eğitimi yalnızca iki ila üç hafta sürdü ve Çin Yeni Yılı tatili sırasında R1 sıfırının güçlü bir evrimi gözlemlendi

Dünyanın ana akım AI ürünleri analiz ve kapsamlı kullanıcı deneyimi yönergelerine (DeepSeek ve GPT dahil) odaklanıyor

Gemini 2.0 listelere damga vururken, DeepSeek V3 fiyatıyla göz kamaştırıyor ve uygun fiyatlı yeni bir şampiyon doğuyor!

Son dakika haberleri! OpenAI bugün 2 yeni çıkarım modeli yayınladı: o3-mini ve o3-mini-high.

FlashMLA Nedir? AI Kod Çözme Çekirdekleri Üzerindeki Etkisine İlişkin Kapsamlı Bir Kılavuz

Bir yanıt yazın Yanıtı iptal et

Benzer Yazılar

Bir yanıt yazın Yanıtı iptal et