Geçtiğimiz hafta DeepSeek, önümüzdeki hafta beş projeyi açık kaynaklı hale getireceğini duyurdu:

İnternet kullanıcıları, "Bu sefer OpenAI gerçekten burada." dedi.

Az önce çıkarım hızlandırma ile ilgili ilk açık kaynaklı proje FlashMLA'dan geldi:

Açık kaynaklı proje adresi:

DeepSeek FlaşMLA

İki saattir açık kaynaklı ve Github'da halihazırda 2.7k+ yıldız var:

Projenin temel işlevi:

“FlashMLA, Hopper GPU'lar için değişken uzunluktaki dizilerin sunumu için optimize edilmiş, verimli bir MLA kod çözme çekirdeğidir.”

Tercüme edildiğinde, bu:

“FlashMLA, NVIDIA Hopper mimarili GPU'lar için optimize edilmiş, özellikle değişken uzunluktaki dizileri işleyen servis senaryoları için optimize edilmiş, verimli bir MLA kod çözme çekirdeğidir.”

Özetle:

FlashMLA, DeepInference tarafından Hopper mimarisi GPU'ları (örneğin H800) için tasarlanmış verimli bir kod çözme çekirdeğidir. Değişken uzunluktaki dizilerin çok başlı potansiyel dikkat hesaplamasını optimize ederek, kod çözme aşamasında 3000 GB/s bellek bant genişliği ve 580 TFLOPS işlem gücünde nihai performansa ulaşır ve büyük modeller için uzun bağlamlarda akıl yürütme verimliliğini önemli ölçüde iyileştirir.

Bazı internet kullanıcıları şunları söyledi:

Zaten bazı insanlar bunu kullanıyor ve diyorlar ki Saf mühendislik:

Bu proje mühendislik optimizasyonuna aittir ve donanım performansını sıkıştırır sınır.

Proje kullanıma hazırdır.

Çevresel gereklilikler:

  • Hopper GPU
  • CUDA 12.3 ve üzeri
  • PyTorch 2.0 ve üzeri

Yetkili, projenin sonunda FlashAttention 2&3 ve NVIDIA CUTLASS projelerinden esinlenildiğini de belirtti.

FlashAttention, hızlı ve bellek açısından verimli hassas dikkat elde etme yeteneğine sahiptir ve ana akım büyük modellerde kullanılır. En son üçüncü nesil sürüm, H100'ün kullanım oranını 75%'ye çıkarabilir.

Eğitim hızı 1,5-2 kat artırılmış olup, FP16 altında hesaplama verimi 740 TFLOP/s'ye kadar çıkarak teorik maksimum verimin 75%'sine ulaşılmış ve daha önce sadece 35% olan hesaplama kaynakları daha fazla kullanılmıştır.

FlashMLA yalnızca donanım düzeyinde optimizasyon yoluyla performansta bir sıçrama sağlamakla kalmıyor, aynı zamanda yapay zeka çıkarımında mühendislik uygulamaları için sıra dışı bir çözüm sunarak, büyük modellerin çıkarımını hızlandırmada önemli bir teknolojik atılım haline geliyor.

İlk gün çok büyük bir olay yaşandı.

Önümüzdeki dört gün içinde açık kaynaklı şeyleri sabırsızlıkla bekliyorum!

İnternet kullanıcısının da dediği gibi:

Balina dalgalar yaratıyor!

DeepSeek harika!

Benzer Yazılar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir