Minggu lalu, DeepSeek mengumumkan bahwa mereka akan membuka sumber lima proyek minggu depan:

Netizen berkata, “Kali ini, OpenAI benar-benar hadir.”
Baru saja, proyek sumber terbuka pertama hadir, terkait dengan percepatan inferensi, FlashMLA:

Alamat proyek sumber terbuka:
Sudah menjadi sumber terbuka selama dua jam, dan Github sudah memiliki 2,7 ribu+ bintang:

Fungsi inti dari proyek ini adalah:
“FlashMLA adalah kernel decoding MLA yang efisien untuk GPU Hopper, dioptimalkan untuk penyajian sekuens dengan panjang variabel.”
Jika diterjemahkan, itu adalah:
“FlashMLA adalah kernel dekode MLA yang efisien dan dioptimalkan untuk GPU berarsitektur NVIDIA Hopper, yang secara khusus dioptimalkan untuk skenario layanan yang memproses sekuens dengan panjang variabel.”
Pendeknya:
FlashMLA adalah inti dekode efisien yang dirancang oleh DeepInference untuk GPU berarsitektur Hopper (seperti H800). Dengan mengoptimalkan kalkulasi perhatian potensial multi-head dari sekuens dengan panjang variabel, ia mencapai kinerja terbaik dari bandwidth memori 3000GB/s dan daya komputasi 580TFLOPS dalam tahap dekode, yang secara signifikan meningkatkan efisiensi penalaran dengan konteks panjang untuk model besar.
Beberapa netizen mengatakan:

Beberapa orang sudah menggunakannya, dan mereka mengatakan Rekayasa murni:

Proyek ini termasuk dalam optimasi teknik dan memeras kinerja perangkat keras ke membatasi.
Proyek siap digunakan begitu dikeluarkan dari kotaknya.

Persyaratan lingkungan:
- GPU Hopper (GPU Hopper)
- CUDA 12.3 dan di atasnya
- PyTorch 2.0 dan di atasnya
Di akhir proyek, pejabat tersebut juga menyatakan bahwa proyek tersebut terinspirasi oleh proyek FlashAttention 2&3 dan NVIDIA CUTLASS.

FlashAttention mampu mencapai perhatian yang cepat dan hemat memori, dan digunakan dalam model-model besar yang umum. Versi generasi ketiga terbaru dapat meningkatkan tingkat penggunaan H100 menjadi 75%.
Kecepatan pelatihan ditingkatkan 1,5-2 kali lipat, dan throughput komputasi dalam FP16 mencapai 740 TFLOPs/s, mencapai 75% dari throughput maksimum teoritis dan memanfaatkan sumber daya komputasi lebih penuh, yang sebelumnya hanya 35%.
Bahasa Indonesia: FlashMLA tidak hanya mencapai lompatan dalam kinerja melalui pengoptimalan tingkat perangkat keras, tetapi juga menyediakan solusi siap pakai untuk praktik rekayasa dalam inferensi AI, menjadi terobosan teknologi utama dalam mempercepat inferensi model besar.
Ada pengungkapan yang besar pada hari pertama.
Saya menantikan hal-hal sumber terbuka dalam empat hari ke depan!
Seperti yang dikatakan netizen:

Paus itu membuat ombak!
DeepSeek luar biasa!