Minulý týden DeepSeek oznámil, že příští týden otevře pět projektů:

Netizens řekl: "Tentokrát je OpenAI opravdu tady."
Právě teď přišel první open source projekt související s akcelerací inferencí, FlashMLA:

Adresa open source projektu:
Byl to open source dvě hodiny a Github už má 2,7 tisíc hvězd:

Hlavní funkcí projektu je:
"FlashMLA je účinné dekódovací jádro MLA pro GPU Hopper, optimalizované pro obsluhu sekvencí s proměnnou délkou."
Přeloženo, je to tak:
„FlashMLA je účinné dekódovací jádro MLA optimalizované pro GPU architektury NVIDIA Hopper, speciálně optimalizované pro scénáře služeb, které zpracovávají sekvence s proměnnou délkou.“
V kostce:
FlashMLA je účinné dekódovací jádro navržené společností DeepInference pro GPU s architekturou Hopper (jako je H800). Optimalizací výpočtu potenciální pozornosti více hlav sekvencí s proměnnou délkou dosahuje maximálního výkonu 3000 GB/s šířky pásma paměti a 580 TFLOPS výpočetního výkonu ve fázi dekódování, což výrazně zlepšuje efektivitu uvažování s dlouhými kontexty u velkých modelů.
Někteří síťaři řekli:

Někteří lidé to již používají a říkají čisté inženýrství:

Tento projekt patří k inženýrské optimalizaci a stlačuje výkon hardwaru na omezit.
Projekt je připraven k použití ihned po vybalení.

Požadavky na prostředí:
- GPU Hopper
- CUDA 12.3 a vyšší
- PyTorch 2.0 a vyšší
Na konci projektu úředník také uvedl, že se inspiroval projekty FlashAttention 2&3 a NVIDIA CUTLASS.

FlashAttention je schopen dosáhnout rychlé a paměťově efektivní přesné pozornosti a používá se v běžných velkých modelech. Nejnovější verze třetí generace může zvýšit míru využití H100 na 75%.
Rychlost trénování se zvýšila 1,5–2krát a výpočetní propustnost v rámci FP16 je až 740 TFLOPs/s, čímž dosahuje 75% teoretické maximální propustnosti a plně využívá výpočetní zdroje, které byly dříve pouze 35%.
FlashMLA nejenže dosahuje skokového výkonu díky optimalizaci na úrovni hardwaru, ale také poskytuje hotové řešení pro inženýrské postupy v odvozování umělé inteligence, které se stává klíčovým technologickým průlomem v urychlování vyvozování velkých modelů.
První den došlo k tak velkému odhalení.
Těším se na open source věci v příštích čtyřech dnech!
Jak řekl Netizen:

Velryba dělá vlny!
DeepSeek je úžasný!