Minulý týden DeepSeek oznámil, že příští týden otevře pět projektů:

Netizens řekl: "Tentokrát je OpenAI opravdu tady."

Právě teď přišel první open source projekt související s akcelerací inferencí, FlashMLA:

Adresa open source projektu:

DeepSeek FlashMLA

Byl to open source dvě hodiny a Github už má 2,7 tisíc hvězd:

Hlavní funkcí projektu je:

"FlashMLA je účinné dekódovací jádro MLA pro GPU Hopper, optimalizované pro obsluhu sekvencí s proměnnou délkou."

Přeloženo, je to tak:

„FlashMLA je účinné dekódovací jádro MLA optimalizované pro GPU architektury NVIDIA Hopper, speciálně optimalizované pro scénáře služeb, které zpracovávají sekvence s proměnnou délkou.“

V kostce:

FlashMLA je účinné dekódovací jádro navržené společností DeepInference pro GPU s architekturou Hopper (jako je H800). Optimalizací výpočtu potenciální pozornosti více hlav sekvencí s proměnnou délkou dosahuje maximálního výkonu 3000 GB/s šířky pásma paměti a 580 TFLOPS výpočetního výkonu ve fázi dekódování, což výrazně zlepšuje efektivitu uvažování s dlouhými kontexty u velkých modelů.

Někteří síťaři řekli:

Někteří lidé to již používají a říkají čisté inženýrství:

Tento projekt patří k inženýrské optimalizaci a stlačuje výkon hardwaru na omezit.

Projekt je připraven k použití ihned po vybalení.

Požadavky na prostředí:

  • GPU Hopper
  • CUDA 12.3 a vyšší
  • PyTorch 2.0 a vyšší

Na konci projektu úředník také uvedl, že se inspiroval projekty FlashAttention 2&3 a NVIDIA CUTLASS.

FlashAttention je schopen dosáhnout rychlé a paměťově efektivní přesné pozornosti a používá se v běžných velkých modelech. Nejnovější verze třetí generace může zvýšit míru využití H100 na 75%.

Rychlost trénování se zvýšila 1,5–2krát a výpočetní propustnost v rámci FP16 je až 740 TFLOPs/s, čímž dosahuje 75% teoretické maximální propustnosti a plně využívá výpočetní zdroje, které byly dříve pouze 35%.

FlashMLA nejenže dosahuje skokového výkonu díky optimalizaci na úrovni hardwaru, ale také poskytuje hotové řešení pro inženýrské postupy v odvozování umělé inteligence, které se stává klíčovým technologickým průlomem v urychlování vyvozování velkých modelů.

První den došlo k tak velkému odhalení.

Těším se na open source věci v příštích čtyřech dnech!

Jak řekl Netizen:

Velryba dělá vlny!

DeepSeek je úžasný!

Podobné příspěvky

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *