Prejšnji teden je DeepSeek objavil, da bo naslednji teden odprl kodo pet projektov:

Uporabniki interneta so rekli: "Tokrat je OpenAI res tukaj."
Pravkar je prišel prvi odprtokodni projekt, povezan s pospeševanjem sklepanja, FlashMLA:

Naslov odprtokodnega projekta:
Odprtokodni je že dve uri, Github pa ima že 2,7k+ zvezdic:

Glavna funkcija projekta je:
"FlashMLA je učinkovito jedro za dekodiranje MLA za grafične procesorje Hopper, optimizirano za serviranje zaporedij spremenljive dolžine."
Prevedeno, je:
"FlashMLA je učinkovito jedro za dekodiranje MLA, optimizirano za grafične procesorje arhitekture NVIDIA Hopper, posebej optimizirano za storitvene scenarije, ki obdelujejo zaporedja spremenljive dolžine."
Na kratko:
FlashMLA je učinkovito jedro za dekodiranje, ki ga je zasnoval DeepInference za grafične procesorje z arhitekturo Hopper (kot je H800). Z optimizacijo izračuna potencialne pozornosti z več glavami zaporedij spremenljive dolžine doseže končno zmogljivost 3000 GB/s pasovne širine pomnilnika in 580 TFLOPS računalniške moči v fazi dekodiranja, kar znatno izboljša učinkovitost razmišljanja z dolgimi konteksti za velike modele.
Nekateri uporabniki interneta so rekli:

Nekateri ljudje to že uporabljajo in pravijo Čisti inženiring:

Ta projekt spada v inženirsko optimizacijo in zmanjša zmogljivost strojne opreme na omejitev.
Projekt je takoj pripravljen za uporabo.

Okoljske zahteve:
- GPU Hopper
- CUDA 12.3 in novejši
- PyTorch 2.0 in novejši
Ob koncu projekta je uradnik tudi izjavil, da so ga navdihnili projekti FlashAttention 2&3 in NVIDIA CUTLASS.

FlashAttention je sposoben doseči hitro in pomnilniško učinkovito natančno pozornost in se uporablja v običajnih velikih modelih. Najnovejša različica tretje generacije lahko poveča stopnjo izkoriščenosti H100 na 75%.
Hitrost usposabljanja se poveča za 1,5-2-krat, računalniška prepustnost pod FP16 pa znaša kar 740 TFLOPs/s, s čimer doseže 75% teoretične največje prepustnosti in boljšo uporabo računalniških virov, ki je prej znašala le 35%.
FlashMLA ne le doseže preskok v zmogljivosti z optimizacijo na ravni strojne opreme, ampak tudi nudi takojšnjo rešitev za inženirske prakse pri sklepanju z umetno inteligenco in tako postane ključni tehnološki preboj pri pospeševanju sklepanja velikih modelov.
Prvi dan je prišlo do tako velikega razkritja.
Veselim se odprtokodnih stvari v naslednjih štirih dneh!
Kot je dejal netizen:

Kit dela valove!
DeepSeek je super!