Prejšnji teden je DeepSeek objavil, da bo naslednji teden odprl kodo pet projektov:

Uporabniki interneta so rekli: "Tokrat je OpenAI res tukaj."

Pravkar je prišel prvi odprtokodni projekt, povezan s pospeševanjem sklepanja, FlashMLA:

Naslov odprtokodnega projekta:

DeepSeek FlashMLA

Odprtokodni je že dve uri, Github pa ima že 2,7k+ zvezdic:

Glavna funkcija projekta je:

"FlashMLA je učinkovito jedro za dekodiranje MLA za grafične procesorje Hopper, optimizirano za serviranje zaporedij spremenljive dolžine."

Prevedeno, je:

"FlashMLA je učinkovito jedro za dekodiranje MLA, optimizirano za grafične procesorje arhitekture NVIDIA Hopper, posebej optimizirano za storitvene scenarije, ki obdelujejo zaporedja spremenljive dolžine."

Na kratko:

FlashMLA je učinkovito jedro za dekodiranje, ki ga je zasnoval DeepInference za grafične procesorje z arhitekturo Hopper (kot je H800). Z optimizacijo izračuna potencialne pozornosti z več glavami zaporedij spremenljive dolžine doseže končno zmogljivost 3000 GB/s pasovne širine pomnilnika in 580 TFLOPS računalniške moči v fazi dekodiranja, kar znatno izboljša učinkovitost razmišljanja z dolgimi konteksti za velike modele.

Nekateri uporabniki interneta so rekli:

Nekateri ljudje to že uporabljajo in pravijo Čisti inženiring:

Ta projekt spada v inženirsko optimizacijo in zmanjša zmogljivost strojne opreme na omejitev.

Projekt je takoj pripravljen za uporabo.

Okoljske zahteve:

  • GPU Hopper
  • CUDA 12.3 in novejši
  • PyTorch 2.0 in novejši

Ob koncu projekta je uradnik tudi izjavil, da so ga navdihnili projekti FlashAttention 2&3 in NVIDIA CUTLASS.

FlashAttention je sposoben doseči hitro in pomnilniško učinkovito natančno pozornost in se uporablja v običajnih velikih modelih. Najnovejša različica tretje generacije lahko poveča stopnjo izkoriščenosti H100 na 75%.

Hitrost usposabljanja se poveča za 1,5-2-krat, računalniška prepustnost pod FP16 pa znaša kar 740 TFLOPs/s, s čimer doseže 75% teoretične največje prepustnosti in boljšo uporabo računalniških virov, ki je prej znašala le 35%.

FlashMLA ne le doseže preskok v zmogljivosti z optimizacijo na ravni strojne opreme, ampak tudi nudi takojšnjo rešitev za inženirske prakse pri sklepanju z umetno inteligenco in tako postane ključni tehnološki preboj pri pospeševanju sklepanja velikih modelov.

Prvi dan je prišlo do tako velikega razkritja.

Veselim se odprtokodnih stvari v naslednjih štirih dneh!

Kot je dejal netizen:

Kit dela valove!

DeepSeek je super!

Podobne objave

Dodaj odgovor

Vaš e-naslov ne bo objavljen. * označuje zahtevana polja