Prošlog je tjedna DeepSeek najavio da će sljedeći tjedan otvoriti pet projekata:

Netizeni su rekli: "Ovaj put je OpenAI stvarno tu."

Upravo je došao prvi projekt otvorenog koda, vezan uz ubrzanje zaključivanja, FlashMLA:

Adresa projekta otvorenog koda:

DeepSeek FlashMLA

Otvoren je izvor dva sata, a Github već ima 2,7k+ zvjezdica:

Osnovna funkcija projekta je:

"FlashMLA je učinkovit kernel za MLA dekodiranje za Hopper GPU-ove, optimiziran za posluživanje sekvenci promjenjive duljine."

Prevedeno, jeste:

"FlashMLA je učinkovit kernel za MLA dekodiranje optimiziran za GPU-ove NVIDIA Hopper arhitekture, posebno optimiziran za scenarije usluga koji obrađuju sekvence promjenjive duljine."

Ukratko:

FlashMLA je učinkovita jezgra za dekodiranje koju je dizajnirao DeepInference za GPU-ove Hopper arhitekture (kao što je H800). Optimizirajući izračun potencijalne pozornosti s više glava sekvenci promjenjive duljine, postiže se vrhunska izvedba od 3000 GB/s memorijske širine i 580 TFLOPS računalne snage u fazi dekodiranja, značajno poboljšavajući učinkovitost rasuđivanja s dugim kontekstima za velike modele.

Neki netizeni su rekli:

Neki ljudi to već koriste i kažu Čisto inženjerstvo:

Ovaj projekt pripada inženjerskoj optimizaciji i smanjuje performanse hardvera na ograničiti.

Projekt je odmah spreman za korištenje.

Zahtjevi za okoliš:

  • Hopper GPU
  • CUDA 12.3 i novije
  • PyTorch 2.0 i noviji

Na kraju projekta, dužnosnik je također izjavio da je inspiriran projektima FlashAttention 2&3 i NVIDIA CUTLASS.

FlashAttention može postići brzu i memorijski učinkovitu preciznu pozornost, a koristi se u glavnim velikim modelima. Najnovija verzija treće generacije može povećati stopu iskorištenja H100 na 75%.

Brzina treninga je povećana za 1,5-2 puta, a računalna propusnost pod FP16 je čak 740 TFLOPs/s, dostižući 75% teorijske maksimalne propusnosti i potpunije iskorištavajući računalne resurse, što je prije bilo samo 35%.

FlashMLA ne samo da postiže skok u performansama kroz optimizaciju na razini hardvera, već također pruža gotova rješenja za inženjerske prakse u zaključivanju umjetne inteligencije, postajući ključno tehnološko otkriće u ubrzavanju zaključivanja velikih modela.

Prvog dana došlo je do tako velikog otkrića.

Veselim se stvarima otvorenog koda u sljedeća četiri dana!

Kao što je netizen rekao:

Kit pravi valove!

DeepSeek je super!

Slični postovi

Odgovori

Vaša adresa e-pošte neće biti objavljena. Obavezna polja su označena sa * (obavezno)