Praėjusią savaitę DeepSeek paskelbė, kad kitą savaitę atidarys penkis projektus:

Internautai sakė: „Šį kartą OpenAI tikrai čia“.
Tik dabar pasirodė pirmasis atvirojo kodo projektas, susijęs su išvadų pagreitinimu, FlashMLA:

Atvirojo kodo projekto adresas:
Ji buvo atvirojo kodo dvi valandas, o „Github“ jau turi 2,7 tūkst.+ žvaigždučių:

Pagrindinė projekto funkcija yra:
„FlashMLA yra efektyvus MLA dekodavimo branduolys, skirtas Hopper GPU, optimizuotas kintamo ilgio sekoms aptarnauti.
Išvertus, tai yra:
„FlashMLA yra efektyvus MLA dekodavimo branduolys, optimizuotas NVIDIA Hopper architektūros GPU, specialiai optimizuotas paslaugų scenarijams, apdorojantiems kintamo ilgio sekas.
Trumpai tariant:
„FlashMLA“ yra efektyvus dekodavimo branduolys, sukurtas „DeepInference“, skirtas „Hopper“ architektūros GPU (pvz., H800). Optimizuodamas kintamo ilgio sekų kelių galvučių potencialo dėmesio skaičiavimą, jis pasiekia didžiausią 3000 GB/s atminties pralaidumą ir 580 TFLOPS skaičiavimo galią dekodavimo etape, o tai žymiai pagerina didelių modelių argumentavimo efektyvumą naudojant ilgą kontekstą.
Kai kurie internautai sakė:

Kai kurie žmonės jau naudojasi ir sako „Pure engineering“:

Šis projektas priklauso inžineriniam optimizavimui ir sumažina aparatūros našumą riba.
Projektas paruoštas naudoti iš dėžutės.

Aplinkos reikalavimai:
- Bunkerio GPU
- CUDA 12.3 ir naujesnės versijos
- PyTorch 2.0 ir naujesnės versijos
Projekto pabaigoje pareigūnas taip pat pareiškė, kad jį įkvėpė FlashAttention 2&3 ir NVIDIA CUTLASS projektai.

„FlashAttention“ gali greitai ir efektyviai sutelkti dėmesį į atmintį ir yra naudojamas pagrindiniuose dideliuose modeliuose. Naujausia trečios kartos versija gali padidinti H100 panaudojimo rodiklį iki 75%.
Treniruotės greitis padidinamas 1,5-2 kartus, o skaičiavimo pralaidumas pagal FP16 siekia net 740 TFLOP/s, pasiekiant 75% teorinio maksimalaus pralaidumo ir visapusiškiau išnaudojant skaičiavimo išteklius, kurie anksčiau buvo tik 35%.
FlashMLA ne tik pasiekia našumo šuolį optimizuojant aparatūros lygmeniu, bet ir pateikia nestandartinį sprendimą inžinerinei DI išvadų praktikai, tapdamas pagrindiniu technologiniu laimėjimu greitinant didelių modelių išvadas.
Pirmą dieną įvyko toks didelis atskleidimas.
Nekantriai laukiu atvirojo kodo turinio per ateinančias keturias dienas!
Kaip sakė internautas:

Banginis kelia bangas!
DeepSeek yra nuostabus!