Săptămâna trecută, DeepSeek a anunțat că va deschide cinci proiecte săptămâna viitoare:

Internauții au spus: „De data aceasta, OpenAI este cu adevărat aici”.
Chiar acum a venit primul proiect open source, legat de accelerarea inferenței, FlashMLA:

Adresa proiectului open source:
A fost open source timp de două ore, iar Github are deja 2.7k+ stele:

Funcția de bază a proiectului este:
„FlashMLA este un nucleu eficient de decodare MLA pentru GPU-urile Hopper, optimizat pentru servirea secvențelor cu lungime variabilă.”
Tradus, este:
„FlashMLA este un nucleu de decodare MLA eficient, optimizat pentru GPU-uri cu arhitectură NVIDIA Hopper, optimizat special pentru scenarii de servicii care procesează secvențe cu lungime variabilă.”
Pe scurt:
FlashMLA este un nucleu de decodare eficient conceput de DeepInference pentru GPU-uri cu arhitectură Hopper (cum ar fi H800). Prin optimizarea calculului de atenție potențial cu mai multe capete a secvențelor cu lungime variabilă, atinge performanța maximă de lățime de bandă a memoriei de 3000 GB/s și putere de calcul de 580 TFLOPS în etapa de decodare, îmbunătățind semnificativ eficiența raționamentului cu contexte lungi pentru modele mari.
Unii internauți au spus:

Unii oameni îl folosesc deja și spun Pure engineering:

Acest proiect aparține optimizării inginerești și stoarce performanța hardware la limită.
Proiectul este gata de utilizare din cutie.

Cerințe de mediu:
- GPU Hopper
- CUDA 12.3 și mai sus
- PyTorch 2.0 și versiuni ulterioare
La finalul proiectului, oficialul a mai declarat că s-a inspirat din proiectele FlashAttention 2&3 și NVIDIA CUTLASS.

FlashAttention este capabil să obțină o atenție precisă rapidă și eficientă din punct de vedere al memoriei și este utilizat în modelele mari de masă. Cea mai recentă versiune de a treia generație poate crește rata de utilizare a H100 la 75%.
Viteza de antrenament este crescută de 1,5-2 ori, iar debitul de calcul în cadrul FP16 este de până la 740 TFLOP/s, atingând 75% din debitul maxim teoretic și utilizând mai deplin resursele de calcul, care anterior era doar 35%.
FlashMLA nu numai că realizează un salt în performanță prin optimizarea la nivel hardware, dar oferă și o soluție ieșită din cutie pentru practicile de inginerie în inferența AI, devenind o descoperire tehnologică cheie în accelerarea inferenței modelelor mari.
A fost o dezvăluire atât de mare în prima zi.
Aștept cu nerăbdare materialele open source în următoarele patru zile!
După cum a spus netizenul:

Balena face valuri!
DeepSeek este minunat!