Săptămâna trecută, DeepSeek a anunțat că va deschide cinci proiecte săptămâna viitoare:

Internauții au spus: „De data aceasta, OpenAI este cu adevărat aici”.

Chiar acum a venit primul proiect open source, legat de accelerarea inferenței, FlashMLA:

Adresa proiectului open source:

DeepSeek FlashMLA

A fost open source timp de două ore, iar Github are deja 2.7k+ stele:

Funcția de bază a proiectului este:

„FlashMLA este un nucleu eficient de decodare MLA pentru GPU-urile Hopper, optimizat pentru servirea secvențelor cu lungime variabilă.”

Tradus, este:

„FlashMLA este un nucleu de decodare MLA eficient, optimizat pentru GPU-uri cu arhitectură NVIDIA Hopper, optimizat special pentru scenarii de servicii care procesează secvențe cu lungime variabilă.”

Pe scurt:

FlashMLA este un nucleu de decodare eficient conceput de DeepInference pentru GPU-uri cu arhitectură Hopper (cum ar fi H800). Prin optimizarea calculului de atenție potențial cu mai multe capete a secvențelor cu lungime variabilă, atinge performanța maximă de lățime de bandă a memoriei de 3000 GB/s și putere de calcul de 580 TFLOPS în etapa de decodare, îmbunătățind semnificativ eficiența raționamentului cu contexte lungi pentru modele mari.

Unii internauți au spus:

Unii oameni îl folosesc deja și spun Pure engineering:

Acest proiect aparține optimizării inginerești și stoarce performanța hardware la limită.

Proiectul este gata de utilizare din cutie.

Cerințe de mediu:

  • GPU Hopper
  • CUDA 12.3 și mai sus
  • PyTorch 2.0 și versiuni ulterioare

La finalul proiectului, oficialul a mai declarat că s-a inspirat din proiectele FlashAttention 2&3 și NVIDIA CUTLASS.

FlashAttention este capabil să obțină o atenție precisă rapidă și eficientă din punct de vedere al memoriei și este utilizat în modelele mari de masă. Cea mai recentă versiune de a treia generație poate crește rata de utilizare a H100 la 75%.

Viteza de antrenament este crescută de 1,5-2 ori, iar debitul de calcul în cadrul FP16 este de până la 740 TFLOP/s, atingând 75% din debitul maxim teoretic și utilizând mai deplin resursele de calcul, care anterior era doar 35%.

FlashMLA nu numai că realizează un salt în performanță prin optimizarea la nivel hardware, dar oferă și o soluție ieșită din cutie pentru practicile de inginerie în inferența AI, devenind o descoperire tehnologică cheie în accelerarea inferenței modelelor mari.

A fost o dezvăluire atât de mare în prima zi.

Aștept cu nerăbdare materialele open source în următoarele patru zile!

După cum a spus netizenul:

Balena face valuri!

DeepSeek este minunat!

Posturi similare

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *