Vorige week kondigde DeepSeek aan dat het volgende week vijf projecten open source zou maken:

Internetgebruikers zeiden: “Deze keer is OpenAI er echt.”

Zojuist is het eerste open source-project gelanceerd, gerelateerd aan inferentieversnelling: FlashMLA:

Adres van het open source-project:

DeepSeek FlashMLA

Het is al twee uur open source en Github heeft al meer dan 2,7k sterren:

De kernfunctie van het project is:

“FlashMLA is een efficiënte MLA-decoderingskernel voor Hopper GPU's, geoptimaliseerd voor het serveren van sequenties met variabele lengte.”

Vertaald is het:

“FlashMLA is een efficiënte MLA-decoderingskernel die is geoptimaliseerd voor NVIDIA Hopper-architectuur-GPU's, specifiek geoptimaliseerd voor servicescenario's die sequenties met variabele lengte verwerken.”

In een notendop:

FlashMLA is een efficiënte decoderingskern die is ontworpen door DeepInference voor Hopper-architectuur GPU's (zoals de H800). Door de multi-head potentiële aandachtsberekening van sequenties met variabele lengte te optimaliseren, bereikt het de ultieme prestatie van 3000 GB/s geheugenbandbreedte en 580 TFLOPS rekenkracht in de decoderingsfase, wat de efficiëntie van redeneren met lange contexten voor grote modellen aanzienlijk verbetert.

Sommige internetgebruikers zeiden:

Sommige mensen gebruiken het al en zeggen: Pure engineering:

Dit project behoort tot de technische optimalisatie en perst de hardwareprestaties naar de beperken.

Het project is direct klaar voor gebruik.

Omgevingseisen:

  • Hopper-GPU
  • CUDA 12.3 en hoger
  • PyTorch 2.0 en hoger

Aan het einde van het project verklaarde de functionaris ook dat het was geïnspireerd door de projecten FlashAttention 2&3 en NVIDIA CUTLASS.

FlashAttention is in staat om snelle en geheugenefficiënte nauwkeurige aandacht te bereiken en wordt gebruikt in mainstream grote modellen. De nieuwste versie van de derde generatie kan de benuttingsgraad van de H100 tot 75% verhogen.

De trainingssnelheid wordt 1,5-2 keer verhoogd en de rekencapaciteit onder FP16 bedraagt maar liefst 740 TFLOPs/s. Daarmee wordt 75% van de theoretische maximale capaciteit bereikt en wordt optimaal gebruikgemaakt van de rekencapaciteit, die voorheen slechts 35% bedroeg.

FlashMLA zorgt niet alleen voor een prestatieverbetering door optimalisatie op hardwareniveau, maar biedt ook een kant-en-klare oplossing voor technische praktijken bij AI-inferentie. Dit is een belangrijke technologische doorbraak in het versnellen van de inferentie van grote modellen.

De eerste dag was er zo'n grote onthulling.

Ik kijk uit naar de open source-dingen van de komende vier dagen!

Zoals de internetgebruiker zei:

De walvis maakt golven!

DeepSeek is geweldig!

Vergelijkbare berichten

Geef een reactie

Uw e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *