I sidste uge annoncerede DeepSeek, at det ville open source fem projekter i næste uge:

Netizens sagde: "Denne gang er OpenAI virkelig her."
Lige nu kom det første open source-projekt, relateret til inferensacceleration, FlashMLA:

Open source-projektadresse:
Det har været open source i to timer, og Github har allerede 2,7k+ stjerner:

Projektets kernefunktion er:
"FlashMLA er en effektiv MLA-afkodningskerne til Hopper GPU'er, optimeret til sekvenser med variabel længde."
Oversat er det:
"FlashMLA er en effektiv MLA-afkodningskerne, der er optimeret til NVIDIA Hopper-arkitektur GPU'er, specifikt optimeret til servicescenarier, der behandler sekvenser med variabel længde."
I en nøddeskal:
FlashMLA er en effektiv afkodningskerne designet af DeepInference til Hopper-arkitektur GPU'er (såsom H800). Ved at optimere multi-head potentielle opmærksomhedsberegning af sekvenser med variabel længde opnår den den ultimative ydeevne på 3000 GB/s hukommelsesbåndbredde og 580TFLOPS computerkraft i afkodningsfasen, hvilket væsentligt forbedrer effektiviteten af ræsonnement med lange sammenhænge for store modeller.
Nogle netbrugere sagde:

Nogle mennesker bruger det allerede, og de siger Ren teknik:

Dette projekt hører til ingeniøroptimering og klemmer hardwareydelsen til begrænse.
Projektet er klar til brug ud af kassen.

Miljøkrav:
- Hopper GPU
- CUDA 12,3 og derover
- PyTorch 2.0 og nyere
I slutningen af projektet udtalte embedsmanden også, at det var inspireret af FlashAttention 2&3- og NVIDIA CUTLASS-projekterne.

FlashAttention er i stand til at opnå hurtig og hukommelseseffektiv præcis opmærksomhed og bruges i almindelige store modeller. Den seneste tredje generations version kan øge udnyttelsesgraden af H100 til 75%.
Træningshastigheden øges med 1,5-2 gange, og den beregningsmæssige gennemstrømning under FP16 er så høj som 740 TFLOPs/s, og når 75% af den teoretiske maksimale gennemstrømning og udnytter computerressourcerne fuldt ud, som tidligere kun var 35%.
FlashMLA opnår ikke kun et spring i ydeevne gennem optimering på hardwareniveau, men giver også en klar løsning til ingeniørpraksis inden for AI-inferens, der bliver et nøgleteknologisk gennembrud i at accelerere slutningen af store modeller.
Der var sådan en stor afsløring på den første dag.
Jeg ser frem til open source-tingene i de næste fire dage!
Som netbrugeren sagde:

Hvalen laver bølger!
DeepSeek er fantastisk!