I sidste uge annoncerede DeepSeek, at det ville open source fem projekter i næste uge:

Netizens sagde: "Denne gang er OpenAI virkelig her."

Lige nu kom det første open source-projekt, relateret til inferensacceleration, FlashMLA:

Open source-projektadresse:

DeepSeek FlashMLA

Det har været open source i to timer, og Github har allerede 2,7k+ stjerner:

Projektets kernefunktion er:

"FlashMLA er en effektiv MLA-afkodningskerne til Hopper GPU'er, optimeret til sekvenser med variabel længde."

Oversat er det:

"FlashMLA er en effektiv MLA-afkodningskerne, der er optimeret til NVIDIA Hopper-arkitektur GPU'er, specifikt optimeret til servicescenarier, der behandler sekvenser med variabel længde."

I en nøddeskal:

FlashMLA er en effektiv afkodningskerne designet af DeepInference til Hopper-arkitektur GPU'er (såsom H800). Ved at optimere multi-head potentielle opmærksomhedsberegning af sekvenser med variabel længde opnår den den ultimative ydeevne på 3000 GB/s hukommelsesbåndbredde og 580TFLOPS computerkraft i afkodningsfasen, hvilket væsentligt forbedrer effektiviteten af ræsonnement med lange sammenhænge for store modeller.

Nogle netbrugere sagde:

Nogle mennesker bruger det allerede, og de siger Ren teknik:

Dette projekt hører til ingeniøroptimering og klemmer hardwareydelsen til begrænse.

Projektet er klar til brug ud af kassen.

Miljøkrav:

  • Hopper GPU
  • CUDA 12,3 og derover
  • PyTorch 2.0 og nyere

I slutningen af projektet udtalte embedsmanden også, at det var inspireret af FlashAttention 2&3- og NVIDIA CUTLASS-projekterne.

FlashAttention er i stand til at opnå hurtig og hukommelseseffektiv præcis opmærksomhed og bruges i almindelige store modeller. Den seneste tredje generations version kan øge udnyttelsesgraden af H100 til 75%.

Træningshastigheden øges med 1,5-2 gange, og den beregningsmæssige gennemstrømning under FP16 er så høj som 740 TFLOPs/s, og når 75% af den teoretiske maksimale gennemstrømning og udnytter computerressourcerne fuldt ud, som tidligere kun var 35%.

FlashMLA opnår ikke kun et spring i ydeevne gennem optimering på hardwareniveau, men giver også en klar løsning til ingeniørpraksis inden for AI-inferens, der bliver et nøgleteknologisk gennembrud i at accelerere slutningen af store modeller.

Der var sådan en stor afsløring på den første dag.

Jeg ser frem til open source-tingene i de næste fire dage!

Som netbrugeren sagde:

Hvalen laver bølger!

DeepSeek er fantastisk!

Lignende indlæg

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *