Verlede week het DeepSeek aangekondig dat dit volgende week vyf projekte sal oopmaak:

Netizens het gesê: "Hierdie keer is OpenAI regtig hier."

Netnou het die eerste oopbronprojek gekom, wat verband hou met afleidingversnelling, FlashMLA:

Oopbronprojekadres:

DeepSeek FlashMLA

Dit is al twee uur oopbron, en Github het reeds 2.7k+ sterre:

Die kernfunksie van die projek is:

"FlashMLA is 'n doeltreffende MLA-dekoderingkern vir Hopper GPU's, geoptimaliseer vir reekse met veranderlike lengtes wat bedien word."

Vertaal, dit is:

"FlashMLA is 'n doeltreffende MLA-dekoderingskern wat geoptimaliseer is vir NVIDIA Hopper-argitektuur GPU's, spesifiek geoptimaliseer vir diensscenario's wat reekse van veranderlike lengte verwerk."

In 'n neutedop:

FlashMLA is 'n doeltreffende dekoderingskern wat deur DeepInference ontwerp is vir Hopper-argitektuur GPU's (soos die H800). Deur die multi-kop potensiële aandag berekening van veranderlike-lengte rye te optimaliseer, behaal dit die uiteindelike werkverrigting van 3000GB/s geheue bandwydte en 580TFLOPS rekenaarkrag in die dekodering stadium, wat die doeltreffendheid van redenering met lang kontekste vir groot modelle aansienlik verbeter.

Sommige netizens het gesê:

Sommige mense gebruik dit reeds, en hulle sê Pure engineering:

Hierdie projek behoort aan ingenieursoptimalisering en druk die hardeware werkverrigting na die beperk.

Die projek is gereed om uit die boks te gebruik.

Omgewingsvereistes:

  • Hopper GPU
  • CUDA 12.3 en hoër
  • PyTorch 2.0 en hoër

Aan die einde van die projek het die amptenaar ook gesê dat dit geïnspireer is deur die FlashAttention 2&3- en NVIDIA CUTLASS-projekte.

FlashAttention is in staat om vinnige en geheuedoeltreffende presiese aandag te verkry, en word in hoofstroom groot modelle gebruik. Die jongste derdegenerasie-weergawe kan die gebruikskoers van die H100 tot 75% verhoog.

Opleidingspoed word met 1,5-2 keer verhoog, en die berekeningsdeurset onder FP16 is so hoog as 740 TFLOP's/s, wat 75% van die teoretiese maksimum deurset bereik en meer volle gebruik maak van rekenaarhulpbronne, wat voorheen slegs 35% was.

FlashMLA bereik nie net 'n sprong in werkverrigting deur hardeware-vlakoptimering nie, maar bied ook 'n out-of-the-box oplossing vir ingenieurspraktyke in KI-afleiding, wat 'n belangrike tegnologiese deurbraak word in die versnelling van afleiding van groot modelle.

Daar was so 'n groot onthulling op die eerste dag.

Ek sien uit na die oopbron-dinge in die volgende vier dae!

Soos die netizen gesê het:

Die walvis maak golwe!

DeepSeek is wonderlik!

Soortgelyke plasings

Maak 'n opvolg-bydrae

Jou e-posadres sal nie gepubliseer word nie. Verpligte velde word met * aangedui