DeepSeek het sy bronkode vrygestel, gedetailleerde verduideliking van FlashMLA

Verlede week het DeepSeek aangekondig dat dit volgende week vyf projekte sal oopmaak:

Netizens het gesê: "Hierdie keer is OpenAI regtig hier."

Netnou het die eerste oopbronprojek gekom, wat verband hou met afleidingversnelling, FlashMLA:

Oopbronprojekadres:

DeepSeek FlashMLA

Dit is al twee uur oopbron, en Github het reeds 2.7k+ sterre:

Die kernfunksie van die projek is:

"FlashMLA is 'n doeltreffende MLA-dekoderingkern vir Hopper GPU's, geoptimaliseer vir reekse met veranderlike lengtes wat bedien word."

Vertaal, dit is:

"FlashMLA is 'n doeltreffende MLA-dekoderingskern wat geoptimaliseer is vir NVIDIA Hopper-argitektuur GPU's, spesifiek geoptimaliseer vir diensscenario's wat reekse van veranderlike lengte verwerk."

In 'n neutedop:

FlashMLA is 'n doeltreffende dekoderingskern wat deur DeepInference ontwerp is vir Hopper-argitektuur GPU's (soos die H800). Deur die multi-kop potensiële aandag berekening van veranderlike-lengte rye te optimaliseer, behaal dit die uiteindelike werkverrigting van 3000GB/s geheue bandwydte en 580TFLOPS rekenaarkrag in die dekodering stadium, wat die doeltreffendheid van redenering met lang kontekste vir groot modelle aansienlik verbeter.

Sommige netizens het gesê:

Sommige mense gebruik dit reeds, en hulle sê Pure engineering:

Hierdie projek behoort aan ingenieursoptimalisering en druk die hardeware werkverrigting na die beperk.

Die projek is gereed om uit die boks te gebruik.

Omgewingsvereistes:

Hopper GPU
CUDA 12.3 en hoër
PyTorch 2.0 en hoër

Aan die einde van die projek het die amptenaar ook gesê dat dit geïnspireer is deur die FlashAttention 2&3- en NVIDIA CUTLASS-projekte.

FlashAttention is in staat om vinnige en geheuedoeltreffende presiese aandag te verkry, en word in hoofstroom groot modelle gebruik. Die jongste derdegenerasie-weergawe kan die gebruikskoers van die H100 tot 75% verhoog.

Opleidingspoed word met 1,5-2 keer verhoog, en die berekeningsdeurset onder FP16 is so hoog as 740 TFLOP's/s, wat 75% van die teoretiese maksimum deurset bereik en meer volle gebruik maak van rekenaarhulpbronne, wat voorheen slegs 35% was.

FlashMLA bereik nie net 'n sprong in werkverrigting deur hardeware-vlakoptimering nie, maar bied ook 'n out-of-the-box oplossing vir ingenieurspraktyke in KI-afleiding, wat 'n belangrike tegnologiese deurbraak word in die versnelling van afleiding van groot modelle.

Daar was so 'n groot onthulling op die eerste dag.

Ek sien uit na die oopbron-dinge in die volgende vier dae!

Soos die netizen gesê het:

Die walvis maak golwe!

DeepSeek is wonderlik!

Ongekategoriseer

DeepSeek het dit gedoen! OpenAI erken geslote bron fout, voorpuntvoordeel word kleiner

Deurzddeepseeker 2 Februarie 20252 Februarie 2025

Nadat OpenAI die o3-mini-model vrygestel het, het sy uitvoerende hoof, Sam Altman, hoofnavorsingsbeampte Mark Chen, hoofprodukbeampte Kevin Weil; Visepresident van Ingenieurswese Srinivas Narayanan, hoof van API-navorsing Michelle Pokrass, en hoof van navorsing Hongyu Ren, het 'n aanlyn tegniese V&A op reddit, een van die wêreld se grootste omvattende forums, gedoen. Die hoofonderwerpe…

Ongekategoriseer

Die konfrontasie van die top vier modelle! 'n Oorsig wys hoe kragtig Deepseek R1 is

Deurzddeepseeker 1 Junie 20251 Junie 2025

Oor die afgelope paar dae is Deepseek-R1 0528 amptelik oopbron beskikbaar gestel. Op LiveCodeBench is die werkverrigting daarvan amper gelykstaande aan OpenAI se o3 (hoog); in Aider se veeltalige maatstaftoets staan dit sy eie teen Claude Opus. Toe dit op die amptelike webwerf bekendgestel is, het ons vinnig die voorkantvermoëns daarvan getoets en gevind dat dit buitengewoon is...

Ongekategoriseer

Le Chat is boaan die kaarte, met 'n belegging van honderd miljard dollar. Na die VSA en China, is dit die derde KI-moondheid?

Deurzddeepseeker 11 Februarie 202511 Februarie 2025

Op 9 Februarie het die Franse president Emmanuel Macron aangekondig dat Frankryk in die volgende paar jaar 109 miljard euro (113 miljard Amerikaanse dollars) in die veld van KI sal belê. Hierdie belegging sal gebruik word om 'n KI-park in Frankryk te bou, die infrastruktuur te verbeter en in plaaslike KI-beginners te belê. Intussen het Mistral, 'n Franse begin, ...

Ongekategoriseer

a16z dialoog met 27-jarige HUB: AI Agent het 'n groot hefboomeffek, en langtermynpryse sal gekoppel word aan arbeidskoste

Deurzddeepseeker 8 Februarie 20258 Februarie 2025

Hoogtepunte AI Agent hervorm die kliënt-ervaring Jesse Zhang: Hoe word 'n Agent eintlik saamgestel? Ons siening is dat dit mettertyd meer en meer soos 'n natuurlike taalgebaseerde Agent sal word, want dit is hoe die groot taalmodelle (LLM'e) opgelei word. Op die lang termyn, as jy 'n super intelligente agent het wat ...

Ongekategoriseer

Dit is naby DeepSeek-R1-32B en verpletter Fei-Fei Li se s1! UC Berkeley en ander oopbron nuwe SOTA-afleidingsmodelle

Deurzddeepseeker 14 Februarie 202514 Februarie 2025

Die 32B-afleidingsmodel gebruik slegs 1/8 van die data en is gekoppel aan DeepSeek-R1 van dieselfde grootte! Sopas het instansies soos Stanford, UC Berkeley en die Universiteit van Washington gesamentlik 'n SOTA-vlak afleidingsmodel, OpenThinker-32B, vrygestel en het ook tot 114k opleidingsdata oopbron verkry. OpenThinker Project-tuisblad: OpenThinker Hugging Face:...

Ongekategoriseer

DeepSeek-R1-0528 Opdatering: Dieper denke, sterker redenasie

Deurzddeepseeker 29 Mei 202529 Mei 2025

Die DeepSeek R1-model het 'n klein weergawe-opgradering ondergaan, met die huidige weergawe DeepSeek-R1-0528. Wanneer jy die DeepSeek-webwerf of -toepassing besoek, aktiveer die "Diep denke"-funksie in die dialoogkoppelvlak om die nuutste weergawe te ervaar. Die DeepSeek-R1-0528-modelgewigte is na HuggingFace opgelaai. Oor die afgelope vier maande het DeepSeek-R1...

Soortgelyke plasings

Maak 'n opvolg-bydrae Kanselleer die opvolg-bydrae