DeepSeek on välja andnud oma lähtekoodi, FlashMLA üksikasjaliku selgituse

Eelmisel nädalal teatas DeepSeek, et avab järgmisel nädalal viis projekti:

Netizens ütles: "Seekord on OpenAI tõesti siin."

Just nüüd tuli esimene avatud lähtekoodiga projekt, mis on seotud järelduste kiirendusega, FlashMLA:

Avatud lähtekoodiga projekti aadress:

DeepSeek FlashMLA

See on olnud avatud lähtekoodiga kaks tundi ja Githubil on juba 2,7 000+ tärni:

Projekti põhifunktsioon on:

"FlashMLA on tõhus MLA dekodeerimise tuum Hopperi GPU-de jaoks, mis on optimeeritud muutuva pikkusega jadate teenindamiseks."

Tõlgitud, on küll:

"FlashMLA on tõhus MLA dekodeerimise tuum, mis on optimeeritud NVIDIA Hopperi arhitektuuriga GPU-de jaoks ja mis on spetsiaalselt optimeeritud muutuva pikkusega jadasid töötlevate teenusestsenaariumide jaoks."

Lühidalt:

FlashMLA on tõhus dekodeerimistuum, mille DeepInference on välja töötanud Hopperi arhitektuuriga GPU-de (nt H800) jaoks. Optimeerides muutuva pikkusega jadade mitme peaga potentsiaalse tähelepanu arvutamist, saavutab see 3000 GB/s mälu ribalaiuse ja 580 TFLOPS arvutusvõimsuse dekodeerimisetapis, parandades märkimisväärselt suurte mudelite puhul pikkade kontekstidega arutlemise tõhusust.

Mõned netiinimesed ütlesid:

Mõned inimesed juba kasutavad seda ja nad ütlevad Pure engineering:

See projekt kuulub inseneri optimeerimise ja surub riistvara jõudluse alla piir.

Projekt on karbist välja võttes kasutamiseks valmis.

Keskkonnanõuded:

Punkri GPU
CUDA 12.3 ja uuemad
PyTorch 2.0 ja uuemad

Projekti lõpus märkis ametnik ka, et see on inspireeritud projektidest FlashAttention 2&3 ja NVIDIA CUTLASS.

FlashAttention on võimeline saavutama kiiret ja mälusäästlikku täpset tähelepanu ning seda kasutatakse tavalistes suurtes mudelites. Uusim kolmanda põlvkonna versioon võib suurendada H100 kasutusmäära 75%-ni.

Treeningu kiirust suurendatakse 1,5-2 korda ning arvutuslik läbilaskevõime FP16 all on koguni 740 TFLOPs/s, saavutades 75% teoreetilisest maksimaalsest läbilaskevõimest ja kasutades ära arvutusressursse, mis varem oli vaid 35%.

FlashMLA mitte ainult ei saavuta riistvaratasemel optimeerimise kaudu jõudlushüpet, vaid pakub ka valmis lahendust tehisintellekti järeldamise inseneripraktikatele, muutudes peamiseks tehnoloogiliseks läbimurdeks suurte mudelite järelduste tegemise kiirendamisel.

Esimesel päeval oli nii suur paljastamine.

Ootan huviga avatud lähtekoodiga kraami järgmise nelja päeva jooksul!

Nagu netimees ütles:

Vaal lööb laineid!

DeepSeek on suurepärane!

Mittekategoriseeritud

Kuidas loodi DeepSeek? DeepSeek kasvuloo analüüs

Autorzddeepseeker veebruar 3, 2025veebruar 3, 2025

Tulevikus on üha rohkem ja rohkem uuendusi. Praegu ei pruugi see olla lihtne mõista, sest kogu sotsiaalset rühma tuleb harida faktidega. Kui see ühiskond lubab inimestel, kes uuendavad hardcore, edu saavutada, muutub kollektiivne mõtteviis. Me vajame lihtsalt hulga fakte ja protsessi.....

Mittekategoriseeritud

Google on välja andnud kolm uut mudelit korraga: Gemini-2.0-Pro on tasuta, suurepärase punktisummaga ja esikohal ning sobib keerukate viipade kodeerimiseks ja töötlemiseks!

Autorzddeepseeker veebruar 8, 2025veebruar 8, 2025

Gemini 2.0 lugu kiireneb. Detsembris ilmunud Flash Thinking Experimental versioon tõi arendajatele madala latentsusajaga ja suure jõudlusega töötava mudeli. Selle aasta alguses värskendati Google AI Studios versiooni 2.0 Flash Thinking Experimental, et veelgi parandada jõudlust, ühendades Flashi kiiruse täiustatud järeldamisvõimalustega. Eelmisel nädalal,…

Mittekategoriseeritud

Tehnoloogia DeepSeek-R1 paljastas: paberi põhiprintsiibid on lahti võetud ja mudeli läbimurdelise jõudluse võti paljastatakse

Autorzddeepseeker 9. veebruar 20259. veebruar 2025

Täna jagame DeepSeek R1, pealkiri: DeepSeek-R1: LLM-ide arutlusvõime stimuleerimine tugevdava õppe kaudu: LLM-i arutlusvõime ergutamine tugevdava õppe kaudu. See artikkel tutvustab DeepSeek esimese põlvkonna arutlusmudeleid DeepSeek-R1-Zero ja DeepSeek-R1. Mudelit DeepSeek-R1-Zero koolitati esimese sammuna suuremahulise tugevdusõppe (RL) abil ilma juhendatud peenhäälestuseta (SFT),…

Mittekategoriseeritud

Cathie Wood: DeepSeek lihtsalt kiirendab kulude vähendamise protsessi; Suure Depressiooniga võrreldav äärmuslikult kontsentreeritud turustruktuur muutub

Autorzddeepseeker veebruar 8, 2025veebruar 8, 2025

Tähtsündmused Konkurents DeepSeek-ga on USA Cathie Woodile kasulik: minu arvates näitab see, et innovatsiooni hind langeb järsult ja see trend on juba alanud. Näiteks enne DeepSeek-d langesid tehisintellekti treenimise kulud 75% võrra aastas ja järelduste tegemise hind isegi 85% võrra…

Mittekategoriseeritud

OpenAI äsja avaldatud o3-mini ja DeepSeek R1 põhjalik võrdlus

Autorzddeepseeker veebruar 1, 2025veebruar 1, 2025

OpenAI on välja andnud oma uusima järeldusmudeli o3-mini, mis on optimeeritud selliste valdkondade jaoks nagu teadus, matemaatika ja programmeerimine, pakkudes kiiremat reageerimist, suuremat täpsust ja väiksemaid kulusid. Võrreldes oma eelkäijaga o1-mini on o3-mini oluliselt parandanud järelduste tegemise võimekust, eriti keeruliste probleemide lahendamisel. Testijad eelistavad o3-mini vastuseid 56% ja veamäär on...

Mittekategoriseeritud

Ägedad uudised! DeepSeek teadlane paljastab veebis: R1 koolitus kestis vaid kaks kuni kolm nädalat ja Hiina uusaasta pühade ajal täheldati R1 nulli võimsat arengut.

Autorzddeepseeker veebruar 4, 2025veebruar 4, 2025

Ägedad uudised! DeepSeek uurija paljastab veebis: R1 koolitus kestis vaid kaks kuni kolm nädalat ja Hiina uusaasta pühade ajal täheldati R1 nulli võimsat arengut. Just nüüd märkasime, et DeepSeek uurija Daya Guo vastas netitsentide küsimustele DeepSeek R1 ja ettevõtte plaanide kohta. edasi läheb. Saame vaid öelda…

Sarnased postitused

Lisa kommentaar Tühista vastus