DeepSeek har släppt sin källkod, detaljerad förklaring av FlashMLA

Förra veckan meddelade DeepSeek att det skulle öppna källkod för fem projekt nästa vecka:

Netizens sa: "Den här gången är OpenAI verkligen här."

Just nu kom det första open source-projektet, relaterat till inferensacceleration, FlashMLA:

Öppen källkod projektadress:

DeepSeek FlashMLA

Det har varit öppen källkod i två timmar, och Github har redan 2,7k+ stjärnor:

Projektets kärnfunktion är:

"FlashMLA är en effektiv MLA-avkodningskärna för Hopper GPU:er, optimerad för sekvenser med variabel längd."

Översatt är det:

"FlashMLA är en effektiv MLA-avkodningskärna optimerad för NVIDIA Hopper-arkitektur-GPU:er, specifikt optimerad för tjänstescenarier som bearbetar sekvenser med variabel längd."

I korthet:

FlashMLA är en effektiv avkodningskärna designad av DeepInference för Hopper-arkitektur GPU:er (som H800). Genom att optimera den potentiella uppmärksamhetsberäkningen för flera huvuden av sekvenser med variabel längd, uppnår den den ultimata prestandan på 3000 GB/s minnesbandbredd och 580 TFLOPS beräkningskraft i avkodningssteget, vilket avsevärt förbättrar effektiviteten av resonemang med långa sammanhang för stora modeller.

Några nätanvändare sa:

Vissa människor använder det redan, och de säger Ren ingenjörskonst:

Detta projekt tillhör ingenjörsoptimering och pressar hårdvarans prestanda till begränsa.

Projektet är klart att användas direkt.

Miljökrav:

Hopper GPU
CUDA 12.3 och högre
PyTorch 2.0 och senare

I slutet av projektet uppgav tjänstemannen också att det var inspirerat av FlashAttention 2&3- och NVIDIA CUTLASS-projekten.

FlashAttention kan uppnå snabb och minneseffektiv exakt uppmärksamhet och används i vanliga stora modeller. Den senaste tredje generationens version kan öka utnyttjandegraden för H100 till 75%.

Träningshastigheten ökas med 1,5-2 gånger, och beräkningsgenomströmningen under FP16 är så hög som 740 TFLOPs/s, och når 75% av den teoretiska maximala genomströmningen och utnyttjar beräkningsresurserna fullt ut, som tidigare bara var 35%.

FlashMLA uppnår inte bara ett språng i prestanda genom optimering på hårdvarunivå, utan tillhandahåller också en färdig lösning för teknisk praxis inom AI-inferens, vilket blir ett nyckelteknologiskt genombrott för att accelerera slutledning av stora modeller.

Det var en så stor avslöjande den första dagen.

Jag ser fram emot grejer med öppen källkod under de kommande fyra dagarna!

Som nätanvändaren sa:

Valen gör vågor!

DeepSeek är fantastiskt!

Okategoriserade

Första lanseringen! SiliconFlow X Huawei Cloud lanserar gemensamt DeepSeek R1 & V3 inferenstjänster baserade på Ascend Cloud!

Avzddeepseeker 1 februari 20251 februari 2025

DeepSeek-R1 och DeepSeek-V3 har orsakat en global sensation sedan de lanserades med öppen källkod. De är en gåva från DeepSeek-teamet till hela mänskligheten, och vi är uppriktigt glada för deras framgång. Efter flera dagars hårt arbete av Silicon Mobility- och Huawei Cloud-teamen ger vi idag också kinesiska användare en kinesisk...

Okategoriserade

DeepSeek-R1-teknologi avslöjad: kärnprinciperna i papperet bryts ner och nyckeln till banbrytande modellprestanda avslöjas

Avzddeepseeker 9 februari 20259 februari 2025

Idag kommer vi att dela DeepSeek R1, Titel: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning: Incentivizing the reasoning capability of LLM via reinforcement learning. Detta dokument introducerar DeepSeek:s första generation av resonemangsmodeller, DeepSeek-R1-Zero och DeepSeek-R1. DeepSeek-R1-Zero-modellen tränades genom storskalig förstärkningsinlärning (RL) utan övervakad finjustering (SFT) som ett första steg,...

Okategoriserade

Vad är FlashMLA? En omfattande guide till dess inverkan på AI-avkodningskärnor

Avdeepseeker 24 februari 202524 februari 2025

FlashMLA har snabbt fått uppmärksamhet i världen av artificiell intelligens, särskilt inom området för stora språkmodeller (LLM). Detta innovativa verktyg, utvecklat av DeepSeek, fungerar som en optimerad avkodningskärna designad för Hopper GPU:er – högpresterande chips som vanligtvis används i AI-beräkningar. FlashMLA fokuserar på effektiv bearbetning av sekvenser med variabel längd, vilket gör den särskilt väl lämpad...

Okategoriserade

Vad kan Deepseek uppnå? Kan inte OpenAI göra det?

Avzddeepseeker 10 februari 202510 februari 2025

Det verkliga värdet av DeepSeek är underskattat! DeepSeek-R1 har utan tvekan fört en ny våg av entusiasm till marknaden. Inte nog med att de relevanta så kallade förmånstagarmålen ökar kraftigt, utan vissa människor har till och med utvecklat DeepSeek-relaterade kurser och mjukvara i ett försök att tjäna pengar på det. Vi tror att även om dessa fenomen har en...

Okategoriserade

DeepSeek TOP17 bästa alternativ: omfattande analys (2025)

Avdeepseeker 6 februari 20256 februari 2025

Inledning I det snabbt utvecklande landskapet av artificiell intelligens har DeepSeek dykt upp som en kraftfull språkmodell. Denna omfattande analys utforskar de 17 bästa alternativen till DeepSeek, och undersöker deras unika egenskaper, möjligheter och användningsfall. Vår forskning fokuserar på både internationella och kinesiska plattformar som erbjuder DeepSeek-integration eller liknande funktioner. Toppalternativanalys 1….

Okategoriserade

Gemini 2.0 dominerar listorna, medan DeepSeek V3 gråter i priset, och en ny kostnadseffektiv mästare är född!

Avzddeepseeker 8 februari 20258 februari 2025

Google Gemini 2.0-familjen är äntligen komplett! Den dominerar listorna så fort den släpps. Mitt i jakten på och blockaderna av Deepseek, Qwen och o3 släppte Google tre modeller på en gång tidigt i morse: Gemini 2.0 Pro, Gemini 2.0 Flash och Gemini 2.0 Flash-Lite. På den stora modellen LMSYS-rankingen, Gemini...

Liknande inlägg

Lämna ett svar Avbryt svar