DeepSeek zveřejnil svůj zdrojový kód, podrobné vysvětlení FlashMLA

Minulý týden DeepSeek oznámil, že příští týden otevře pět projektů:

Netizens řekl: "Tentokrát je OpenAI opravdu tady."

Právě teď přišel první open source projekt související s akcelerací inferencí, FlashMLA:

Adresa open source projektu:

DeepSeek FlashMLA

Byl to open source dvě hodiny a Github už má 2,7 tisíc hvězd:

Hlavní funkcí projektu je:

"FlashMLA je účinné dekódovací jádro MLA pro GPU Hopper, optimalizované pro obsluhu sekvencí s proměnnou délkou."

Přeloženo, je to tak:

„FlashMLA je účinné dekódovací jádro MLA optimalizované pro GPU architektury NVIDIA Hopper, speciálně optimalizované pro scénáře služeb, které zpracovávají sekvence s proměnnou délkou.“

V kostce:

FlashMLA je účinné dekódovací jádro navržené společností DeepInference pro GPU s architekturou Hopper (jako je H800). Optimalizací výpočtu potenciální pozornosti více hlav sekvencí s proměnnou délkou dosahuje maximálního výkonu 3000 GB/s šířky pásma paměti a 580 TFLOPS výpočetního výkonu ve fázi dekódování, což výrazně zlepšuje efektivitu uvažování s dlouhými kontexty u velkých modelů.

Někteří síťaři řekli:

Někteří lidé to již používají a říkají čisté inženýrství:

Tento projekt patří k inženýrské optimalizaci a stlačuje výkon hardwaru na omezit.

Projekt je připraven k použití ihned po vybalení.

Požadavky na prostředí:

GPU Hopper
CUDA 12.3 a vyšší
PyTorch 2.0 a vyšší

Na konci projektu úředník také uvedl, že se inspiroval projekty FlashAttention 2&3 a NVIDIA CUTLASS.

FlashAttention je schopen dosáhnout rychlé a paměťově efektivní přesné pozornosti a používá se v běžných velkých modelech. Nejnovější verze třetí generace může zvýšit míru využití H100 na 75%.

Rychlost trénování se zvýšila 1,5–2krát a výpočetní propustnost v rámci FP16 je až 740 TFLOPs/s, čímž dosahuje 75% teoretické maximální propustnosti a plně využívá výpočetní zdroje, které byly dříve pouze 35%.

FlashMLA nejenže dosahuje skokového výkonu díky optimalizaci na úrovni hardwaru, ale také poskytuje hotové řešení pro inženýrské postupy v odvozování umělé inteligence, které se stává klíčovým technologickým průlomem v urychlování vyvozování velkých modelů.

První den došlo k tak velkému odhalení.

Těším se na open source věci v příštích čtyřech dnech!

Jak řekl Netizen:

Velryba dělá vlny!

DeepSeek je úžasný!

Nezařazené

Velké artefakty správy jazykového modelu, jako je DeepSeek: Cherry Studio, Chatbox, AnythingLLM, kdo je vaším akcelerátorem efektivity?

Podlezddeepseeker Únor 11, 2025Únor 11, 2025

Mnoho lidí již začalo nasazovat a používat velké jazykové modely Deepseek lokálně pomocí Chatboxu jako vizualizačního nástroje Tento článek bude pokračovat v představení dvou dalších artefaktů správy a vizualizace velkých jazykových modelů AI a podrobně porovná tyto tři, aby vám pomohl efektivněji používat velké jazykové modely AI. V roce 2025,…

Nezařazené

Nízkonákladový model společnosti Google, řada Gemini 2.0, útočí: boj o hospodárnost u velkých modelů se přiostřuje

Podlezddeepseeker Únor 8, 2025Únor 8, 2025

Vysoké náklady na používání velkých modelů umělé inteligence jsou hlavním důvodem, proč mnoho aplikací umělé inteligence dosud nebylo implementováno a propagováno. Volba extrémního výkonu znamená obrovské náklady na výpočetní výkon, což vede k vysokým nákladům na používání, které běžní uživatelé nemohou akceptovat. Konkurence pro velké modely AI je jako válka bez kouře. Po…

Nezařazené

Jak vznikl DeepSeek? Analýza historie růstu společnosti DeepSeek

Podlezddeepseeker Únor 3, 2025Únor 3, 2025

V budoucnu bude přibývat tvrdých inovací. Nyní to nemusí být snadné pochopit, protože celá sociální skupina musí být vzdělána na základě faktů. Až tato společnost umožní lidem, kteří inovují hardcore, uspět, kolektivní myšlení se změní. Potřebujeme jen hromadu faktů a proces.....

Nezařazené

Paper-DeepSeek-R1: Motivace schopnosti uvažování v LLM prostřednictvím učení s posilováním (Reinforcement Learning)

Podledeepseeker Leden 29, 2025Leden 29, 2025

Abstrakt Tento článek představuje první generaci argumentačních modelů DeepSeek: DeepSeek-R1-Zero a DeepSeek-R1. Model DeepSeek-R1-Zero, vycvičený pomocí rozsáhlého posilovacího učení (RL) bez dolaďování pod dohledem (SFT), vykazuje pozoruhodné schopnosti uvažování. Prostřednictvím RL přirozeně rozvíjí výkonné rozumové chování. Potýká se však s problémy, jako je špatná čitelnost a míchání jazyků. Pro řešení těchto problémů a zvýšení výkonnosti uvažování byl vyvinut DeepSeek-R1,...

Nezařazené

Altman: Ohledně open source AI jsme se mýlili! DeepSeek učinil OpenAI méně výhodným a dalším je GPT-5.

Podlezddeepseeker Únor 1, 2025Únor 1, 2025

o3-mini dorazil pozdě v noci a OpenAI konečně odhalila svůj nejnovější trumf. Během dotazů a odpovědí na Redditu AMA Altman hluboce přiznal, že stál na špatné straně open source AI. Uvedl, že interní strategie open source se zvažuje a model se bude nadále vyvíjet, ale...

Nezařazené

Výklad papíru DeepSeek R1 a klíčové technické body

Podlezddeepseeker Únor 9, 2025Únor 9, 2025

1 Pozadí Během jarního festivalu DeepSeek R1 opět přitáhl širokou pozornost a dokonce i článek o interpretaci DeepSeek V3, který jsme dříve napsali, byl také znovu vysílán a hodně diskutován. Přestože bylo provedeno mnoho analýz a reprodukcí DeepSeek R1, rozhodli jsme se sestavit několik odpovídajících poznámek ke čtení. Použijeme tři…

Podobné příspěvky

Napsat komentář Zrušit odpověď na komentář