DeepSeek udostępnił swój kod źródłowy, szczegółowe wyjaśnienie FlashMLA

W zeszłym tygodniu DeepSeek ogłosiło, że w przyszłym tygodniu udostępni kod źródłowy pięciu projektów:

Internauci stwierdzili: „Tym razem OpenAI naprawdę nadeszło”.

Właśnie pojawił się pierwszy projekt typu open source związany z przyspieszeniem wnioskowania, FlashMLA:

Adres projektu Open Source:

DeepSeek FlashMLA

Jest on dostępny jako oprogramowanie open source od dwóch godzin, a Github ma już ponad 2,7 tys. gwiazdek:

Podstawową funkcją projektu jest:

„FlashMLA to wydajne jądro dekodujące MLA dla procesorów graficznych Hopper, zoptymalizowane pod kątem obsługi sekwencji o zmiennej długości”.

Przetłumaczone, to jest:

„FlashMLA to wydajne jądro dekodujące MLA zoptymalizowane pod kątem procesorów graficznych z architekturą NVIDIA Hopper, specjalnie zoptymalizowane pod kątem scenariuszy usługowych, w których przetwarzane są sekwencje o zmiennej długości”.

W paru słowach:

FlashMLA to wydajny rdzeń dekodujący zaprojektowany przez DeepInference dla procesorów graficznych Hopper-architecture (takich jak H800). Dzięki optymalizacji wielogłowicowego potencjalnego obliczenia uwagi sekwencji o zmiennej długości osiąga on najwyższą wydajność 3000 GB/s przepustowości pamięci i 580 TFLOPS mocy obliczeniowej na etapie dekodowania, znacznie poprawiając wydajność rozumowania z długimi kontekstami dla dużych modeli.

Niektórzy internauci powiedzieli:

Niektórzy ludzie już z tego korzystają i twierdzą, że to czysta inżynieria:

Projekt ten należy do dziedziny optymalizacji inżynieryjnej i ściska wydajność sprzętu do maksimum limit.

Projekt jest gotowy do użycia od razu po wyjęciu z pudełka.

Wymagania środowiskowe:

Procesor graficzny Hoppera
CUDA 12.3 i nowsze
PyTorch 2.0 i nowsze

Pod koniec projektu urzędnik stwierdził także, że inspiracją były projekty FlashAttention 2&3 oraz NVIDIA CUTLASS.

FlashAttention jest w stanie osiągnąć szybką i wydajną pod względem pamięci precyzyjną uwagę i jest używany w popularnych dużych modelach. Najnowsza wersja trzeciej generacji może zwiększyć wskaźnik wykorzystania H100 do 75%.

Prędkość treningu wzrasta 1,5-2 razy, a przepustowość obliczeniowa w ramach FP16 sięga aż 740 TFLOPs/s, osiągając 75% teoretycznej maksymalnej przepustowości i umożliwiając pełniejsze wykorzystanie zasobów obliczeniowych, które wcześniej wynosiły zaledwie 35%.

BłyskMLA nie tylko zapewnia skokowy wzrost wydajności dzięki optymalizacji na poziomie sprzętowym, ale także stanowi gotowe rozwiązanie dla praktyk inżynieryjnych w zakresie wnioskowania AI, stając się kluczowym przełomem technologicznym w przyspieszaniu wnioskowania dużych modeli.

Pierwszego dnia nastąpiło wielkie odkrycie.

Z niecierpliwością czekam na nowości open source, które pojawią się w ciągu najbliższych czterech dni!

Jak powiedział internauta:

Wieloryb wywołuje fale!

DeepSeek jest niesamowity!

Uncategorized

DeepSeek R1 zajął pierwsze miejsce w teście kreatywnego pisania, a o3 mini było nawet gorsze niż o1 mini!

Przezzddeepseeker 3 lutego 20253 lutego 2025

DeepSeek R1 wygrał mistrzostwa w kreatywnym teście pisania opowiadań, pokonując dotychczasowego dominatora Claude 3.5 Sonnet! Test porównawczy Test porównawczy zaprojektowany przez badacza Lecha Mazura nie jest przeciętnym konkursem pisarskim. Każdy model AI musiał ukończyć 500 opowiadań, a każde z nich musiało sprytnie zawierać...

Uncategorized

Tani model Google’a, seria Gemini 2.0, atakuje: walka o opłacalność w przypadku dużych modeli zaostrza się

Przezzddeepseeker 8 lutego 20258 lutego 2025

Wysoki koszt korzystania z dużych modeli AI jest głównym powodem, dla którego wiele aplikacji AI nie zostało jeszcze wdrożonych i promowanych. Wybór ekstremalnej wydajności oznacza ogromne koszty mocy obliczeniowej, co prowadzi do wysokich kosztów użytkowania, których zwykli użytkownicy nie mogą zaakceptować. Konkurencja o duże modele AI przypomina wojnę bez dymu. Po…

Uncategorized

Ujawniono technologię DeepSeek-R1: podstawowe zasady artykułu zostały rozbite na czynniki pierwsze, a klucz do przełomowej wydajności modelu został ujawniony

Przezzddeepseeker luty 9, 2025luty 9, 2025

Dzisiaj podzielimy się DeepSeek R1, tytuł: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning: Incentivizing the reasoning ability of LLM via enhancement learning. W tym artykule przedstawiono pierwszą generację modeli rozumowania DeepSeek, DeepSeek-R1-Zero i DeepSeek-R1. Model DeepSeek-R1-Zero został wytrenowany poprzez uczenie się wzmacniające na dużą skalę (RL) bez nadzorowanego dostrajania (SFT) jako początkowego kroku,…

Uncategorized

Pierwsze uruchomienie! SiliconFlow X Huawei Cloud wspólnie uruchamiają usługi wnioskowania DeepSeek R1 i V3 w oparciu o Ascend Cloud!

Przezzddeepseeker 1 lutego 2025 r.1 lutego 2025 r.

DeepSeek-R1 i DeepSeek-V3 wywołały globalną sensację od czasu ich uruchomienia na zasadach open source. Są prezentem od zespołu DeepSeek dla całej ludzkości i szczerze cieszymy się z ich sukcesu. Po wielu dniach ciężkiej pracy zespołów Silicon Mobility i Huawei Cloud, dziś dajemy również chińskim użytkownikom...

Uncategorized

Le Chat jest na szczycie list przebojów, z inwestycją w wysokości stu miliardów dolarów. Czy po USA i Chinach jest trzecią potęgą AI?

Przezzddeepseeker 11 lutego 202511 lutego 2025

9 lutego prezydent Francji Emmanuel Macron ogłosił, że Francja zainwestuje 109 miliardów euro (113 miliardów dolarów amerykańskich) w dziedzinie AI w ciągu najbliższych kilku lat. Inwestycja ta zostanie wykorzystana do budowy parku AI we Francji, ulepszenia infrastruktury i zainwestowania w lokalne start-upy AI. Tymczasem Mistral, francuski startup,…

Uncategorized

Czym jest FlashMLA? Kompleksowy przewodnik po jego wpływie na jądra dekodujące AI

Przezdeepseeker luty 24, 2025luty 24, 2025

FlashMLA szybko zyskało uwagę w świecie sztucznej inteligencji, szczególnie w obszarze dużych modeli językowych (LLM). To innowacyjne narzędzie, opracowane przez DeepSeek, służy jako zoptymalizowane jądro dekodowania zaprojektowane dla procesorów graficznych Hopper — wysokowydajnych układów powszechnie używanych w obliczeniach AI. FlashMLA koncentruje się na wydajnym przetwarzaniu sekwencji o zmiennej długości, co czyni je szczególnie dobrze przystosowanym…

DeepSeek udostępnił swój kod źródłowy i szczegółowe wyjaśnienie FlashMLA

DeepSeek R1 zajął pierwsze miejsce w teście kreatywnego pisania, a o3 mini było nawet gorsze niż o1 mini!

Tani model Google’a, seria Gemini 2.0, atakuje: walka o opłacalność w przypadku dużych modeli zaostrza się

Ujawniono technologię DeepSeek-R1: podstawowe zasady artykułu zostały rozbite na czynniki pierwsze, a klucz do przełomowej wydajności modelu został ujawniony

Pierwsze uruchomienie! SiliconFlow X Huawei Cloud wspólnie uruchamiają usługi wnioskowania DeepSeek R1 i V3 w oparciu o Ascend Cloud!

Le Chat jest na szczycie list przebojów, z inwestycją w wysokości stu miliardów dolarów. Czy po USA i Chinach jest trzecią potęgą AI?

Czym jest FlashMLA? Kompleksowy przewodnik po jego wpływie na jądra dekodujące AI

Dodaj komentarz Anuluj pisanie odpowiedzi

Podobne posty

Dodaj komentarz Anuluj pisanie odpowiedzi