W zeszłym tygodniu DeepSeek ogłosiło, że w przyszłym tygodniu udostępni kod źródłowy pięciu projektów:

Internauci stwierdzili: „Tym razem OpenAI naprawdę nadeszło”.

Właśnie pojawił się pierwszy projekt typu open source związany z przyspieszeniem wnioskowania, FlashMLA:

Adres projektu Open Source:

DeepSeek FlashMLA

Jest on dostępny jako oprogramowanie open source od dwóch godzin, a Github ma już ponad 2,7 tys. gwiazdek:

Podstawową funkcją projektu jest:

„FlashMLA to wydajne jądro dekodujące MLA dla procesorów graficznych Hopper, zoptymalizowane pod kątem obsługi sekwencji o zmiennej długości”.

Przetłumaczone, to jest:

„FlashMLA to wydajne jądro dekodujące MLA zoptymalizowane pod kątem procesorów graficznych z architekturą NVIDIA Hopper, specjalnie zoptymalizowane pod kątem scenariuszy usługowych, w których przetwarzane są sekwencje o zmiennej długości”.

W paru słowach:

FlashMLA to wydajny rdzeń dekodujący zaprojektowany przez DeepInference dla procesorów graficznych Hopper-architecture (takich jak H800). Dzięki optymalizacji wielogłowicowego potencjalnego obliczenia uwagi sekwencji o zmiennej długości osiąga on najwyższą wydajność 3000 GB/s przepustowości pamięci i 580 TFLOPS mocy obliczeniowej na etapie dekodowania, znacznie poprawiając wydajność rozumowania z długimi kontekstami dla dużych modeli.

Niektórzy internauci powiedzieli:

Niektórzy ludzie już z tego korzystają i twierdzą, że to czysta inżynieria:

Projekt ten należy do dziedziny optymalizacji inżynieryjnej i ściska wydajność sprzętu do maksimum limit.

Projekt jest gotowy do użycia od razu po wyjęciu z pudełka.

Wymagania środowiskowe:

  • Procesor graficzny Hoppera
  • CUDA 12.3 i nowsze
  • PyTorch 2.0 i nowsze

Pod koniec projektu urzędnik stwierdził także, że inspiracją były projekty FlashAttention 2&3 oraz NVIDIA CUTLASS.

FlashAttention jest w stanie osiągnąć szybką i wydajną pod względem pamięci precyzyjną uwagę i jest używany w popularnych dużych modelach. Najnowsza wersja trzeciej generacji może zwiększyć wskaźnik wykorzystania H100 do 75%.

Prędkość treningu wzrasta 1,5-2 razy, a przepustowość obliczeniowa w ramach FP16 sięga aż 740 TFLOPs/s, osiągając 75% teoretycznej maksymalnej przepustowości i umożliwiając pełniejsze wykorzystanie zasobów obliczeniowych, które wcześniej wynosiły zaledwie 35%.

BłyskMLA nie tylko zapewnia skokowy wzrost wydajności dzięki optymalizacji na poziomie sprzętowym, ale także stanowi gotowe rozwiązanie dla praktyk inżynieryjnych w zakresie wnioskowania AI, stając się kluczowym przełomem technologicznym w przyspieszaniu wnioskowania dużych modeli.

Pierwszego dnia nastąpiło wielkie odkrycie.

Z niecierpliwością czekam na nowości open source, które pojawią się w ciągu najbliższych czterech dni!

Jak powiedział internauta:

Wieloryb wywołuje fale!

DeepSeek jest niesamowity!

Podobne posty

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *