Миналата седмица DeepSeek обяви, че следващата седмица ще отвори пет проекта с отворен код:

Нетизените казаха: „Този път OpenAI наистина е тук.“

Току-що дойде първият проект с отворен код, свързан с ускоряване на извода, FlashMLA:

Адрес на проекта с отворен код:

DeepSeek FlashMLA

Той е с отворен код от два часа, а Github вече има 2,7k+ звезди:

Основната функция на проекта е:

„FlashMLA е ефективно MLA декодиращо ядро за Hopper GPU, оптимизирано за обслужване на последователности с променлива дължина.“

Преведено, така е:

„FlashMLA е ефективно MLA декодиращо ядро, оптимизирано за графични процесори с архитектура NVIDIA Hopper, специално оптимизирано за сервизни сценарии, които обработват последователности с променлива дължина.“

Накратко:

FlashMLA е ефективно декодиращо ядро, проектирано от DeepInference за GPU с Hopper архитектура (като H800). Чрез оптимизиране на изчислението на потенциалното внимание на няколко глави на последователности с променлива дължина, той постига максимална производителност от 3000GB/s честотна лента на паметта и 580TFLOPS изчислителна мощност в етапа на декодиране, като значително подобрява ефективността на разсъжденията с дълги контексти за големи модели.

Някои нетизени казаха:

Някои хора вече го използват и казват Чисто инженерство:

Този проект принадлежи към инженерната оптимизация и намалява производителността на хардуера до лимит.

Проектът е готов за използване от кутията.

Изисквания за околната среда:

  • Хопър GPU
  • CUDA 12.3 и по-нова версия
  • PyTorch 2.0 и по-нова версия

В края на проекта официалният представител също така заяви, че е вдъхновен от проектите FlashAttention 2&3 и NVIDIA CUTLASS.

FlashAttention е в състояние да постигне бързо и ефективно за паметта прецизно внимание и се използва в основните големи модели. Последната версия от трето поколение може да увеличи степента на използване на H100 до 75%.

Скоростта на обучение се увеличава с 1,5-2 пъти, а изчислителната производителност при FP16 достига 740 TFLOPs/s, достигайки 75% от теоретичната максимална пропускателна способност и по-пълноценно използване на изчислителните ресурси, което преди беше само 35%.

FlashMLA не само постига скок в производителността чрез оптимизация на хардуерно ниво, но също така предоставя готово решение за инженерни практики в изводите на AI, превръщайки се в ключов технологичен пробив в ускоряването на изводите на големи модели.

Имаше толкова голямо разкритие в първия ден.

Очаквам с нетърпение нещата с отворен код през следващите четири дни!

Както каза потребителят на мрежата:

Китът прави вълни!

DeepSeek е страхотен!

Подобни публикации

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *