DeepSeek опубликовал свой исходный код, подробное объяснение FlashMLA

На прошлой неделе DeepSeek объявила, что на следующей неделе откроет исходный код пяти проектов:

Пользователи сети отметили: «На этот раз OpenAI действительно здесь».

Только что появился первый проект с открытым исходным кодом, связанный с ускорением вывода, FlashMLA:

Адрес проекта с открытым исходным кодом:

DeepSeek FlashMLA

Его исходный код открыт уже два часа, а на Github уже более 2,7 тыс. звезд:

Основная функция проекта:

«FlashMLA — это эффективное ядро декодирования MLA для графических процессоров Hopper, оптимизированное для обслуживания последовательностей переменной длины».

В переводе это:

«FlashMLA — это эффективное ядро декодирования MLA, оптимизированное для графических процессоров с архитектурой NVIDIA Hopper, специально оптимизированное для сценариев обслуживания, обрабатывающих последовательности переменной длины».

Вкратце:

FlashMLA — это эффективное ядро декодирования, разработанное DeepInference для графических процессоров с архитектурой Hopper (например, H800). Оптимизируя многоголовочный расчет потенциального внимания последовательностей переменной длины, он достигает максимальной производительности в 3000 ГБ/с пропускной способности памяти и 580 TFLOPS вычислительной мощности на этапе декодирования, значительно повышая эффективность рассуждений с длинными контекстами для больших моделей.

Некоторые пользователи сети сказали:

Некоторые люди уже используют его и говорят: «Чистая инженерия»:

Этот проект относится к инженерной оптимизации и сжимает производительность оборудования до предел.

Проект готов к использованию сразу после установки.

Требования к окружающей среде:

Графический процессор Hopper
CUDA 12.3 и выше
PyTorch 2.0 и выше

В конце проекта официальный представитель также заявил, что он был вдохновлен проектами FlashAttention 2&3 и NVIDIA CUTLASS.

FlashAttention способен достигать быстрого и эффективного по памяти точного внимания и используется в основных больших моделях. Последняя версия третьего поколения может увеличить коэффициент использования H100 до 75%.

Скорость обучения увеличивается в 1,5-2 раза, а производительность вычислений в рамках FP16 достигает 740 TFLOPs/s, достигая 75% от теоретической максимальной производительности и позволяя полнее использовать вычислительные ресурсы, которые ранее составляли всего 35%.

FlashMLA не только достигает скачка производительности за счет оптимизации на уровне аппаратного обеспечения, но и предоставляет готовое решение для инженерных практик в области вывода ИИ, становясь ключевым технологическим прорывом в ускорении вывода больших моделей.

В первый день произошло такое грандиозное открытие.

С нетерпением жду новостей об открытом исходном коде в ближайшие четыре дня!

Как сказал пользователь сети:

Кит поднимает волны!

DeepSeek потрясающий!

Без категории

Кэти Вуд: DeepSeek просто ускоряет процесс снижения затрат; экстремально концентрированная структура рынка, сопоставимая с Великой депрессией, изменится

Авторzddeepseeker 8 февраля 2025 г.8 февраля 2025 г.

Основные моменты Конкуренция с DeepSeek полезна для США Кэти Вуд: Я думаю, это показывает, что стоимость инноваций резко падает, и что эта тенденция уже началась. Например, до DeepSeek стоимость обучения искусственного интеллекта падала на 75% в год, а стоимость вывода даже упала на 85% до…

Без категории

DeepSeek сделал это! OpenAI признает ошибку с закрытым исходным кодом, преимущество становится меньше

Авторzddeepseeker 2 февраля 2025 года2 февраля 2025 года

После того как компания OpenAI выпустила модель o3-mini, ее генеральный директор Сэм Альтман, директор по исследованиям Марк Чен, директор по продуктам Кевин Вайл, вице-президент по разработкам Сринивас Нараянан, руководитель отдела исследований API Мишель Покрасс и руководитель отдела исследований Хонгю Рен провели онлайн-беседу по техническим вопросам и ответам на одном из крупнейших в мире всесторонних форумов reddit. Основные темы...

Без категории

Обновление DeepSeek-R1-0528: более глубокое мышление, более сильное рассуждение

Авторzddeepseeker 29 мая 2025 г.29 мая 2025 г.

Модель DeepSeek R1 подверглась незначительному обновлению версии, текущая версия — DeepSeek-R1-0528. Когда вы входите на веб-страницу или в приложение DeepSeek, включите функцию «Глубокое мышление» в диалоговом интерфейсе, чтобы испытать последнюю версию. Веса модели DeepSeek-R1-0528 были загружены на HuggingFace За последние четыре месяца DeepSeek-R1 подверглась…

Без категории

Срочные новости! Исследователь DeepSeek сообщает в сети: обучение R1 заняло всего две-три недели, а мощная эволюция нуля R1 наблюдалась во время китайского Нового года

Авторzddeepseeker 4 февраля 2025 г.4 февраля 2025 г.

Срочные новости! Исследователь DeepSeek раскрывает в сети: обучение R1 заняло всего две-три недели, а мощная эволюция нуля R1 наблюдалась во время китайского Нового года Только что мы заметили, что исследователь DeepSeek Дайя Го ответил на вопросы пользователей сети о DeepSeek R1 и планах компании на будущее. Мы можем только сказать…

Без категории

Он близок к DeepSeek-R1-32B и превосходит s1 Фэй-Фэй Ли! Калифорнийский университет в Беркли и другие новые модели вывода SOTA с открытым исходным кодом

Авторzddeepseeker 14 февраля 2025 г.14 февраля 2025 г.

Модель вывода 32B использует только 1/8 данных и связана с DeepSeek-R1 того же размера! Только что такие учреждения, как Стэнфорд, Калифорнийский университет в Беркли и Вашингтонский университет совместно выпустили модель вывода уровня SOTA, OpenThinker-32B, а также открыли исходный код до 114 тыс. обучающих данных. Домашняя страница проекта OpenThinker: OpenThinker Hugging Face:…

Без категории

Paper-DeepSeek-R1: Стимулирование способности к рассуждению в LLM с помощью обучения с подкреплением

Авторdeepseeker 29 января 2025 г.29 января 2025 г.

Аннотация В данной статье представлены модели рассуждений DeepSeek первого поколения: DeepSeek-R1-Zero и DeepSeek-R1. DeepSeek-R1-Zero, обученная с помощью крупномасштабного обучения с подкреплением (RL) без контролируемой тонкой настройки (SFT), демонстрирует замечательные способности к рассуждениям. Благодаря RL он естественным образом развивает мощное поведение рассуждения. Однако он сталкивается с такими проблемами, как плохая читаемость и смешение языков. Чтобы решить эти проблемы и повысить эффективность рассуждений, был разработан DeepSeek-R1,...

Похожие записи

Добавить комментарий Отменить ответ