На прошлой неделе DeepSeek объявил, что на следующей неделе откроет исходный код пяти проектов: Пользователи сети сказали: «На этот раз OpenAI действительно здесь». Только что появился первый проект с открытым исходным кодом, связанный с ускорением вывода, FlashMLA: Адрес проекта с открытым исходным кодом: DeepSeek FlashMLA Он находится в открытом исходном коде уже два часа, и на Github уже более 2,7 тыс. звезд: The…
FlashMLA быстро привлек внимание в мире искусственного интеллекта, особенно в области больших языковых моделей (LLM). Этот инновационный инструмент, разработанный DeepSeek, служит оптимизированным ядром декодирования, разработанным для Hopper GPU — высокопроизводительных чипов, обычно используемых в вычислениях ИИ. FlashMLA фокусируется на эффективной обработке последовательностей переменной длины, что делает его особенно подходящим…
Введение Сегодня большие языковые модели (LLM) играют решающую роль. В начале 2025 года, когда конкуренция за ИИ усилилась, Alibaba запустила новую модель ИИ Qwen2.5-max, а DeepSeek, компания из Ханчжоу, Китай, запустила модель R1, которая представляет собой вершину технологии LLM. Deepseek R1 — это модель ИИ с открытым исходным кодом, которая привлекла…
Модель вывода 32B использует только 1/8 данных и связана с DeepSeek-R1 того же размера! Только что такие учреждения, как Стэнфорд, Калифорнийский университет в Беркли и Вашингтонский университет совместно выпустили модель вывода уровня SOTA, OpenThinker-32B, а также открыли исходный код до 114 тыс. обучающих данных. Домашняя страница проекта OpenThinker: OpenThinker Hugging Face:…