Миналата седмица DeepSeek обяви, че ще отвори пет проекта през следващата седмица: Нетизени казаха: „Този път OpenAI наистина е тук.“ Току-що дойде първият проект с отворен код, свързан с ускоряване на извода, FlashMLA: Адрес на проекта с отворен код: DeepSeek FlashMLA Той е с отворен код от два часа и Github вече има 2,7k+ звезди: The...
FlashMLA бързо привлече вниманието в света на изкуствения интелект, особено в областта на големите езикови модели (LLM). Този иновативен инструмент, разработен от DeepSeek, служи като оптимизирано ядро за декодиране, предназначено за графични процесори Hopper – чипове с висока производителност, често използвани в изчисленията с изкуствен интелект. FlashMLA се фокусира върху ефективната обработка на последователности с променлива дължина, което го прави особено подходящ...
Въведение Днес големите езикови модели (LLM) играят решаваща роля. В началото на 2025 г., когато конкуренцията за AI се засили, Alibaba пусна новия модел Qwen2.5-max AI, а DeepSeek, компания от Ханджоу, Китай, пусна модела R1, който представлява върха на технологията LLM. Deepseek R1 е AI модел с отворен код, който привлече...
Моделът за извод 32B използва само 1/8 от данните и е обвързан с DeepSeek-R1 със същия размер! Току-що институции като Станфорд, Калифорнийския университет в Бъркли и Университета на Вашингтон съвместно пуснаха модел за изводи на ниво SOTA, OpenThinker-32B, и също така отвориха до 114k данни за обучение. Начална страница на OpenThinker Project: OpenThinker Hugging Face:…