Блог

  • DeepSeek пусна своя изходен код, подробно обяснение на FlashMLA
    Миналата седмица DeepSeek обяви, че ще отвори пет проекта през следващата седмица: Нетизени казаха: „Този път OpenAI наистина е тук.“ Току-що дойде първият проект с отворен код, свързан с ускоряване на извода, FlashMLA: Адрес на проекта с отворен код: DeepSeek FlashMLA Той е с отворен код от два часа и Github вече има 2,7k+ звезди: The...
  • Какво е FlashMLA? Изчерпателно ръководство за неговото въздействие върху AI декодиращите ядра
    FlashMLA бързо привлече вниманието в света на изкуствения интелект, особено в областта на големите езикови модели (LLM). Този иновативен инструмент, разработен от DeepSeek, служи като оптимизирано ядро за декодиране, предназначено за графични процесори Hopper – чипове с висока производителност, често използвани в изчисленията с изкуствен интелект. FlashMLA се фокусира върху ефективната обработка на последователности с променлива дължина, което го прави особено подходящ...
  • Qwen2.5-max срещу DeepSeek R1: Задълбочено сравнение на моделите: пълен анализ на сценариите на приложение
    Въведение Днес големите езикови модели (LLM) играят решаваща роля. В началото на 2025 г., когато конкуренцията за AI се засили, Alibaba пусна новия модел Qwen2.5-max AI, а DeepSeek, компания от Ханджоу, Китай, пусна модела R1, който представлява върха на технологията LLM. Deepseek R1 е AI модел с отворен код, който привлече...
  • Той е близо до DeepSeek-R1-32B и смазва s1 на Fei-Fei Li! UC Berkeley и други нови SOTA модели с отворен код
    Моделът за извод 32B използва само 1/8 от данните и е обвързан с DeepSeek-R1 със същия размер! Току-що институции като Станфорд, Калифорнийския университет в Бъркли и Университета на Вашингтон съвместно пуснаха модел за изводи на ниво SOTA, OpenThinker-32B, и също така отвориха до 114k данни за обучение. Начална страница на OpenThinker Project: OpenThinker Hugging Face:…

Създайте своя безплатен акаунт днес!