Förra veckan meddelade DeepSeek att de skulle öppna källkod för fem projekt nästa vecka: Netizens sa: "Den här gången är OpenAI verkligen här." Just nu kom det första open source-projektet, relaterat till inferensacceleration, FlashMLA: Open source-projektadress: DeepSeek FlashMLA Det har varit öppen källkod i två timmar, och Github har redan 2,7k+ stjärnor: The...
FlashMLA har snabbt fått uppmärksamhet i världen av artificiell intelligens, särskilt inom området för stora språkmodeller (LLM). Detta innovativa verktyg, utvecklat av DeepSeek, fungerar som en optimerad avkodningskärna designad för Hopper GPU:er – högpresterande chips som vanligtvis används i AI-beräkningar. FlashMLA fokuserar på effektiv bearbetning av sekvenser med variabel längd, vilket gör den särskilt väl lämpad...
Inledning Idag spelar stora språkmodeller (LLM) en avgörande roll. I början av 2025, när konkurrensen om AI intensifierades, lanserade Alibaba den nya Qwen2.5-max AI-modellen, och DeepSeek, ett företag från Hangzhou, Kina, lanserade R1-modellen, som representerar toppen av LLM-teknologin. Deepseek R1 är en AI-modell med öppen källkod som har lockat...
32B inferensmodellen använder bara 1/8 av data och är knuten till DeepSeek-R1 av samma storlek! Just nu har institutioner som Stanford, UC Berkeley och University of Washington tillsammans släppt en slutledningsmodell på SOTA-nivå, OpenThinker-32B, och har även öppnat upp till 114 000 träningsdata med öppen källkod. OpenThinker Projects hemsida: OpenThinker Hugging Face:...