Verlede week het DeepSeek aangekondig dat hy volgende week vyf projekte sal oopmaak: Netizens het gesê: "Hierdie keer is OpenAI regtig hier." Netnou het die eerste oopbronprojek gekom, wat verband hou met afleidingversnelling, FlashMLA: Oopbronprojekadres: DeepSeek FlashMLA Dit is al twee uur lank oopbron, en Github het reeds 2.7k+ sterre: Die ...
FlashMLA het vinnig aandag gekry in die wêreld van kunsmatige intelligensie, veral op die gebied van groot taalmodelle (LLM's). Hierdie innoverende instrument, ontwikkel deur DeepSeek, dien as 'n geoptimaliseerde dekoderingskern wat ontwerp is vir Hopper GPU's - hoëprestasieskyfies wat algemeen in AI-berekeninge gebruik word. FlashMLA fokus op die doeltreffende verwerking van reekse van veranderlike lengte, wat dit besonder goed geskik maak ...
Inleiding Vandag speel groot taalmodelle (LLM'e) 'n deurslaggewende rol. Vroeg in 2025, soos die kompetisie vir KI verskerp het, het Alibaba die nuwe Qwen2.5-max KI-model bekendgestel, en DeepSeek, 'n maatskappy van Hangzhou, China, het die R1-model bekendgestel, wat die toppunt van LLM-tegnologie verteenwoordig. Deepseek R1 is 'n oopbron KI-model wat ...
Die 32B-afleidingsmodel gebruik slegs 1/8 van die data en is gekoppel aan DeepSeek-R1 van dieselfde grootte! Sopas het instansies soos Stanford, UC Berkeley en die Universiteit van Washington gesamentlik 'n SOTA-vlak afleidingsmodel, OpenThinker-32B, vrygestel en het ook tot 114k opleidingsdata oopbron verkry. OpenThinker Project-tuisblad: OpenThinker Hugging Face:...