I sidste uge annoncerede DeepSeek, at det ville open source fem projekter i næste uge: Netizens sagde: "Denne gang er OpenAI virkelig her." Lige nu kom det første open source-projekt, relateret til inferensacceleration, FlashMLA: Open source-projektadresse: DeepSeek FlashMLA Det har været open source i to timer, og Github har allerede 2,7k+ stjerner: The...
FlashMLA har hurtigt fået opmærksomhed i verden af kunstig intelligens, især inden for store sprogmodeller (LLM'er). Dette innovative værktøj, udviklet af DeepSeek, fungerer som en optimeret afkodningskerne designet til Hopper GPU'er - højtydende chips, der almindeligvis bruges i AI-beregninger. FlashMLA fokuserer på effektiv behandling af sekvenser med variabel længde, hvilket gør det særligt velegnet...
Introduktion I dag spiller store sprogmodeller (LLM'er) en afgørende rolle. I begyndelsen af 2025, da konkurrencen om AI blev intensiveret, lancerede Alibaba den nye Qwen2.5-max AI-model, og DeepSeek, et firma fra Hangzhou, Kina, lancerede R1-modellen, som repræsenterer toppen af LLM-teknologien. Deepseek R1 er en open source AI-model, der har tiltrukket...
32B-inferensmodellen bruger kun 1/8 af dataene og er bundet med DeepSeek-R1 af samme størrelse! Netop nu har institutioner som Stanford, UC Berkeley og University of Washington i fællesskab frigivet en inferensmodel på SOTA-niveau, OpenThinker-32B, og har også open source op til 114.000 træningsdata. OpenThinker Projects hjemmeside: OpenThinker Hugging Face:...