Praėjusią savaitę DeepSeek paskelbė, kad kitą savaitę atidarys penkis projektus: internautai sakė: „Šį kartą OpenAI tikrai čia“. Ką tik pasirodė pirmasis atvirojo kodo projektas, susijęs su išvadų pagreitinimu, FlashMLA: Atvirojo kodo projekto adresas: DeepSeek FlashMLA Jis buvo atviro kodo dvi valandas, o „Github“ jau turi 2,7 tūkst.+ žvaigždučių:…
FlashMLA greitai sulaukė dėmesio dirbtinio intelekto pasaulyje, ypač didelių kalbų modelių (LLM) srityje. Šis naujoviškas įrankis, sukurtas DeepSeek, yra optimizuotas dekodavimo branduolys, sukurtas Hopper GPU – didelio našumo lustams, dažniausiai naudojamiems AI skaičiavimuose. „FlashMLA“ daugiausia dėmesio skiria efektyviam kintamo ilgio sekų apdorojimui, todėl ji ypač tinka…
Įvadas Šiandien didžiųjų kalbų modeliai (LLM) atlieka labai svarbų vaidmenį. 2025 m. pradžioje, suintensyvėjus konkurencijai dėl dirbtinio intelekto, Alibaba pristatė naują Qwen2.5-max AI modelį, o Hangdžou (Kinija) bendrovė DeepSeek pristatė R1 modelį, kuris yra LLM technologijos viršūnė. Deepseek R1 yra atvirojo kodo AI modelis, kuris pritraukė…
32B išvados modelis naudoja tik 1/8 duomenų ir yra susietas su tokio paties dydžio DeepSeek-R1! Kaip tik dabar tokios institucijos kaip Stanfordas, UC Berkeley ir Vašingtono universitetas kartu išleido SOTA lygio išvadų modelį „OpenThinker-32B“ ir taip pat sukūrė iki 114 000 mokymo duomenų atviro kodo. „OpenThinker Project“ pagrindinis puslapis: „OpenThinker Hugging Face“:…