Múlt héten az DeepSeek bejelentette, hogy a jövő héten öt projektet nyit meg a forráskóddal: A Netizens azt mondta: „Ezúttal valóban itt van az OpenAI.” Most érkezett meg az első nyílt forráskódú projekt, a következtetések gyorsításával kapcsolatban, FlashMLA: Nyílt forráskódú projekt címe: DeepSeek FlashMLA Két órája nyílt forráskódú, és a Githubnak már több mint 2,7 ezer csillaga van: A…
A FlashMLA gyorsan felkeltette a figyelmet a mesterséges intelligencia világában, különösen a nagy nyelvi modellek (LLM) területén. Ez az innovatív eszköz, amelyet az DeepSeek fejlesztett ki, optimalizált dekódoló kernelként szolgál, amelyet Hopper GPU-khoz – az AI-számításoknál általánosan használt nagy teljesítményű chipekhez – terveztek. A FlashMLA a változó hosszúságú sorozatok hatékony feldolgozására összpontosít, így különösen jól használható…
Bevezetés Manapság a nagy nyelvi modellek (LLM-ek) döntő szerepet játszanak. 2025 elején, ahogy a mesterséges intelligenciaért folytatott verseny fokozódott, az Alibaba piacra dobta az új Qwen2.5-max AI modellt, a kínai Hangzhou-i DeepSeek pedig az R1 modellt, amely az LLM technológia csúcsát képviseli. A Deepseek R1 egy nyílt forráskódú AI-modell, amely vonzotta…
A 32B következtetési modell csak az adatok 1/8-át használja fel, és az azonos méretű DeepSeek-R1-hez kötődik! Az imént olyan intézmények, mint a Stanford, a UC Berkeley és a Washingtoni Egyetem közösen kiadtak egy SOTA-szintű következtetési modellt, az OpenThinker-32B-t, és nyílt forráskódú akár 114 000 képzési adatokat is. OpenThinker Project honlapja: OpenThinker Hugging Face:…