Wiki iliyopita, DeepSeek ilitangaza kwamba itafungua chanzo cha miradi mitano wiki ijayo: Wanamtandao walisema, "Wakati huu, OpenAI iko hapa kweli." Hivi sasa, mradi wa kwanza wa chanzo huria ulikuja, unaohusiana na kuongeza kasi ya uelekezaji, FlashMLA: Anwani ya mradi wa chanzo wazi: DeepSeek FlashMLA Imekuwa chanzo wazi kwa saa mbili, na Github tayari ina nyota 2.7k+: The...
FlashMLA imepata usikivu haraka katika ulimwengu wa akili bandia, haswa katika uwanja wa miundo mikubwa ya lugha (LLMs). Zana hii bunifu, iliyotengenezwa na DeepSeek, hutumika kama kerneli ya kusimbua iliyoboreshwa iliyoundwa kwa ajili ya Hopper GPUs—chips zenye utendakazi wa hali ya juu zinazotumiwa sana katika hesabu za AI. FlashMLA inaangazia uchakataji mzuri wa mfuatano wa urefu tofauti, na kuifanya iwe ya kufaa sana…
Utangulizi Leo, miundo mikubwa ya lugha (LLMs) ina jukumu muhimu. Mapema 2025, mashindano ya AI yalipozidi, Alibaba ilizindua muundo mpya wa Qwen2.5-max AI, na DeepSeek, kampuni kutoka Hangzhou, Uchina, ilizindua modeli ya R1, ambayo inawakilisha kilele cha teknolojia ya LLM. Deepseek R1 ni mfano wa AI wa chanzo wazi ambao umevutia…
Mtindo wa uelekezaji wa 32B hutumia 1/8 pekee ya data na inaunganishwa na DeepSeek-R1 ya ukubwa sawa! Hivi sasa, taasisi kama vile Stanford, UC Berkeley, na Chuo Kikuu cha Washington kwa pamoja wametoa modeli ya uelekezaji ya kiwango cha SOTA, OpenThinker-32B, na pia wametoa data ya mafunzo ya hadi 114k. Ukurasa wa nyumbani wa Mradi wa OpenThinker: Uso wa Kukumbatia wa OpenThinker:...