ब्लग

  • DeepSeek ले आफ्नो स्रोत कोड, FlashMLA को विस्तृत व्याख्या जारी गरेको छ।
    गत हप्ता, DeepSeek ले अर्को हप्ता पाँचवटा परियोजनाहरू ओपन सोर्स गर्ने घोषणा गर्‍यो: नेटिजनहरूले भने, "यस पटक, OpenAI साँच्चै यहाँ छ।" भर्खरै, पहिलो खुला स्रोत परियोजना आयो, अनुमान त्वरणसँग सम्बन्धित, FlashMLA: खुला स्रोत परियोजना ठेगाना: DeepSeek FlashMLA यो दुई घण्टादेखि खुला स्रोत भएको छ, र Github मा पहिले नै 2.7k+ ताराहरू छन्: द…
  • FlashMLA भनेको के हो? AI डिकोडिङ कर्नेलहरूमा यसको प्रभावको लागि एक विस्तृत गाइड
    FlashMLA ले कृत्रिम बुद्धिमत्ताको संसारमा, विशेष गरी ठूला भाषा मोडेलहरू (LLMs) को क्षेत्रमा द्रुत रूपमा ध्यान आकर्षित गरेको छ। DeepSeek द्वारा विकसित यो नवीन उपकरणले Hopper GPU हरूको लागि डिजाइन गरिएको एक अनुकूलित डिकोडिङ कर्नेलको रूपमा काम गर्दछ - उच्च-प्रदर्शन चिपहरू जुन सामान्यतया AI गणनाहरूमा प्रयोग गरिन्छ। FlashMLA ले चर-लम्बाइ अनुक्रमहरूको कुशल प्रशोधनमा केन्द्रित छ, यसलाई विशेष रूपमा राम्रोसँग उपयुक्त बनाउँछ...
  • Qwen2.5-max vs DeepSeek R1: मोडेलहरूको गहिरो तुलना: अनुप्रयोग परिदृश्यहरूको पूर्ण विश्लेषण
    परिचय आज, ठूला भाषा मोडेलहरू (LLMs) ले महत्त्वपूर्ण भूमिका खेल्छन्। २०२५ को सुरुमा, AI को लागि प्रतिस्पर्धा तीव्र हुँदै जाँदा, Alibaba ले नयाँ Qwen2.5-max AI मोडेल लन्च गर्‍यो, र चीनको हांग्जोको कम्पनी DeepSeek ले R1 मोडेल लन्च गर्‍यो, जसले LLM प्रविधिको शिखर प्रतिनिधित्व गर्दछ। Deepseek R1 एक खुला स्रोत AI मोडेल हो जसले आकर्षित गरेको छ...
  • यो DeepSeek-R1-32B को नजिक छ र Fei-Fei Li को s1 लाई क्रस गर्छ! UC बर्कले र अन्य खुला स्रोत नयाँ SOTA अनुमान मोडेलहरू
    ३२B अनुमान मोडेलले डेटाको १/८ भाग मात्र प्रयोग गर्दछ र उही आकारको १TP8T-R1 सँग बाँधिएको छ! भर्खरै, स्ट्यानफोर्ड, UC बर्कले, र वाशिंगटन विश्वविद्यालय जस्ता संस्थाहरूले संयुक्त रूपमा SOTA-स्तरको अनुमान मोडेल, OpenThinker-32B जारी गरेका छन्, र ११४k सम्मको प्रशिक्षण डेटा पनि खुला स्रोतमा राखेका छन्। OpenThinker परियोजना गृहपृष्ठ: OpenThinker Hugging Face:…

आज आफ्नो नि: शुल्क खाता सिर्जना गर्नुहोस्!