पिछले सप्ताह, DeepSeek ने घोषणा की कि वह अगले सप्ताह पांच परियोजनाओं को ओपन सोर्स करेगा: नेटिज़ेंस ने कहा, "इस बार, OpenAI वास्तव में यहाँ है।" अभी, पहला ओपन सोर्स प्रोजेक्ट आया, जो अनुमान त्वरण से संबंधित है, FlashMLA: ओपन सोर्स प्रोजेक्ट का पता: DeepSeek FlashMLA यह दो घंटे के लिए ओपन सोर्स रहा है, और Github पर पहले से ही 2.7k+ स्टार हैं:…
फ्लैशएमएलए ने कृत्रिम बुद्धिमत्ता की दुनिया में, विशेष रूप से बड़े भाषा मॉडल (एलएलएम) के क्षेत्र में तेजी से ध्यान आकर्षित किया है। DeepSeek द्वारा विकसित यह अभिनव उपकरण हॉपर जीपीयू के लिए डिज़ाइन किए गए एक अनुकूलित डिकोडिंग कर्नेल के रूप में कार्य करता है - उच्च प्रदर्शन वाले चिप्स जो आमतौर पर एआई कंप्यूटेशन में उपयोग किए जाते हैं। फ्लैशएमएलए चर-लंबाई अनुक्रमों की कुशल प्रसंस्करण पर ध्यान केंद्रित करता है, जो इसे विशेष रूप से उपयुक्त बनाता है…
परिचय आज, बड़े भाषा मॉडल (LLM) एक महत्वपूर्ण भूमिका निभाते हैं। 2025 की शुरुआत में, जैसे-जैसे AI के लिए प्रतिस्पर्धा तेज होती गई, अलीबाबा ने नया Qwen2.5-max AI मॉडल लॉन्च किया, और हांग्जो, चीन की एक कंपनी DeepSeek ने R1 मॉडल लॉन्च किया, जो LLM तकनीक के शिखर का प्रतिनिधित्व करता है। डीपसीक R1 एक ओपन सोर्स AI मॉडल है जिसने…
32B अनुमान मॉडल केवल 1/8 डेटा का उपयोग करता है और समान आकार के DeepSeek-R1 के साथ जुड़ा हुआ है! अभी हाल ही में, स्टैनफोर्ड, यूसी बर्कले और वाशिंगटन विश्वविद्यालय जैसे संस्थानों ने संयुक्त रूप से एक SOTA-स्तरीय अनुमान मॉडल, ओपनथिंकर-32B जारी किया है, और 114k तक के प्रशिक्षण डेटा को भी ओपन-सोर्स किया है। ओपनथिंकर प्रोजेक्ट होमपेज: ओपनथिंकर हगिंग फेस:…