DeepSeek ने अपना स्रोत कोड, FlashMLA का विस्तृत विवरण जारी किया है

पिछले सप्ताह, DeepSeek ने घोषणा की कि वह अगले सप्ताह पांच परियोजनाओं को ओपन सोर्स करेगा:

नेटिज़ेंस ने कहा, "इस बार, ओपनएआई वास्तव में यहाँ है।"

अभी-अभी, अनुमान त्वरण से संबंधित पहला ओपन सोर्स प्रोजेक्ट आया, FlashMLA:

ओपन सोर्स परियोजना का पता:

DeepSeek फ्लैशएमएलए

इसे ओपन सोर्स हुए दो घंटे हो चुके हैं, और गिटहब पर पहले से ही 2.7k+ स्टार हैं:

परियोजना का मुख्य कार्य है:

"फ़्लैशएमएलए हॉपर जीपीयू के लिए एक कुशल एमएलए डिकोडिंग कर्नेल है, जो परिवर्तनीय-लंबाई अनुक्रम सेवा के लिए अनुकूलित है।"

अनूदित रूप में, यह है:

"फ्लैशएमएलए एक कुशल एमएलए डिकोडिंग कर्नेल है जो एनवीआईडीआईए हॉपर आर्किटेक्चर जीपीयू के लिए अनुकूलित है, विशेष रूप से सेवा परिदृश्यों के लिए अनुकूलित है जो परिवर्तनीय-लंबाई अनुक्रमों को संसाधित करते हैं।"

संक्षेप में:

फ्लैशएमएलए डीपइन्फरेंस द्वारा हॉपर-आर्किटेक्चर जीपीयू (जैसे कि H800) के लिए डिज़ाइन किया गया एक कुशल डिकोडिंग कोर है। वेरिएबल-लेंथ सीक्वेंस के मल्टी-हेड पोटेंशियल अटेंशन कैलकुलेशन को ऑप्टिमाइज़ करके, यह डिकोडिंग स्टेज में 3000GB/s मेमोरी बैंडविड्थ और 580TFLOPS कंप्यूटिंग पावर का अंतिम प्रदर्शन प्राप्त करता है, जो बड़े मॉडल के लिए लंबे संदर्भों के साथ रीजनिंग की दक्षता में काफी सुधार करता है।

कुछ नेटिज़न्स ने कहा:

कुछ लोग पहले से ही इसका उपयोग कर रहे हैं, और वे कहते हैं कि यह शुद्ध इंजीनियरिंग है:

यह परियोजना इंजीनियरिंग अनुकूलन से संबंधित है हार्डवेयर प्रदर्शन को कम करता है सीमा.

यह परियोजना उपयोग के लिए तैयार है।

पर्यावरण आवश्यकताएँ:

हॉपर जीपीयू
CUDA 12.3 और ऊपर
PyTorch 2.0 और ऊपर

परियोजना के अंत में, अधिकारी ने यह भी कहा कि यह फ्लैशअटेंशन 2&3 और NVIDIA CUTLASS परियोजनाओं से प्रेरित है।

फ्लैशअटेंशन तेज़ और मेमोरी-कुशल सटीक ध्यान प्राप्त करने में सक्षम है, और इसका उपयोग मुख्यधारा के बड़े मॉडलों में किया जाता है। नवीनतम तीसरी पीढ़ी का संस्करण H100 की उपयोगिता दर को 75% तक बढ़ा सकता है।

प्रशिक्षण की गति 1.5-2 गुना बढ़ जाती है, और FP16 के तहत कम्प्यूटेशनल थ्रूपुट 740 TFLOPs/s जितना अधिक होता है, जो सैद्धांतिक अधिकतम थ्रूपुट के 75% तक पहुंच जाता है और कंप्यूटिंग संसाधनों का पूर्ण उपयोग होता है, जो पहले केवल 35% था।

फ्लैशएमएलए यह न केवल हार्डवेयर-स्तरीय अनुकूलन के माध्यम से प्रदर्शन में उछाल प्राप्त करता है, बल्कि एआई अनुमान में इंजीनियरिंग प्रथाओं के लिए एक आउट-ऑफ-द-बॉक्स समाधान भी प्रदान करता है, जो बड़े मॉडलों के अनुमान को गति देने में एक महत्वपूर्ण तकनीकी सफलता बन जाता है।

पहले दिन ही बहुत बड़ा खुलासा हुआ।

मैं अगले चार दिनों में ओपन सोर्स सामग्री का इंतजार कर रहा हूं!

जैसा कि नेटिजन ने कहा:

व्हेल लहरें बना रही है!

DeepSeek अद्भुत है!

अवर्गीकृत

Qwen2.5-max बनाम DeepSeek R1: मॉडलों की गहन तुलना: अनुप्रयोग परिदृश्यों का पूर्ण विश्लेषण

द्वाराzddeepseeker फ़रवरी 14, 2025फ़रवरी 14, 2025

परिचय आज, बड़े भाषा मॉडल (LLM) एक महत्वपूर्ण भूमिका निभाते हैं। 2025 की शुरुआत में, जैसे-जैसे AI के लिए प्रतिस्पर्धा तेज होती गई, अलीबाबा ने नया Qwen2.5-max AI मॉडल लॉन्च किया, और हांग्जो, चीन की एक कंपनी DeepSeek ने R1 मॉडल लॉन्च किया, जो LLM तकनीक के शिखर का प्रतिनिधित्व करता है। डीपसीक R1 एक ओपन सोर्स AI मॉडल है जिसने…

अवर्गीकृत

दुनिया के मुख्यधारा के AI उत्पाद विश्लेषण और व्यापक उपयोगकर्ता अनुभव दिशानिर्देशों (DeepSeek और GPT सहित) पर ध्यान केंद्रित करते हैं

द्वाराzddeepseeker फरवरी 10, 2025फरवरी 10, 2025

फ़ंक्शन पोजिशनिंग और कोर एडवांटेज एनालिसिस ChatGPT (OpenAI) - ऑल-राउंडर्स के लिए वैश्विक बेंचमार्क ChatGPT तकनीकी जीन: बड़े मॉडल की GPT श्रृंखला पर आधारित जनरेटिव AI, इसके मुख्य लाभ के रूप में सामान्य संवादात्मक कौशल और तार्किक तर्क के साथ। बहुभाषी प्रसंस्करण: अंग्रेजी में सबसे अच्छा प्रदर्शन करता है, चीनी में निरंतर सुधार के साथ; लेकिन हम अंग्रेजी का उपयोग करने की सलाह देते हैं…

अवर्गीकृत

पेपर-DeepSeek-R1: सुदृढीकरण सीखने के माध्यम से एलएलएम में तर्क क्षमता को प्रोत्साहित करना

द्वारा1TP7टेर 29 जनवरी, 202529 जनवरी, 2025

सार यह पेपर DeepSeek के प्रथम पीढ़ी के तर्क मॉडल प्रस्तुत करता है: DeepSeek-R1-Zero और DeepSeek-R1। DeepSeek-R1-Zero, बिना पर्यवेक्षित फ़ाइन-ट्यूनिंग (SFT) के बड़े पैमाने पर सुदृढीकरण सीखने (RL) के माध्यम से प्रशिक्षित, उल्लेखनीय तर्क क्षमताओं को प्रदर्शित करता है। RL के माध्यम से, यह स्वाभाविक रूप से शक्तिशाली तर्क व्यवहार विकसित करता है। हालाँकि, यह खराब पठनीयता और भाषा मिश्रण जैसी चुनौतियों का सामना करता है। इन मुद्दों को संबोधित करने और तर्क प्रदर्शन को बढ़ाने के लिए, DeepSeek-R1 विकसित किया गया था,…

अवर्गीकृत

DeepSeek-R1-0528 अद्यतन: गहन सोच, मजबूत तर्क

द्वाराzddeepseeker 29 मई, 202529 मई, 2025

DeepSeek R1 मॉडल में मामूली संस्करण अपग्रेड किया गया है, वर्तमान संस्करण DeepSeek-R1-0528 है। जब आप DeepSeek वेबपेज या ऐप में प्रवेश करते हैं, तो नवीनतम संस्करण का अनुभव करने के लिए डायलॉग इंटरफ़ेस में "डीप थिंकिंग" सुविधा को सक्षम करें। DeepSeek-R1-0528 मॉडल के वज़न को HuggingFace पर अपलोड किया गया है पिछले चार महीनों में, DeepSeek-R1 में कई बदलाव हुए हैं…

अवर्गीकृत

DeepSeek ने कर दिखाया! OpenAI ने क्लोज्ड सोर्स की गलती स्वीकार की, अब लीडिंग एज का लाभ कम हुआ

द्वाराzddeepseeker फरवरी 2, 2025फरवरी 2, 2025

ओपनएआई द्वारा ओ3-मिनी मॉडल जारी किए जाने के बाद, इसके सीईओ सैम ऑल्टमैन, मुख्य अनुसंधान अधिकारी मार्क चेन, मुख्य उत्पाद अधिकारी केविन वील; इंजीनियरिंग के उपाध्यक्ष श्रीनिवास नारायणन, एपीआई अनुसंधान प्रमुख मिशेल पोक्रास और अनुसंधान प्रमुख होंगयु रेन ने दुनिया के सबसे बड़े व्यापक मंचों में से एक रेडिट पर एक ऑनलाइन तकनीकी प्रश्नोत्तर सत्र आयोजित किया। मुख्य विषय…

अवर्गीकृत

DeepSeek जैसे बड़े भाषा मॉडल प्रबंधन कलाकृतियाँ: चेरी स्टूडियो, चैटबॉक्स, एनीथिंगएलएलएम, आपका दक्षता त्वरक कौन है?

द्वाराzddeepseeker फ़रवरी 11, 2025फ़रवरी 11, 2025

बहुत से लोगों ने पहले ही डीपसीक लार्ज लैंग्वेज मॉडल को स्थानीय स्तर पर तैनात और उपयोग करना शुरू कर दिया है, चैटबॉक्स को विज़ुअलाइज़ेशन टूल के रूप में उपयोग कर रहे हैं। यह लेख दो अन्य AI लार्ज लैंग्वेज मॉडल प्रबंधन और विज़ुअलाइज़ेशन कलाकृतियों को पेश करना जारी रखेगा, और AI लार्ज लैंग्वेज मॉडल को अधिक कुशलता से उपयोग करने में आपकी मदद करने के लिए तीनों की विस्तार से तुलना करेगा। 2025 में,…

इसी तरह की पोस्ट

प्रातिक्रिया दे जवाब रद्द करें