पिछले सप्ताह, DeepSeek ने घोषणा की कि वह अगले सप्ताह पांच परियोजनाओं को ओपन सोर्स करेगा:

नेटिज़ेंस ने कहा, "इस बार, ओपनएआई वास्तव में यहाँ है।"
अभी-अभी, अनुमान त्वरण से संबंधित पहला ओपन सोर्स प्रोजेक्ट आया, FlashMLA:

ओपन सोर्स परियोजना का पता:
इसे ओपन सोर्स हुए दो घंटे हो चुके हैं, और गिटहब पर पहले से ही 2.7k+ स्टार हैं:

परियोजना का मुख्य कार्य है:
"फ़्लैशएमएलए हॉपर जीपीयू के लिए एक कुशल एमएलए डिकोडिंग कर्नेल है, जो परिवर्तनीय-लंबाई अनुक्रम सेवा के लिए अनुकूलित है।"
अनूदित रूप में, यह है:
"फ्लैशएमएलए एक कुशल एमएलए डिकोडिंग कर्नेल है जो एनवीआईडीआईए हॉपर आर्किटेक्चर जीपीयू के लिए अनुकूलित है, विशेष रूप से सेवा परिदृश्यों के लिए अनुकूलित है जो परिवर्तनीय-लंबाई अनुक्रमों को संसाधित करते हैं।"
संक्षेप में:
फ्लैशएमएलए डीपइन्फरेंस द्वारा हॉपर-आर्किटेक्चर जीपीयू (जैसे कि H800) के लिए डिज़ाइन किया गया एक कुशल डिकोडिंग कोर है। वेरिएबल-लेंथ सीक्वेंस के मल्टी-हेड पोटेंशियल अटेंशन कैलकुलेशन को ऑप्टिमाइज़ करके, यह डिकोडिंग स्टेज में 3000GB/s मेमोरी बैंडविड्थ और 580TFLOPS कंप्यूटिंग पावर का अंतिम प्रदर्शन प्राप्त करता है, जो बड़े मॉडल के लिए लंबे संदर्भों के साथ रीजनिंग की दक्षता में काफी सुधार करता है।
कुछ नेटिज़न्स ने कहा:

कुछ लोग पहले से ही इसका उपयोग कर रहे हैं, और वे कहते हैं कि यह शुद्ध इंजीनियरिंग है:

यह परियोजना इंजीनियरिंग अनुकूलन से संबंधित है हार्डवेयर प्रदर्शन को कम करता है सीमा.
यह परियोजना उपयोग के लिए तैयार है।

पर्यावरण आवश्यकताएँ:
- हॉपर जीपीयू
- CUDA 12.3 और ऊपर
- PyTorch 2.0 और ऊपर
परियोजना के अंत में, अधिकारी ने यह भी कहा कि यह फ्लैशअटेंशन 2&3 और NVIDIA CUTLASS परियोजनाओं से प्रेरित है।

फ्लैशअटेंशन तेज़ और मेमोरी-कुशल सटीक ध्यान प्राप्त करने में सक्षम है, और इसका उपयोग मुख्यधारा के बड़े मॉडलों में किया जाता है। नवीनतम तीसरी पीढ़ी का संस्करण H100 की उपयोगिता दर को 75% तक बढ़ा सकता है।
प्रशिक्षण की गति 1.5-2 गुना बढ़ जाती है, और FP16 के तहत कम्प्यूटेशनल थ्रूपुट 740 TFLOPs/s जितना अधिक होता है, जो सैद्धांतिक अधिकतम थ्रूपुट के 75% तक पहुंच जाता है और कंप्यूटिंग संसाधनों का पूर्ण उपयोग होता है, जो पहले केवल 35% था।
फ्लैशएमएलए यह न केवल हार्डवेयर-स्तरीय अनुकूलन के माध्यम से प्रदर्शन में उछाल प्राप्त करता है, बल्कि एआई अनुमान में इंजीनियरिंग प्रथाओं के लिए एक आउट-ऑफ-द-बॉक्स समाधान भी प्रदान करता है, जो बड़े मॉडलों के अनुमान को गति देने में एक महत्वपूर्ण तकनीकी सफलता बन जाता है।
पहले दिन ही बहुत बड़ा खुलासा हुआ।
मैं अगले चार दिनों में ओपन सोर्स सामग्री का इंतजार कर रहा हूं!
जैसा कि नेटिजन ने कहा:

व्हेल लहरें बना रही है!
DeepSeek अद्भुत है!