गत हप्ता, DeepSeek ले अर्को हप्ता पाँचवटा परियोजनाहरू ओपन सोर्स गर्ने घोषणा गर्‍यो:

नेटिजनहरूले भने, "यस पटक, ओपनएआई साँच्चै यहाँ छ।"

भर्खरै, पहिलो खुला स्रोत परियोजना आयो, अनुमान त्वरणसँग सम्बन्धित, FlashMLA:

खुला स्रोत परियोजना ठेगाना:

१TP8T फ्ल्यासएमएलए

यो दुई घण्टादेखि खुला स्रोतमा छ, र Github मा पहिले नै २.७k+ ताराहरू छन्:

परियोजनाको मुख्य कार्य यस प्रकार छ:

"FlashMLA Hopper GPU हरूको लागि एक कुशल MLA डिकोडिङ कर्नेल हो, जुन चर-लम्बाइ अनुक्रमहरू सेवाको लागि अनुकूलित छ।"

अनुवाद गरिएको, यो हो:

"FlashMLA NVIDIA Hopper आर्किटेक्चर GPU हरूको लागि अनुकूलित एक कुशल MLA डिकोडिङ कर्नेल हो, विशेष गरी चर-लम्बाइ अनुक्रमहरू प्रशोधन गर्ने सेवा परिदृश्यहरूको लागि अनुकूलित।"

छोटकरीमा:

FlashMLA एक कुशल डिकोडिङ कोर हो जुन DeepInference द्वारा Hopper-architecture GPU हरू (जस्तै H800) को लागि डिजाइन गरिएको हो। चर-लम्बाइ अनुक्रमहरूको बहु-हेड सम्भाव्य ध्यान गणनालाई अनुकूलन गरेर, यसले डिकोडिङ चरणमा 3000GB/s मेमोरी ब्यान्डविथ र 580TFLOPS कम्प्युटिङ पावरको अन्तिम प्रदर्शन प्राप्त गर्दछ, ठूला मोडेलहरूको लागि लामो सन्दर्भहरूसँग तर्कको दक्षतामा उल्लेखनीय सुधार गर्दछ।

केही नेटिजेनहरूले भने:

केही मानिसहरू पहिले नै यसलाई प्रयोग गरिरहेका छन्, र तिनीहरू भन्छन् शुद्ध इन्जिनियरिङ:

यो परियोजना इन्जिनियरिङ अप्टिमाइजेसनसँग सम्बन्धित छ र हार्डवेयर कार्यसम्पादनलाई निचोड्छ सीमा।

यो परियोजना प्रयोगको लागि तयार छ।

वातावरणीय आवश्यकताहरू:

  • हपर GPU
  • CUDA १२.३ र माथिको
  • पाइटोर्च २.० र माथिको

परियोजनाको अन्त्यमा, अधिकारीले यो पनि भने कि यो FlashAttention 2&3 र NVIDIA CUTLASS परियोजनाहरूबाट प्रेरित थियो।

FlashAttention छिटो र मेमोरी-कुशल सटीक ध्यान प्राप्त गर्न सक्षम छ, र मुख्यधारा ठूला मोडेलहरूमा प्रयोग गरिन्छ। पछिल्लो तेस्रो-पुस्ताको संस्करणले H100 को उपयोग दरलाई 75% मा बढाउन सक्छ।

तालिमको गति १.५-२ गुणाले बढाइएको छ, र FP16 अन्तर्गत कम्प्युटेशनल थ्रुपुट ७४० TFLOPs/s सम्म उच्च छ, सैद्धान्तिक अधिकतम थ्रुपुटको ७५१TP11T पुग्छ र कम्प्युटिङ स्रोतहरूको पूर्ण उपयोग गर्दछ, जुन पहिले केवल ३५१TP11T थियो।

फ्ल्यासएमएलए हार्डवेयर-स्तर अप्टिमाइजेसन मार्फत कार्यसम्पादनमा फड्को मार्ने मात्र होइन, तर एआई इन्फरेन्समा इन्जिनियरिङ अभ्यासहरूको लागि आउट-अफ-बक्स समाधान पनि प्रदान गर्दछ, ठूला मोडेलहरूको इन्फरेन्सलाई गति दिनमा एक प्रमुख प्राविधिक सफलता बन्न पुग्छ।

पहिलो दिनमै यति ठूलो खुलासा भयो।

म आगामी चार दिनमा खुला स्रोत सामग्रीहरूको प्रतीक्षामा छु!

जसरी नेटिजेनले भने:

ह्वेलले छालहरू निकाल्दैछ!

DeepSeek गजब छ!

समान पोस्टहरू

जवाफ लेख्नुहोस्

तपाईँको इमेल ठेगाना प्रकाशित गरिने छैन। अनिवार्य फिल्डहरूमा * चिन्ह लगाइएको छ