आज की ताजा खबर! DeepSeek शोधकर्ता ने ऑनलाइन खुलासा किया: R1 प्रशिक्षण में केवल दो से तीन सप्ताह लगे, और चीनी नववर्ष की छुट्टियों के दौरान R1 शून्य का एक शक्तिशाली विकास देखा गया

अभी, हमने देखा कि DeepSeek शोधकर्ता दया गुओ DeepSeek R1 और कंपनी की आगे की योजनाओं के बारे में नेटिज़न्स के सवालों का जवाब दिया। हम केवल इतना कह सकते हैं कि DeepSeek R1 अभी शुरुआत है, और आंतरिक शोध अभी भी तेजी से आगे बढ़ रहा है। DeepSeek शोधकर्ताओं ने चीनी नववर्ष की छुट्टियों के दौरान भी छुट्टी नहीं ली, और वे शोध को आगे बढ़ाने के लिए अथक प्रयास कर रहे हैं। DeepSeek के पास कुछ बड़े कदम आने वाले हैं

बात यह है: 1 फरवरी को, दया गुओ ने एक ट्वीट पोस्ट किया जिसमें उन्होंने उस चीज़ का खुलासा किया जिसने उन्हें चीनी नववर्ष की छुट्टियों के दौरान सबसे अधिक उत्साहित किया: चीनी नववर्ष की छुट्टियों के दौरान उन्हें ... “निरंतर विकास” प्रदर्शन वक्र का आर1-शून्य नमूना, और महसूस कर रहा हूँ शक्तिशाली बल सुदृढीकरण सीखना (आरएल)!

डीपसीक एआई शोधकर्ता दया गुओ ने नेटिज़ेंस से बात की

अब मैं आपको दया गुओ की नेटिज़ेंस के साथ बातचीत को पुन: प्रस्तुत करने में मदद करूंगा:

नेटिजन ए @PseudoProphet: "बड़े शॉट, मैं पूछना चाहता हूँ कि प्रदर्शन में यह निरंतर सुधार कितने समय तक चलेगा। क्या यह अभी भी शुरुआती चरण में है? क्या ऐसा लगता है कि DeepSeek का RL मॉडल अभी शुरू हो रहा है, जैसे भाषा मॉडल में GPT-2? या यह GPT-3.5 की तरह अधिक परिपक्व अवस्था में पहुँच गया है, और एक अड़चन का सामना करने वाला है?"

यह एक बहुत ही तीखा सवाल है, जो सीधे DeepSeek की आरएल तकनीक की क्षमता से संबंधित है! दया गुओ का जवाब भी बहुत ईमानदार है:

दया गुओ: "मुझे लगता है कि हम अभी भी बहुत शुरुआती चरण में हैं, और आरएल के क्षेत्र में अभी भी एक लंबा रास्ता तय करना है। लेकिन मुझे विश्वास है कि हम इस वर्ष महत्वपूर्ण प्रगति देखेंगे।"

मुख्य बिंदुओं पर प्रकाश डालिए! "बहुत जल्दी", “अभी लंबा रास्ता तलाशना है”, “इस वर्ष उल्लेखनीय प्रगति”! ये कीवर्ड जानकारी से भरपूर हैं। इसका मतलब यह है कि DeepSeek का मानना है कि उनके पास अभी भी RL के क्षेत्र में सुधार के लिए बहुत जगह है, और R1 के मौजूदा परिणाम सिर्फ़ हिमशैल की नोक हो सकते हैं, इसलिए भविष्य आशाजनक है!

इसके तुरंत बाद, एक अन्य नेटिजन @kaush_trip (चीकू त्रिपाठी) ने एक अधिक पेशेवर प्रश्न पूछा जो सीधे मॉडल क्षमताओं के मूल में जाता है:

उपयोगकर्ता बी @kaush_trip: “आर1-जीरो के प्रदर्शन के आधार पर, आप कैसे आकलन करते हैं कि मॉडल वास्तव में है या नहीं सामान्यीकरण क्षमता, या क्या यह सिर्फ राज्य परिवर्तन और पुरस्कार याद रखता है?”

यह सवाल बहुत सटीक है! आखिरकार, कई मॉडल बहुत शक्तिशाली लगते हैं, लेकिन वास्तव में वे प्रशिक्षण डेटा से केवल 'रटकर सीख रहे हैं', और वे एक अलग वातावरण में विफल हो जाएंगे। क्या DeepSeek R1 वास्तव में खरोंच तक है?

दया गुओ: "हम सामान्यीकरण क्षमता का मूल्यांकन करने के लिए आरएल प्रॉम्प्ट द्वारा कवर नहीं किए गए डोमेन के लिए एक बेंचमार्क का उपयोग करते हैं। वर्तमान में, ऐसा लगता है कि इसमें सामान्यीकरण क्षमता है।"

वाक्यांश "आरएल प्रॉम्प्ट द्वारा कवर नहीं किए गए क्षेत्र" कुंजी है! इसका मतलब है कि DeepSeek प्रशिक्षण डेटा के साथ मूल्यांकन को "धोखा" नहीं दे रहा है, लेकिन मॉडल द्वारा नए परिदृश्यों के साथ परीक्षण किया गया है कभी नहीं देखा इससे पहले, जो वास्तव में मॉडल के सामान्यीकरण स्तर को प्रतिबिंबित कर सकता है। दया गुओ द्वारा कठोर शब्दावली "लगता है" का उपयोग भी इसे अधिक यथार्थवादी और विश्वसनीय बनाता है

इसके बाद, @teortaxesTex आईडी वाले एक नेटिजन, जो DeepSeek के बहुत बड़े प्रशंसक हैं (उनकी टिप्पणी में “DeepSeek व्हेल चीयरलीडिंग टीम” शब्द भी शामिल थे), ने DeepSeek V3 तकनीकी रिपोर्ट से शुरुआत की और एक सवाल पूछा मॉडल प्रशिक्षण समय:

उपयोगकर्ता C @teortaxesTex: "अगर यह कोई रहस्य नहीं है: इस बार आरएल प्रशिक्षण में कितना समय लगा? ऐसा लगता है कि आपके पास 10 दिसंबर को ही आर1 या कम से कम आर1-शून्य था, क्योंकि वी3 तकनीकी रिपोर्ट में उल्लेख किया गया है कि वी2.5 मॉडल ने आर1 ज्ञान आसवन का उपयोग किया था, और वी2.5-1210 का स्कोर वर्तमान मॉडल के समान ही है। क्या यह उस प्रशिक्षण का ही विस्तार है?"

इस नेटिजन में अवलोकन की अद्भुत शक्ति है! वह तकनीकी रिपोर्ट से बहुत सारे विवरण निकालने में सक्षम था। दया गुओ ने भी धैर्यपूर्वक मॉडल की पुनरावृत्त प्रक्रिया को समझाया:

दया गुओ: "660B के R1-Zero और R1 पैरामीटर V3 के रिलीज़ होने के बाद ही चलने लगे, और प्रशिक्षण में लगभग 2-3 सप्ताह लगे। R1 मॉडल जिसका हमने पहले उल्लेख किया था (जैसे कि V3 तकनीकी रिपोर्ट में) वास्तव में R1-Lite या R1-Lite-Zero है।"

तो बस इतना ही! R1-Zero और R1 जो हम अभी देख रहे हैं, वे "नए और अपग्रेडेड वर्शन" हैं, और पिछली R1-Lite सीरीज मामूली वर्शन हैं। ऐसा लगता है कि DeepSeek ने पर्दे के पीछे चुपचाप कई वर्शन को दोहराया और अपग्रेड किया है

प्रशिक्षण की गति के बारे में, नेटिजन @jiayi_pirate (जियाई पैन) और नेटिजन बी @kaush_trip ने एक "आत्मा पूछताछ" रिले की है:

उपयोगकर्ता D @jiayi_pirate: ”3 सप्ताह में 10,000 आरएल चरण, प्रत्येक ग्रेडिएंट प्रसार (जीआरपीओ) चरण में ~3 मिनट लगते हैं 🤔”

उपयोगकर्ता बी @kaush_trip: "यदि प्रत्येक ग्रेडिएंट प्रोपेगेशन (जीआरपीओ) चरण में ~3 मिनट का समय लगता है, तो यह प्रति घंटे लगभग 5 चरण, प्रति दिन 120 चरण है, जो वास्तव में बहुत धीमी गति है।"

यह वास्तव में एक सावधानीपूर्वक गणना है! नेटिजन की गणना के अनुसार, DeepSeek R1 की प्रशिक्षण गति वास्तव में तेज़ नहीं है। इससे यह भी पता चलता है कि इस तरह के उच्च-प्रदर्शन वाले आरएल मॉडल की प्रशिक्षण लागत और समय निवेश बहुत बड़ा है। "धीमी गति से काम करने से बढ़िया काम होता है" एआई मॉडल प्रशिक्षण का वर्णन करने के लिए एक बहुत ही उपयुक्त तरीका लगता है

अंत में, @davikrehalt (एंडी जियांग) नामक एक नेटिजन ने अधिक अत्याधुनिक अनुप्रयोग परिप्रेक्ष्य से एक प्रश्न पूछा:

उपयोगकर्ता E @davikrehalt: "क्या आपने आर.एल. का उपयोग करके ऐसा करने की कोशिश की है? पर्यावरण का औपचारिक प्रमाण, सिर्फ़ सवालों के जवाब देने के बजाय? यह बहुत बढ़िया होगा अगर एक ओपन-सोर्स मॉडल इस साल IMO (अंतर्राष्ट्रीय गणितीय ओलंपियाड) में स्वर्ण पदक जीत सके! (और अधिक उम्मीदें!)”

औपचारिक प्रमाण! आईएमओ स्वर्ण पदक! यह नेटिजन काफी महत्वाकांक्षी है! हालांकि, गणितीय प्रमाण के कट्टर क्षेत्र में एआई को लागू करना वास्तव में भविष्य की प्रवृत्ति है। दया गुओ का जवाब एक बार फिर आश्चर्यजनक है:

दया गुओ: "हम R1 को लीन जैसे औपचारिक प्रमाण वातावरण में भी लागू करने का प्रयास कर रहे हैं। हमें उम्मीद है कि हम जल्द ही समुदाय के लिए बेहतर मॉडल जारी करेंगे।"

दया गुओ के शब्दों से, ऐसा लगता है कि उन्होंने पहले ही इस क्षेत्र में प्रगति कर ली है, और भविष्य में और भी प्रभावशाली मॉडल जारी किए जा सकते हैं!

समापन का वक्त

दया गुओ के जवाब से तीन प्रमुख संकेत निकाले जा सकते हैं:

तकनीकी स्थिति: आरएल अभी भी अपने प्रारंभिक चरण में है, और प्रदर्शन सुधार अपनी सीमा तक पहुँचने से बहुत दूर हैं;

सत्यापन तर्क: क्रॉस-डोमेन परीक्षण के लिए सामान्यीकरण क्षमता, "स्मृति अटकलों" को खारिज करना

अनुप्रयोग सीमाएँ: भाषा मॉडल से लेकर गणितीय प्रमाण तक, आरएल उच्च-क्रम तर्क की ओर बढ़ रहा है

इसी तरह की पोस्ट

प्रातिक्रिया दे

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *