ब्रेकिङ न्युज! DeepSeek अनुसन्धानकर्ताले अनलाइन खुलासा गरे: R1 तालिममा दुई देखि तीन हप्ता मात्र लाग्यो, र चिनियाँ नयाँ वर्षको बिदामा R1 शून्यको शक्तिशाली विकास अवलोकन गरिएको थियो।
भर्खरै, हामीले याद गर्यौं कि DeepSeek अनुसन्धानकर्ता दया गुओ DeepSeek R1 र कम्पनीको अगाडि बढ्ने योजनाहरूको बारेमा नेटिजनहरूको प्रश्नहरूको जवाफ दिए। हामी केवल यति भन्न सक्छौं कि DeepSeek R1 सुरुवात मात्र हो, र आन्तरिक अनुसन्धान अझै पनि द्रुत गतिमा अगाडि बढिरहेको छ। DeepSeek अनुसन्धानकर्ताहरूले चिनियाँ नयाँ वर्षको बिदाको समयमा विश्राम पनि लिएनन्, र उनीहरूले अनुसन्धानलाई अगाडि बढाउन अथक प्रयास गरिरहेका छन्। DeepSeek का केही ठूला चालहरू आउँदैछन्।
कुरा यस्तो छ: फेब्रुअरी १ मा, दया गुओले चिनियाँ नयाँ वर्षको बिदामा उनलाई सबैभन्दा उत्साहित बनाउने कुराको खुलासा गर्दै एउटा ट्वीट पोस्ट गरे: ... "निरन्तर वृद्धि" को प्रदर्शन वक्रको R1-शून्य मोडेलर महसुस गर्दै शक्तिशाली शक्ति सुदृढीकरण सिकाइ (RL)!
डिपसिक एआई अनुसन्धानकर्ता दया गुओले नेटिजनहरूसँग कुरा गर्छिन्
अब म तपाईंलाई दया गुओको नेटिजनहरूसँगको कुराकानी पुन: उत्पादन गर्न मद्दत गर्नेछु:
नेटिजेन ए @SseudoProphet: "ठूलो कुरा, म सोध्न चाहन्छु कि प्रदर्शनमा यो निरन्तर सुधार कति समयसम्म रहन्छ। के यो अझै प्रारम्भिक चरणमा छ? के यस्तो लाग्छ कि DeepSeek को RL मोडेल भर्खरै सुरु हुँदैछ, जस्तै भाषा मोडेलहरूमा GPT-2? वा यो GPT-3.5 जस्तै परिपक्व चरणमा पुगेको छ, र अवरोधमा पुग्न लागेको छ?"
यो एकदमै तीखो प्रश्न हो, जुन १TP8T को RL प्रविधिको सम्भाव्यतासँग प्रत्यक्ष रूपमा सम्बन्धित छ! दया गुओको प्रतिक्रिया पनि धेरै इमानदार छ:
दया गुओ: "मलाई लाग्छ हामी अझै धेरै प्रारम्भिक चरणमा छौं, र आरएलको क्षेत्रमा अझै धेरै लामो बाटो तय गर्न बाँकी छ। तर मलाई विश्वास छ कि हामीले यस वर्ष उल्लेखनीय प्रगति देख्नेछौं।"
मुख्य बुँदाहरू हाइलाइट गर्नुहोस्! "धेरै चाँडै", "अन्वेषण गर्न लामो बाटो", "यस वर्ष उल्लेखनीय प्रगति"! यी किवर्डहरू जानकारीले भरिएका छन्। यसको अर्थ DeepSeek ले विश्वास गर्छ कि उनीहरूसँग RL को क्षेत्रमा सुधारको लागि अझै धेरै ठाउँ छ, र R1 को हालको नतिजा हिमशिलाको टुप्पो मात्र हुन सक्छ, त्यसैले भविष्य आशाजनक छ!
त्यसको लगत्तै, अर्का नेटिजेन @kaush_trip (चीकु त्रिपाठी) ले एउटा व्यावसायिक प्रश्न सोधे जुन सिधै मोडेल क्षमताहरूको मुटुमा जान्छ:
प्रयोगकर्ता B @kaush_trip: "R1-Zero को प्रदर्शनको आधारमा, मोडेलले साँच्चै छ कि छैन भनेर तपाईं कसरी मूल्याङ्कन गर्नुहुन्छ सामान्यीकरण क्षमता, वा चाहे त्यो केवल राज्य संक्रमण र पुरस्कारहरू सम्झन्छ?”
यो प्रश्न एकदमै अर्थपूर्ण छ! आखिर, धेरै मोडेलहरू धेरै शक्तिशाली देखिन्छन्, तर वास्तविकतामा तिनीहरू केवल प्रशिक्षण डेटाबाट 'रोटेड सिकाइ' हुन्, र तिनीहरू फरक वातावरणमा असफल हुनेछन्। के DeepSeek R1 साँच्चै सुरु गर्न तयार छ?
दया गुओ: "हामी सामान्यीकरण क्षमताको मूल्याङ्कन गर्न RL प्रम्प्टले कभर नगरेका डोमेनहरूको लागि बेन्चमार्क प्रयोग गर्छौं। हाल, यसमा सामान्यीकरण क्षमता रहेको देखिन्छ।"
"RL प्रम्प्टले समेटिएका क्षेत्रहरू" भन्ने वाक्यांश मुख्य हो! यसको अर्थ DeepSeek ले प्रशिक्षण डेटाको साथ मूल्याङ्कनलाई "धोखा" दिइरहेको छैन, तर मोडेलले नयाँ परिदृश्यहरूसँग परीक्षण गरिएको छ। कहिल्यै देखेको छैन पहिले, जसले मोडेलको सामान्यीकरण स्तरलाई साँच्चै प्रतिबिम्बित गर्न सक्छ। दया गुओको कठोर शब्दावली "छ जस्तो देखिन्छ" को प्रयोगले यसलाई अझ यथार्थपरक र विश्वसनीय बनाउँछ।
त्यसपछि, @teortaxesTex ID भएका एक नेटिजेन, जो DeepSeek का ठूला प्रशंसक हुन् (उनको टिप्पणीमा "DeepSeek व्हेल चियरलिडिङ टोली" शब्दहरू पनि समावेश थिए), ले DeepSeek V3 प्राविधिक रिपोर्टबाट सुरु गरे र यसको बारेमा प्रश्न सोधे मोडेल प्रशिक्षण समय:
प्रयोगकर्ता C @teortaxesTex: "यदि यो गोप्य कुरा होइन भने: यस पटक RL तालिम कति समय लाग्यो? यस्तो लाग्छ कि तपाईंसँग डिसेम्बर १० मा नै R1 वा कम्तिमा R1-Zero भइसकेको थियो, किनभने V3 प्राविधिक रिपोर्टले V2.5 मोडेलले R1 ज्ञान आसवन प्रयोग गरेको उल्लेख गरेको छ, र V2.5-1210 को स्कोर हालको मोडेल जस्तै छ। के यो त्यो तालिमको निरन्तरता हो?"
यो नेटिजेनसँग अवलोकनको अद्भुत शक्ति छ! उनले प्राविधिक रिपोर्टबाट धेरै विवरणहरू निकाल्न सक्षम थिए। दया गुओले पनि धैर्यपूर्वक मोडेलको पुनरावृत्ति प्रक्रियाको व्याख्या गरे:
दया गुओ: "६६०B को R1-शून्य र R1 प्यारामिटरहरू V3 को रिलीज पछि मात्र चल्न थाले, र प्रशिक्षणमा लगभग २-३ हप्ता लाग्यो। हामीले पहिले उल्लेख गरेको R1 मोडेल (जस्तै V3 प्राविधिक रिपोर्टमा) वास्तवमा R1-लाइट वा R1-लाइट-शून्य हो।"
त्यसो भए यो भयो! हामीले अहिले देख्ने R1-Zero र R1 "नयाँ र अपग्रेड गरिएका संस्करणहरू" हुन्, र अघिल्लो R1-Lite शृङ्खलाहरू माइनर संस्करणहरू हुन्। यस्तो देखिन्छ कि DeepSeek ले पर्दा पछाडि धेरै संस्करणहरू चुपचाप दोहोर्याएको र अपग्रेड गरेको छ।
तालिम गतिको सन्दर्भमा, नेटिजनहरू @jiayi_pirate (Jiayi Pan) र नेटिजन B @kaush_trip ले “आत्मा सोधपुछ” रिले गरेका छन्:
प्रयोगकर्ता D @jiayi_pirate: "३ हप्तामा १०,००० RL चरणहरू, प्रत्येक ग्रेडियन्ट प्रसार (grpo) चरणमा ~३ मिनेट लाग्छ 🤔"
प्रयोगकर्ता B @kaush_trip: "यदि प्रत्येक ग्रेडियन्ट प्रसार (grpo) चरणले ~३ मिनेट लिन्छ भने, त्यो प्रति घण्टा लगभग ५ कदम, प्रति दिन १२० कदम हो, जुन वास्तवमा धेरै ढिलो हो।"
यो साँच्चै सावधानीपूर्वक गणना गरिएको छ! नेटिजेनहरूको गणना अनुसार, DeepSeek R1 को प्रशिक्षण गति वास्तवमा छिटो छैन। यसले यो पनि देखाउँछ कि यस्तो उच्च-प्रदर्शन RL मोडेलको प्रशिक्षण लागत र समय लगानी ठूलो छ। "ढिलो कामले राम्रो काम उत्पादन गर्दछ" AI मोडेल प्रशिक्षण वर्णन गर्ने एकदम उपयुक्त तरिका जस्तो देखिन्छ।
अन्तमा, @davikrehalt (एन्डी जियाङ) नामक एक नेटिजेनले अझ अत्याधुनिक अनुप्रयोग दृष्टिकोणबाट एउटा प्रश्न सोधे:
प्रयोगकर्ता E @davikrehalt: "के तपाईंले RL प्रयोग गरेर वातावरणको औपचारिक प्रमाण"केवल प्रश्नहरूको जवाफ दिनुको सट्टा? यदि यस वर्ष IMO (अन्तर्राष्ट्रिय गणितीय ओलम्पियाड) मा एक खुला-स्रोत मोडेलले स्वर्ण पदक जित्न सक्यो भने यो राम्रो हुनेछ! (र थप आशाहरू!)"
औपचारिक प्रमाण! मेरो विचारमा स्वर्ण पदक! यो नेटिजेन एकदमै महत्वाकांक्षी छ! यद्यपि, गणितीय प्रमाणको कट्टर क्षेत्रमा एआई लागू गर्नु वास्तवमा भविष्यको प्रवृत्ति हो। दया गुओको जवाफ फेरि एक पटक अचम्मलाग्दो छ:
दया गुओ: "हामी लीन जस्ता औपचारिक प्रमाण वातावरणमा पनि R1 लागू गर्ने प्रयास गरिरहेका छौं। हामी समुदायमा चाँडै राम्रो मोडेलहरू जारी गर्ने आशा गर्छौं।"
दया गुओका शब्दहरूबाट, यस्तो देखिन्छ कि उनीहरूले यस क्षेत्रमा पहिले नै प्रगति गरिसकेका छन्, र भविष्यमा अझ प्रभावशाली मोडेलहरू रिलिज हुन सक्छन्!
अन्त्यमा
दया गुओको प्रतिक्रियाबाट तीन प्रमुख संकेतहरू पत्ता लगाउन सकिन्छ:
प्राविधिक स्थिति: RL अझै पनि यसको प्रारम्भिक चरणमा छ, र प्रदर्शन सुधारहरू तिनीहरूको सीमामा पुग्न धेरै टाढा छन्;
प्रमाणीकरण तर्क: क्रस-डोमेन परीक्षणको लागि सामान्यीकरण क्षमता, "मेमोरी अनुमान" लाई अस्वीकार गर्दै
अनुप्रयोग सीमाहरू: भाषा मोडेलहरूदेखि गणितीय प्रमाणहरूसम्म, RL उच्च-अर्डर तर्क तर्फ अघि बढिरहेको छ।