ब्रेकिङ न्यूज! DeepSeek अनुसन्धानकर्ताले अनलाइन खुलासा गरे: R1 तालिममा दुई देखि तीन हप्ता मात्र लाग्यो, र चिनियाँ नयाँ वर्षको बिदामा R1 शून्यको शक्तिशाली विकास अवलोकन गरिएको थियो

ब्रेकिङ न्युज! DeepSeek अनुसन्धानकर्ताले अनलाइन खुलासा गरे: R1 तालिममा दुई देखि तीन हप्ता मात्र लाग्यो, र चिनियाँ नयाँ वर्षको बिदामा R1 शून्यको शक्तिशाली विकास अवलोकन गरिएको थियो।

भर्खरै, हामीले याद गर्यौं कि DeepSeek अनुसन्धानकर्ता दया गुओ DeepSeek R1 र कम्पनीको अगाडि बढ्ने योजनाहरूको बारेमा नेटिजनहरूको प्रश्नहरूको जवाफ दिए। हामी केवल यति भन्न सक्छौं कि DeepSeek R1 सुरुवात मात्र हो, र आन्तरिक अनुसन्धान अझै पनि द्रुत गतिमा अगाडि बढिरहेको छ। DeepSeek अनुसन्धानकर्ताहरूले चिनियाँ नयाँ वर्षको बिदाको समयमा विश्राम पनि लिएनन्, र उनीहरूले अनुसन्धानलाई अगाडि बढाउन अथक प्रयास गरिरहेका छन्। DeepSeek का केही ठूला चालहरू आउँदैछन्।

कुरा यस्तो छ: फेब्रुअरी १ मा, दया गुओले चिनियाँ नयाँ वर्षको बिदामा उनलाई सबैभन्दा उत्साहित बनाउने कुराको खुलासा गर्दै एउटा ट्वीट पोस्ट गरे: ... "निरन्तर वृद्धि" को प्रदर्शन वक्रको R1-शून्य मोडेलर महसुस गर्दै शक्तिशाली शक्ति सुदृढीकरण सिकाइ (RL)!

सामग्रीको तालिका

डिपसिक एआई अनुसन्धानकर्ता दया गुओले नेटिजनहरूसँग कुरा गर्छिन्

अब म तपाईंलाई दया गुओको नेटिजनहरूसँगको कुराकानी पुन: उत्पादन गर्न मद्दत गर्नेछु:

नेटिजेन ए @SseudoProphet: "ठूलो कुरा, म सोध्न चाहन्छु कि प्रदर्शनमा यो निरन्तर सुधार कति समयसम्म रहन्छ। के यो अझै प्रारम्भिक चरणमा छ? के यस्तो लाग्छ कि DeepSeek को RL मोडेल भर्खरै सुरु हुँदैछ, जस्तै भाषा मोडेलहरूमा GPT-2? वा यो GPT-3.5 जस्तै परिपक्व चरणमा पुगेको छ, र अवरोधमा पुग्न लागेको छ?"

यो एकदमै तीखो प्रश्न हो, जुन १TP8T को RL प्रविधिको सम्भाव्यतासँग प्रत्यक्ष रूपमा सम्बन्धित छ! दया गुओको प्रतिक्रिया पनि धेरै इमानदार छ:

दया गुओ: "मलाई लाग्छ हामी अझै धेरै प्रारम्भिक चरणमा छौं, र आरएलको क्षेत्रमा अझै धेरै लामो बाटो तय गर्न बाँकी छ। तर मलाई विश्वास छ कि हामीले यस वर्ष उल्लेखनीय प्रगति देख्नेछौं।"

मुख्य बुँदाहरू हाइलाइट गर्नुहोस्! "धेरै चाँडै", "अन्वेषण गर्न लामो बाटो", "यस वर्ष उल्लेखनीय प्रगति"! यी किवर्डहरू जानकारीले भरिएका छन्। यसको अर्थ DeepSeek ले विश्वास गर्छ कि उनीहरूसँग RL को क्षेत्रमा सुधारको लागि अझै धेरै ठाउँ छ, र R1 को हालको नतिजा हिमशिलाको टुप्पो मात्र हुन सक्छ, त्यसैले भविष्य आशाजनक छ!

त्यसको लगत्तै, अर्का नेटिजेन @kaush_trip (चीकु त्रिपाठी) ले एउटा व्यावसायिक प्रश्न सोधे जुन सिधै मोडेल क्षमताहरूको मुटुमा जान्छ:

प्रयोगकर्ता B @kaush_trip: "R1-Zero को प्रदर्शनको आधारमा, मोडेलले साँच्चै छ कि छैन भनेर तपाईं कसरी मूल्याङ्कन गर्नुहुन्छ सामान्यीकरण क्षमता, वा चाहे त्यो केवल राज्य संक्रमण र पुरस्कारहरू सम्झन्छ?”

यो प्रश्न एकदमै अर्थपूर्ण छ! आखिर, धेरै मोडेलहरू धेरै शक्तिशाली देखिन्छन्, तर वास्तविकतामा तिनीहरू केवल प्रशिक्षण डेटाबाट 'रोटेड सिकाइ' हुन्, र तिनीहरू फरक वातावरणमा असफल हुनेछन्। के DeepSeek R1 साँच्चै सुरु गर्न तयार छ?

दया गुओ: "हामी सामान्यीकरण क्षमताको मूल्याङ्कन गर्न RL प्रम्प्टले कभर नगरेका डोमेनहरूको लागि बेन्चमार्क प्रयोग गर्छौं। हाल, यसमा सामान्यीकरण क्षमता रहेको देखिन्छ।"

"RL प्रम्प्टले समेटिएका क्षेत्रहरू" भन्ने वाक्यांश मुख्य हो! यसको अर्थ DeepSeek ले प्रशिक्षण डेटाको साथ मूल्याङ्कनलाई "धोखा" दिइरहेको छैन, तर मोडेलले नयाँ परिदृश्यहरूसँग परीक्षण गरिएको छ। कहिल्यै देखेको छैन पहिले, जसले मोडेलको सामान्यीकरण स्तरलाई साँच्चै प्रतिबिम्बित गर्न सक्छ। दया गुओको कठोर शब्दावली "छ जस्तो देखिन्छ" को प्रयोगले यसलाई अझ यथार्थपरक र विश्वसनीय बनाउँछ।

त्यसपछि, @teortaxesTex ID भएका एक नेटिजेन, जो DeepSeek का ठूला प्रशंसक हुन् (उनको टिप्पणीमा "DeepSeek व्हेल चियरलिडिङ टोली" शब्दहरू पनि समावेश थिए), ले DeepSeek V3 प्राविधिक रिपोर्टबाट सुरु गरे र यसको बारेमा प्रश्न सोधे मोडेल प्रशिक्षण समय:

प्रयोगकर्ता C @teortaxesTex: "यदि यो गोप्य कुरा होइन भने: यस पटक RL तालिम कति समय लाग्यो? यस्तो लाग्छ कि तपाईंसँग डिसेम्बर १० मा नै R1 वा कम्तिमा R1-Zero भइसकेको थियो, किनभने V3 प्राविधिक रिपोर्टले V2.5 मोडेलले R1 ज्ञान आसवन प्रयोग गरेको उल्लेख गरेको छ, र V2.5-1210 को स्कोर हालको मोडेल जस्तै छ। के यो त्यो तालिमको निरन्तरता हो?"

यो नेटिजेनसँग अवलोकनको अद्भुत शक्ति छ! उनले प्राविधिक रिपोर्टबाट धेरै विवरणहरू निकाल्न सक्षम थिए। दया गुओले पनि धैर्यपूर्वक मोडेलको पुनरावृत्ति प्रक्रियाको व्याख्या गरे:

दया गुओ: "६६०B को R1-शून्य र R1 प्यारामिटरहरू V3 को रिलीज पछि मात्र चल्न थाले, र प्रशिक्षणमा लगभग २-३ हप्ता लाग्यो। हामीले पहिले उल्लेख गरेको R1 मोडेल (जस्तै V3 प्राविधिक रिपोर्टमा) वास्तवमा R1-लाइट वा R1-लाइट-शून्य हो।"

त्यसो भए यो भयो! हामीले अहिले देख्ने R1-Zero र R1 "नयाँ र अपग्रेड गरिएका संस्करणहरू" हुन्, र अघिल्लो R1-Lite शृङ्खलाहरू माइनर संस्करणहरू हुन्। यस्तो देखिन्छ कि DeepSeek ले पर्दा पछाडि धेरै संस्करणहरू चुपचाप दोहोर्याएको र अपग्रेड गरेको छ।

तालिम गतिको सन्दर्भमा, नेटिजनहरू @jiayi_pirate (Jiayi Pan) र नेटिजन B @kaush_trip ले “आत्मा सोधपुछ” रिले गरेका छन्:

प्रयोगकर्ता D @jiayi_pirate: "३ हप्तामा १०,००० RL चरणहरू, प्रत्येक ग्रेडियन्ट प्रसार (grpo) चरणमा ~३ मिनेट लाग्छ 🤔"

प्रयोगकर्ता B @kaush_trip: "यदि प्रत्येक ग्रेडियन्ट प्रसार (grpo) चरणले ~३ मिनेट लिन्छ भने, त्यो प्रति घण्टा लगभग ५ कदम, प्रति दिन १२० कदम हो, जुन वास्तवमा धेरै ढिलो हो।"

यो साँच्चै सावधानीपूर्वक गणना गरिएको छ! नेटिजेनहरूको गणना अनुसार, DeepSeek R1 को प्रशिक्षण गति वास्तवमा छिटो छैन। यसले यो पनि देखाउँछ कि यस्तो उच्च-प्रदर्शन RL मोडेलको प्रशिक्षण लागत र समय लगानी ठूलो छ। "ढिलो कामले राम्रो काम उत्पादन गर्दछ" AI मोडेल प्रशिक्षण वर्णन गर्ने एकदम उपयुक्त तरिका जस्तो देखिन्छ।

अन्तमा, @davikrehalt (एन्डी जियाङ) नामक एक नेटिजेनले अझ अत्याधुनिक अनुप्रयोग दृष्टिकोणबाट एउटा प्रश्न सोधे:

प्रयोगकर्ता E @davikrehalt: "के तपाईंले RL प्रयोग गरेर वातावरणको औपचारिक प्रमाण"केवल प्रश्नहरूको जवाफ दिनुको सट्टा? यदि यस वर्ष IMO (अन्तर्राष्ट्रिय गणितीय ओलम्पियाड) मा एक खुला-स्रोत मोडेलले स्वर्ण पदक जित्न सक्यो भने यो राम्रो हुनेछ! (र थप आशाहरू!)"

औपचारिक प्रमाण! मेरो विचारमा स्वर्ण पदक! यो नेटिजेन एकदमै महत्वाकांक्षी छ! यद्यपि, गणितीय प्रमाणको कट्टर क्षेत्रमा एआई लागू गर्नु वास्तवमा भविष्यको प्रवृत्ति हो। दया गुओको जवाफ फेरि एक पटक अचम्मलाग्दो छ:

दया गुओ: "हामी लीन जस्ता औपचारिक प्रमाण वातावरणमा पनि R1 लागू गर्ने प्रयास गरिरहेका छौं। हामी समुदायमा चाँडै राम्रो मोडेलहरू जारी गर्ने आशा गर्छौं।"

दया गुओका शब्दहरूबाट, यस्तो देखिन्छ कि उनीहरूले यस क्षेत्रमा पहिले नै प्रगति गरिसकेका छन्, र भविष्यमा अझ प्रभावशाली मोडेलहरू रिलिज हुन सक्छन्!

अन्त्यमा

दया गुओको प्रतिक्रियाबाट तीन प्रमुख संकेतहरू पत्ता लगाउन सकिन्छ:

प्राविधिक स्थिति: RL अझै पनि यसको प्रारम्भिक चरणमा छ, र प्रदर्शन सुधारहरू तिनीहरूको सीमामा पुग्न धेरै टाढा छन्;

प्रमाणीकरण तर्क: क्रस-डोमेन परीक्षणको लागि सामान्यीकरण क्षमता, "मेमोरी अनुमान" लाई अस्वीकार गर्दै

अनुप्रयोग सीमाहरू: भाषा मोडेलहरूदेखि गणितीय प्रमाणहरूसम्म, RL उच्च-अर्डर तर्क तर्फ अघि बढिरहेको छ।

अवर्गीकृत

सय अर्ब डलर लगानीसहित ले च्याट शीर्ष स्थानमा छ। अमेरिका र चीन पछि, के यो तेस्रो एआई पावर हो?

द्वाराzddeepseeker फेब्रुअरी ११, २०२५फेब्रुअरी ११, २०२५

फेब्रुअरी ९ मा, फ्रान्सेली राष्ट्रपति इमानुएल म्याक्रोनले घोषणा गरे कि फ्रान्सले आगामी केही वर्षहरूमा एआईको क्षेत्रमा १०९ अर्ब युरो (११३ अर्ब अमेरिकी डलर) लगानी गर्नेछ। यो लगानी फ्रान्समा एआई पार्क निर्माण गर्न, पूर्वाधार सुधार गर्न र स्थानीय एआई स्टार्ट-अपहरूमा लगानी गर्न प्रयोग गरिनेछ। यसैबीच, मिस्ट्रल, एक फ्रान्सेली स्टार्टअप,…

अवर्गीकृत

विश्वका मुख्यधाराका एआई उत्पादनहरू विश्लेषण र व्यापक प्रयोगकर्ता अनुभव दिशानिर्देशहरूमा केन्द्रित छन् (१TP8T र GPT सहित)

द्वाराzddeepseeker फेब्रुअरी १०, २०२५फेब्रुअरी १०, २०२५

फंक्शन पोजिसनिङ र कोर फाइदा विश्लेषण ChatGPT (OpenAI) - अलराउन्डरहरूको लागि विश्वव्यापी बेन्चमार्क ChatGPT प्राविधिक जीनहरू: ठूला मोडेलहरूको GPT श्रृंखलामा आधारित जेनेरेटिभ AI, सामान्य कुराकानी सीप र तार्किक तर्क यसको मुख्य फाइदाहरूको रूपमा। बहुभाषिक प्रशोधन: चिनियाँ भाषामा निरन्तर सुधारको साथ अंग्रेजीमा उत्कृष्ट प्रदर्शन गर्दछ; तर हामी अंग्रेजी प्रयोग गर्न सिफारिस गर्छौं ...

अवर्गीकृत

AI सर्कलमा, DeepSeek R1 ले शारीरिक परीक्षणहरूमा o1 र क्लाउडलाई लगातार उछिनेको छ, र हामी RL को स्वर्ण युगमा प्रवेश गरेका छौं।

द्वाराzddeepseeker फेब्रुअरी १, २०२५फेब्रुअरी १, २०२५

हामी मध्ये कसैले पनि AI क्षेत्रमा २०२५ को सुरुवात यसरी हुनेछ भन्ने आशा गरेका थिएनौं। DeepSeek R1 साँच्चै अचम्मको छ! हालै, "रहस्यमय पूर्वी शक्ति" DeepSeek सिलिकन भ्याली "कडा नियन्त्रण" भएको छ। मैले R1 लाई पाइथागोरस प्रमेयलाई विस्तृत रूपमा व्याख्या गर्न सोधें। यो सबै AI द्वारा 30 सेकेन्ड भन्दा कममा बिना कुनै…

अवर्गीकृत

DeepSeek: चेरी स्टुडियो, च्याटबक्स, एनिथिङएलएलएम जस्ता ठूला भाषा मोडेल व्यवस्थापन कलाकृतिहरू, तपाईंको दक्षता गतिवर्धक को हो?

द्वाराzddeepseeker फेब्रुअरी ११, २०२५फेब्रुअरी ११, २०२५

धेरै मानिसहरूले पहिले नै स्थानीय रूपमा Deepseek ठूला भाषा मोडेलहरू तैनाथ र प्रयोग गर्न थालेका छन्, च्याटबक्सलाई दृश्य उपकरणको रूपमा प्रयोग गर्दै। यस लेखले दुई अन्य AI ठूलो भाषा मोडेल व्यवस्थापन र दृश्य कलाकृतिहरू परिचय गराउँदै जानेछ, र तपाईंलाई AI ठूलो भाषा मोडेलहरू अझ प्रभावकारी रूपमा प्रयोग गर्न मद्दत गर्न तीनवटाको विस्तृत रूपमा तुलना गर्नेछ। २०२५ मा,…

अवर्गीकृत

DeepSeek-R1-0528 अपडेट: गहिरो सोच, बलियो तर्क

द्वाराzddeepseeker मे २९, २०२५मे २९, २०२५

१TP५टी मोडेलको संस्करणमा सामान्य स्तरोन्नति गरिएको छ, हालको संस्करण १TP८टी-आर१-०५२८ छ। जब तपाईं १TP८टी वेबपेज वा एपमा प्रवेश गर्नुहुन्छ, पछिल्लो संस्करण अनुभव गर्न संवाद इन्टरफेसमा "गहिरो सोच" सुविधा सक्षम गर्नुहोस्। १TP८टी-आर१-०५२८ मोडेलको तौल हगिङफेसमा अपलोड गरिएको छ। विगत चार महिनामा, १TP८टी-आर१ मा…

अवर्गीकृत

गुगलको कम लागतको मोडेल, जेमिनी २.० शृङ्खला, आक्रमण गर्दैछ: ठूला मोडेलहरूमा लागत-प्रभावकारिताको लागि लडाईं तीव्र हुँदैछ।

द्वाराzddeepseeker फेब्रुअरी ८, २०२५फेब्रुअरी ८, २०२५

ठूला एआई मोडेलहरू प्रयोग गर्ने उच्च लागत धेरै एआई अनुप्रयोगहरू अझै कार्यान्वयन र प्रवर्द्धन नगर्नुको प्रमुख कारण हो। चरम प्रदर्शन छनौट गर्नु भनेको ठूलो कम्प्युटिङ पावर लागत हो, जसले गर्दा उच्च उपयोग लागतहरू हुन्छन् जुन सामान्य प्रयोगकर्ताहरूले स्वीकार गर्न सक्दैनन्। ठूला एआई मोडेलहरूको लागि प्रतिस्पर्धा धुवाँ बिनाको युद्ध जस्तै हो। पछि…

डिपसिक एआई अनुसन्धानकर्ता दया गुओले नेटिजनहरूसँग कुरा गर्छिन्

अन्त्यमा

समान पोस्टहरू

जवाफ लेख्नुहोस् जवाफ रद्द गर्नुहोस्

जवाफ लेख्नुहोस्