आज मैं DeepSeek से एक लेख साझा करना चाहूँगा, जिसका शीर्षक है DeepSeekMath: ओपन लैंग्वेज मॉडल में गणितीय तर्क की सीमाओं को आगे बढ़ाना।

यह लेख DeepSeekMath 7B का परिचय देता है, जो पूर्व-प्रशिक्षित है DeepSeek-Coder-Base-v1.5 7B पर आधारित 120B गणित-संबंधित टोकन, प्राकृतिक भाषा और कोड डेटा का संग्रह।

मॉडल ने बाहरी टूलकिट और वोटिंग तकनीकों पर निर्भर हुए बिना प्रतिस्पर्धी स्तर के MATH बेंचमार्क में 51.7% का आश्चर्यजनक स्कोर हासिल किया, जो जेमिनी-अल्ट्रा और GPT-4 के प्रदर्शन स्तर के करीब पहुंच गया।

DeepSeekMath 7B की गणितीय तर्क क्षमता दो प्रमुख कारकों के कारण है: पहला, सावधानीपूर्वक डिज़ाइन किया गया डेटा चयन पाइपलाइनउच्च गुणवत्ता वाले गणित से संबंधित डेटा को सार्वजनिक रूप से उपलब्ध वेब डेटा से पुनरावृत्त रूप से निकाला जाता है।

दूसरा, समूह सापेक्ष नीति अनुकूलन (जीआरपीओ) प्रस्तुत किया गया है, जो कि प्रॉक्सिमल पॉलिसी ऑप्टिमाइजेशन (पीपीओ) का एक प्रकार है, जो पीपीओ के मेमोरी उपयोग को अनुकूलित करते हुए गणितीय तर्क क्षमता को बढ़ा सकता है।

  1. विधि की विशेषताएं संक्षेप में इस प्रकार हैं:एक उच्च गुणवत्ता वाला गणितीय पूर्व-प्रशिक्षण कोष का निर्माण किया गया, और कॉमन क्रॉल से उच्च गुणवत्ता वाले गणितीय डेटा को निकालने के लिए एक सावधानीपूर्वक डिज़ाइन की गई पाइपलाइन का उपयोग किया गया।
  2. जीआरपीओ एल्गोरिथम प्रस्तावित किया गया, जो प्रशिक्षण के लिए आवश्यक संसाधनों को कम करता है और मॉडल की गणितीय तर्क क्षमता में सुधार करता है। 3) अत्याधुनिक प्रदर्शन था कई गणितीय तर्क बेंचमार्क परीक्षणों में हासिल किया गया.

विषयसूची

अवलोकन

शीर्षक: DeepSeekMath: मुक्त भाषा मॉडल में गणितीय तर्क की सीमाओं को आगे बढ़ाना

यूआरएल: यहाँ क्लिक करें

लेखक: झिहोंग शाओ, पेयी वांग, किहाओ झू, रनक्सिन जू, जुनक्सियाओ सॉन्ग, जिओ बी, हाओवेई झांग, मिंगचुआन झांग, वाईके ली, वाई. वू, दया गुओ

कोड: यहाँ क्लिक करें

प्रेरणा

गणितीय तर्क गणित की जटिलता और संरचित प्रकृति के कारण भाषा मॉडल के लिए एक महत्वपूर्ण चुनौती पेश करता है। सबसे उन्नत मॉडल, जैसे कि GPT-4 और जेमिनी-अल्ट्रा, शक्तिशाली हैं लेकिन सार्वजनिक रूप से उपलब्ध नहीं हैं। इसलिए, प्रदर्शन में सुधार की काफी गुंजाइश है खुला स्रोत मॉडल.

जटिलता और संरचना: गणित की जटिलता और संरचित प्रकृति के कारण गणितीय तर्क भाषा मॉडल के लिए एक महत्वपूर्ण चुनौती प्रस्तुत करता है।

सार्वजनिक डेटा की क्षमता: सार्वजनिक रूप से उपलब्ध वेब डेटा में समृद्ध गणितीय जानकारी हो सकती है, जिसका अभी तक पता लगाकर उपयोग नहीं किया गया है।

तरीकों

डेटा संग्रहण: कॉमन क्रॉल से पुनरावृत्तीय पाइपलाइन के माध्यम से उच्च गुणवत्ता वाले गणित-संबंधी वेब डेटा को एकत्रित करके 120B टोकनों का DeepSeekMath कोष निर्मित किया गया।

मॉडल प्रशिक्षण: कॉर्पस का उपयोग DeepSeek-कोडर-बेस-v1.5 7B के शीर्ष पर पूर्व-प्रशिक्षण के लिए किया गया था, और गणितीय निर्देश फाइन-ट्यूनिंग और समूह सापेक्ष नीति अनुकूलन (GRPO) एल्गोरिदम को लागू किया गया था।

जीआरपीओ एल्गोरिथ्म: जीआरपीओ एक उन्नत सुदृढीकरण सीखने का एल्गोरिदम है जो पीपीओ में क्रिटिक मॉडल को हटा देता है और समूह स्कोर से बेसलाइन का अनुमान लगाता है, जिससे प्रशिक्षण संसाधनों में काफी कमी आती है।

विस्तृत विधियां और प्रक्रियाएं:

डेटा संग्रहण और प्रसंस्करण:

DeepSeekMath कॉर्पस बनाएँ: फास्टटेक्स्ट-आधारित क्लासिफायर का उपयोग करके, 120B गणित-संबंधी टोकन निकालें कॉमन क्रॉल से एक बड़े पैमाने पर, उच्च गुणवत्ता वाले पूर्व प्रशिक्षित कॉर्पस, DeepSeekMath कॉर्पस का निर्माण करना।

पुनरावृत्तीय डेटा फ़िल्टरिंग: एक पुनरावृत्तीय रणनीति का उपयोग किया जाता है, प्रारंभिक क्लासिफायर को प्रशिक्षित करने के लिए ओपनवेबमैथ को बीज डेटा के रूप में उपयोग करना, और फिर इस क्लासिफायर का उपयोग करके अधिक सकारात्मक उदाहरण तैयार करना कॉमन क्रॉल से, जिन्हें क्लासिफायर प्रदर्शन को लगातार अनुकूलित करने के लिए मैन्युअल रूप से एनोटेट किया जाता है।

बहुभाषी विशेषताएं: DeepSeekMath कॉर्पस में शामिल है बहुभाषी डेटा, जो चीनी गणित बेंचमार्क पर मॉडल के प्रदर्शन को बेहतर बनाता है।

प्रदूषण-मुक्ति प्रसंस्करण: दे-परीक्षण बेंचमार्क के साथ ओवरलैप से बचने के लिए प्रशिक्षण डेटा पर प्रदूषण प्रसंस्करण किया जाता है.

पूर्व प्रशिक्षण:

कोड-आधारित मॉडल आरंभीकरण: का उपयोग कर आरंभीकरण DeepSeek-कोडर-बेस-v1.5 7B सामान्य एलएलएम से आरंभीकरण की तुलना में मॉडल अधिक प्रभावी पाया गया।

पूर्वप्रशिक्षण डेटा संरचना: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% Github कोड, 10% कॉमन क्रॉल प्राकृतिक भाषा डेटा।

पूर्वप्रशिक्षण पैरामीटर: एडमडब्लू ऑप्टिमाइज़र का उपयोग किया गया है, जिसकी सीखने की दर 4.2e-4, बैच आकार 10M टोकन और प्रशिक्षण 500B टोकन है।

अनुदेश ठीक-ट्यूनिंग:

एक निर्देश फ़ाइन-ट्यूनिंग डेटासेट बनाएँ: गणितीय निर्देश फ़ाइन-ट्यूनिंग डेटासेट का निर्माण करें जिसमें शामिल हो 776K नमूने, जिसमें विभिन्न गणितीय क्षेत्रों और कठिनाई स्तरों को शामिल किया गया है, जिसमें CoT, PoT, और समाधान चरणों के लिए उपकरण-एकीकृत अनुमान प्रारूप शामिल हैं।

प्रशिक्षण मापदंड: बैच आकार 256, सीखने की दर 5e-5, 500 चरणों के लिए प्रशिक्षण।

सुदृढीकरण सीखना - समूह सापेक्ष नीति अनुकूलन (जीआरपीओ):

जीआरपीओ एल्गोरिदम का प्रस्ताव: प्रस्ताव करें पीपीओ वैरिएंट एल्गोरिथम जीआरपीओ, जो बेसलाइन का अनुमान लगाने के लिए समूह-वार स्कोर का उपयोग करके क्रिटिक मॉडल की आवश्यकता को टालता है, जिससे प्रशिक्षण संसाधनों में कमी आती है.

उद्देश्य समारोह: जीआरपीओ एक उद्देश्य फ़ंक्शन को अधिकतम करके नीति मॉडल का अनुकूलन करता है इन-ग्रुप आउटपुट के सापेक्ष लाभ को ध्यान में रखता है और केएल डाइवर्जेंस को सीधे एक नियमितीकरण शब्द के रूप में जोड़ता है.

लाभ गणना: जीआरपीओ लाभ की गणना इस प्रकार करता है समूह के भीतर सापेक्ष पुरस्कार, समूह के बीच तुलना से बचना और पुरस्कार मॉडल की तुलनात्मक प्रकृति के साथ बेहतर अनुरूपता.

परिणाम और प्रक्रिया निगरानी दोनों का समर्थन करता है: जीआरपीओ परिणाम और प्रक्रिया निगरानी दोनों का समर्थन कर सकते हैं, और नीति की अधिक प्रभावी ढंग से निगरानी कर सकते हैं प्रत्येक अनुमान चरण के अंत में पुरस्कार प्रदान करके।

पुनरावृत्तीय आर.एल.: का उपयोग करता है पुनरावृत्तीय आरएल रणनीति नीति मॉडल के नमूना परिणामों के आधार पर एक नया प्रशिक्षण सेट तैयार करना, पुराने पुरस्कार मॉडल को लगातार प्रशिक्षित करना, और नीति मॉडल को अद्यतन करने के लिए नए पुरस्कार मॉडल का उपयोग करना।

प्रशिक्षण डेटा: SFT डेटा में GSM8K और MATH से संबंधित CoT प्रारूप समस्याओं, लगभग 144K समस्याओं का उपयोग करता है।

प्रशिक्षण मापदंड: नीति मॉडल की सीखने की दर 1e-6 है, KL गुणांक 0.04 है, प्रत्येक समस्या के लिए 64 आउटपुट का नमूना लिया जाता है, अधिकतम लंबाई 1024 है, और प्रशिक्षण बैच का आकार 1024 है।

निष्कर्ष

निष्कर्ष 1:DeepSeekMath 7B गणितीय तर्क क्षमता में सभी ओपन सोर्स मॉडलों से बेहतर प्रदर्शन करता है। प्रतिस्पर्धी MATH बेंचमार्क परीक्षण में, DeepSeekMath 7B ने 51.7% की सटीकता हासिल की, जो कि जेमिनी-अल्ट्रा और GPT-4 के प्रदर्शन स्तर के करीब है।

निष्कर्ष 2:अच्छी तरह से डिज़ाइन किया गया प्रीट्रेनिंग डेटा और जीआरपीओ एल्गोरिदम मॉडल की सफलता की कुंजी हैं। उच्च गुणवत्ता वाले गणितीय कोष और जीआरपीओ एल्गोरिदम का संयोजन, मॉडल को गणितीय तर्क कार्यों में महत्वपूर्ण प्रदर्शन लाभ प्राप्त करने में सक्षम बनाता है।

निष्कर्ष 3:कोड प्रशिक्षण गणितीय तर्क क्षमता को बेहतर बनाने में मदद करता है। प्रीट्रेनिंग चरण में कोड डेटा जोड़ने से उपकरण के साथ और बिना उपकरण के, दोनों ही प्रकार से गणितीय समस्याओं को हल करने की मॉडल की क्षमता में सुधार हो सकता है।

निष्कर्ष 4: arXiv डेटा की सीमित उपयोगिता: पिछली मान्यताओं के विपरीत, arXiv डेटा गणितीय तर्क को सुधारने में सीमित मददगार पाया गया।

परिसीमन

ज्यामिति और प्रमाण क्षमताएं अपेक्षाकृत कमजोर हैं: हालाँकि DeepSeekMath मात्रात्मक तर्क में उत्कृष्ट है, लेकिन ज्यामिति और प्रमाण में इसकी क्षमताएँ अभी भी बंद-स्रोत मॉडल से कमतर हैं। यह प्रीट्रेनिंग और फ़ाइन-ट्यूनिंग चरणों में पक्षपाती डेटा चयन के कारण हो सकता है।

छोटे नमूना क्षमता में कमजोरी: DeepSeekMath छोटे नमूना सीखने के मामले में GPT-4 से कमतर है, जो मॉडल आकार की सीमा के कारण हो सकता है।

अधिक कुशल सुदृढीकरण सीखने के तरीकों की आवश्यकता है: यद्यपि इस पेपर में प्रस्तावित सुदृढीकरण सीखने के तरीके प्रभावी हैं, फिर भी सुधार की गुंजाइश है, उदाहरण के लिए, इनाम मॉडल से फीडबैक का अधिक प्रभावी उपयोग कैसे किया जाए और शोर वाले इनाम संकेतों से कैसे निपटा जाए।

विवरण

सुदृढीकरण सीखना अन्वेषण और विश्लेषण

अवलोकन:

समूह सापेक्ष नीति अनुकूलन (जीआरपीओ) का परिचय: पेपर में प्रॉक्सिमल पॉलिसी ऑप्टिमाइजेशन (पीपीओ) के एक प्रकार के रूप में एक नया सुदृढीकरण सीखने का एल्गोरिदम, जीआरपीओ प्रस्तावित किया गया है। जीआरपीओ की मुख्य विशेषता यह है कि यह पीपीओ में सामान्यतः प्रयुक्त क्रिटिक मॉडल को त्याग दिया जाता है और समूह स्कोर के माध्यम से आधार रेखा का अनुमान लगाया जाता है, जिससे प्रशिक्षण के लिए आवश्यक कम्प्यूटेशनल संसाधनों में बहुत कमी आती है।

जीआरपीओ प्रभावशीलता प्रदर्शन: यह पत्र प्रयोगात्मक रूप से प्रदर्शित करता है कि जीआरपीओ कमांड फ़ाइन-ट्यूनिंग मॉडल के प्रदर्शन को प्रभावी ढंग से सुधारें, जिसमें इन-डोमेन और आउट-ऑफ-डोमेन गणितीय कार्य दोनों शामिल हैं.

सुदृढीकरण सीखने के तरीकों के लिए एकीकृत ढांचा: यह पत्र विभिन्न सुदृढीकरण सीखने के तरीकों को समझने के लिए एक एकीकृत ढांचे का प्रस्ताव करता है, जैसे अस्वीकृति नमूनाकरण फाइन-ट्यूनिंग (आरएफटी), प्रत्यक्ष वरीयता अनुकूलन (डीपीओ), पीपीओ और जीआरपीओफ्रेमवर्क इन विधियों को प्रत्यक्ष या सरलीकृत सुदृढीकरण सीखने की तकनीक के रूप में मानता है।

सुदृढीकरण सीखने के तत्वों की गहन खोज: यह पेपर गहराई से पड़ताल करता है सुदृढीकरण सीखने के प्रमुख तत्व, जैसे ऑनलाइन प्रशिक्षण और ऑफ़लाइन प्रशिक्षण, परिणाम पर्यवेक्षण और प्रक्रिया पर्यवेक्षण, एकल-दौर सुदृढीकरण सीखना और पुनरावृत्त सुदृढीकरण सीखनाविस्तृत प्रयोगों के माध्यम से, सुदृढीकरण सीखने की प्रभावशीलता में सुधार के लिए संभावित दिशाओं का सारांश प्रस्तुत किया गया है।

जीआरपीओ (ग्रुप रिलेटिव पॉलिसी ऑप्टिमाइजेशन) एल्गोरिथम

की सीमाएं पीपीओ: पीपीओ एक सामान्य रूप से प्रयुक्त सुदृढीकरण अधिगम एल्गोरिथ्म है, लेकिन इसके लिए प्रशिक्षण की आवश्यकता होती है अतिरिक्त आलोचक मॉडल मूल्य फ़ंक्शन का अनुमान लगाने के लिए, जो लागू करता है अतिरिक्त कम्प्यूटेशनल और मेमोरी बोझइसके अलावा, एलएलएम परिदृश्य में, आलोचक मॉडल प्रशिक्षण जटिल हो सकता है क्योंकि इसमें मूल्यांकन की आवश्यकता होती है प्रत्येक टोकन का आउटपुट.

जीआरपीओ का मूल विचार: जीआरपीओ का मूल विचार है क्रिटिक मॉडल को छोड़ दें और इसके बजाय एक ही समस्या के लिए आउटपुट के एक सेट के औसत स्कोर को बेसलाइन के रूप में उपयोग करें। इस बेसलाइन का उपयोग एडवांटेज फ़ंक्शन का अनुमान लगाने और नीति अनुकूलन के लिए किया जा सकता हैयह दृष्टिकोण प्रशिक्षण की जटिलता को काफी कम कर देता है।

लाभ फ़ंक्शन गणना: जीआरपीओ लाभ फ़ंक्शन की गणना इस प्रकार करता है एक ही आउटपुट सेट में प्रत्येक आउटपुट की सापेक्ष रैंकिंग की गणना करना, बजाय एक अलग मूल्य फ़ंक्शन पर निर्भर रहने के जैसा कि पी.पी.ओ. में है।

केएल विचलन दंड: जीआरपीओ यह PPO की तरह रिवॉर्ड में KL डाइवर्जेंस पेनाल्टी नहीं जोड़ता है, बल्कि पॉलिसी मॉडल और रेफरेंस मॉडल के बीच KL डाइवर्जेंस को सीधे लॉस फंक्शन में जोड़ता है। इससे जटिल एडवांटेज फंक्शन गणना से बचा जा सकता है.

जीआरपीओ का मूल विचार

आलोचक (मूल्य फ़ंक्शन) की आवश्यकता नहीं है: जीआरपीओ मूल्य फ़ंक्शन की आवश्यकता को टालता है और बेसलाइन का अनुमान लगाने के लिए समूह के भीतर के स्कोर का उपयोग करता हैजिससे प्रशिक्षण संसाधन कम हो जाएंगे।

अंतर-समूह सापेक्ष लाभ: प्रत्येक समस्या q के लिए, GRPO पुरानी नीति π(θold) से आउटपुट {o(1), o(2), …, o(G)} का एक सेट नमूना करता है और फिर उद्देश्य फ़ंक्शन के रूप में निम्नलिखित समीकरण को अधिकतम करके नीति मॉडल को अनुकूलित करता है।

विशेषतः:

यहाँ कुंजी Â(i,t) है, जो लाभ को दर्शाता है और इसकी गणना इस प्रकार की जाती है अंतर-समूह आउटपुट का सापेक्ष इनाम, पीपीओ की तरह एक अलग मूल्य फ़ंक्शन पर निर्भर होने के बजाय।

उद्देश्य फ़ंक्शन भी सीधे जोड़ता है केएल विचलन के परिमाण को नियंत्रित करने के लिए एक नियमितीकरण शब्द के रूप में नीति अद्यतन

और पुरस्कार मॉडल की तुलनात्मक प्रकृति के साथ संरेखित करें: जीआरपीओ लाभ की गणना करने के लिए सापेक्ष अंतर-समूह पुरस्कार का उपयोग करता है, जो पुरस्कार मॉडल की प्रकृति के साथ अधिक सुसंगत है, जिसे आमतौर पर जोड़ीदार तुलना के आधार पर प्रशिक्षित किया जाता है।

जीआरपीओ का रिवॉर्ड मॉडल कैसे डिज़ाइन किया जा सकता है (DeepSeek R1 देखें)?

विशेषताएँ:

प्रारूप इनाम: लंबे समय तक पीढ़ी को मजबूर करता है खाट परिणाम, जो मॉडल को अनुमान प्रक्रियाएं उत्पन्न करने के लिए प्रेरित कर सकते हैं और मॉडल के अनुमान प्रभाव में सुधार कर सकते हैं।

सटीकता पुरस्कार: गणित अंतिम परिणाम का उपयोग कर सकता है, और कोड संकलक फीडबैक का उपयोग कर सकता है।

जीआरपीओ के लाभ

कम मेमोरी फ़ुटप्रिंट: किसी क्रिटिक मॉडल की आवश्यकता नहीं, जिससे मेमोरी की आवश्यकता कम हो जाती है।

अधिक कुशल प्रशिक्षण: अंतर-समूह सापेक्ष लाभ का उपयोग करके गणना प्रशिक्षण प्रक्रिया को सरल बनाती है।

पुरस्कार मॉडल की प्रकृति के साथ अधिक सुसंगत: प्रशिक्षण स्थिरता और दक्षता में सुधार करता है।

आरएल एकीकृत प्रतिमान सारांश

एकीकृत प्रतिमान प्रस्तावित

लेखक विभिन्न प्रशिक्षण विधियों जैसे कि एसएफटी (पर्यवेक्षित फाइन-ट्यूनिंग), आरएफटी (अस्वीकृति नमूनाकरण फाइन-ट्यूनिंग), डीपीओ (प्रत्यक्ष वरीयता अनुकूलन), पीपीओ, जीआरपीओ, आदि को समझने के लिए एक एकीकृत प्रतिमान का प्रस्ताव करते हैं। आरएल प्रमुख तत्व: एकीकृत ढांचे के प्रमुख तत्वों में शामिल हैं: डेटा स्रोत, पुरस्कार फ़ंक्शन और एल्गोरिदम।

  • डेटा स्रोत: यह प्रशिक्षण के लिए उपयोग किए जाने वाले डेटा को संदर्भित करता है, जिसे मैनुअल लेबलिंग, एसएफटी मॉडल या वास्तविक समय नीति मॉडल से प्राप्त किया जा सकता है।
  • पुरस्कार समारोह: यह आउटपुट की गुणवत्ता का मूल्यांकन करने के लिए प्रयुक्त फ़ंक्शन को संदर्भित करता है, जो एक नियम या मॉडल हो सकता है।
  • एल्गोरिथ्म: यह डेटा और रिवॉर्ड सिग्नल को संसाधित करने और मॉडल मापदंडों को अद्यतन करने के लिए उपयोग की जाने वाली विधि को संदर्भित करता है।

एकीकृत प्रतिमान के आधार पर विभिन्न विधियों का विश्लेषण

तालिका 10 डेटा स्रोतों, रिवॉर्ड फ़ंक्शन और ग्रेडिएंट गुणांकों के संदर्भ में एसएफटी, आरएफटी, डीपीओ, ऑनलाइन आरएफटी, पीपीओ और जीआरपीओ के बीच समानताएं और अंतर को सारांशित करती है।

तरीकाप्रशिक्षण डेटापुरस्कार समारोहढाल गुणांकप्रशिक्षण विधिलाभ/विशेषताएंलागू परिदृश्य
एसएफटीमैन्युअल रूप से लेबल किया गया SFT डेटामैन्युअल रूप से चयनित (अंतर्निहित पुरस्कार)1 पर स्थिरपर्यवेक्षित अध्ययनसरल और स्थिर, उच्च गुणवत्ता वाले लेबल वाले डेटा पर निर्भरबुनियादी मॉडल प्रशिक्षण, प्रारंभिक संरेखण कार्य
आरएफटीSFT डेटासेट समस्या + SFT मॉडल नमूना आउटपुटउत्तर की शुद्धता के आधार पर (नियम निर्णय)0 (गलत) या 1 (सही)ऑफ़लाइन नीति अनुकूलनकुशल गणना, नियम फीडबैक का प्रत्यक्ष उपयोगस्पष्ट नियमों के साथ गणितीय/तार्किक कार्य
डीपीओSFT डेटासेट समस्या + मॉडल आउटपुटमानव वरीयता लेबलिंग या नियम तुलनावरीयता संभाव्यता गणना के आधार पर (उदाहरण के लिए, ब्रैडली-टेरी मॉडल)तुलनात्मक शिक्षास्पष्ट पुरस्कार मॉडलिंग से बचा जाता है, वरीयताओं को सीधे अनुकूलित करता हैमानव वरीयता संरेखण कार्य (जैसे, संवाद निर्माण)
ऑनलाइन आरएफटीवास्तविक समय नीति मॉडल नमूनाकरण समस्या-आउटपुट जोड़ेउत्तर की शुद्धता के आधार पर (नियम निर्णय)0 (गलत) या 1 (सही)ऑनलाइन नीति अनुकूलनवास्तविक समय फीडबैक अनुकूलन के साथ नीतियों को गतिशील रूप से अपडेट करता हैऐसे परिदृश्य जिनमें ऑनलाइन सहभागिता की आवश्यकता होती है (जैसे, गेम AI)
पीपीओSFT डेटासेट समस्या + नीति मॉडल नमूना आउटपुटपुरस्कार मॉडल (आरएम) प्रशिक्षितप्रभुत्व फ़ंक्शन (पुरस्कार अनुमान पर आधारित)नीति ढाल विधिकुशल और स्थिर, बहु-चरण अनुकूलन का समर्थन करता हैजटिल कार्य (जैसे पाठ निर्माण, रोबोट नियंत्रण)
जीआरपीओSFT डेटासेट समस्या + नीति मॉडल नमूना आउटपुटपुरस्कार मॉडल (आरएम) प्रशिक्षितअंतर-समूह सापेक्ष पुरस्कार (सामान्यीकृत तुलना)समूह नीति अनुकूलनपुरस्कार भिन्नता को कम करें और अंतर-समूह तुलना में सुधार करेंउच्च भिन्नता वाले कार्य (जैसे लंबा पाठ तैयार करना)

डेटा स्रोतों पर अवलोकन

ऑनलाइन बनाम ऑफलाइन प्रशिक्षण: ऑनलाइन प्रशिक्षण का तात्पर्य प्रशिक्षण डेटा के रूप में वास्तविक समय नीति मॉडल के आउटपुट का उपयोग करना है, जबकि ऑफ़लाइन प्रशिक्षण का तात्पर्य प्रशिक्षण डेटा के रूप में एक निश्चित मॉडल (जैसे SFT मॉडल) के आउटपुट का उपयोग करना है। प्रायोगिक परिणाम बताते हैं कि ऑनलाइन प्रशिक्षण आम तौर पर ऑफ़लाइन प्रशिक्षण से बेहतर है.

परिणाम पर्यवेक्षण बनाम प्रक्रिया पर्यवेक्षण: परिणाम पर्यवेक्षण का तात्पर्य केवल आउटपुट के अंतिम चरण को पुरस्कृत करना है, जबकि प्रक्रिया पर्यवेक्षण का तात्पर्य तर्क प्रक्रिया के प्रत्येक चरण को पुरस्कृत करना है। प्रायोगिक परिणाम बताते हैं कि जटिल कार्यों में प्रक्रिया पर्यवेक्षण अधिक प्रभावी है.

एकल-प्रकरण बनाम पुनरावृत्तीय सुदृढीकरण सीखना: एकल-प्रकरण सुदृढीकरण सीखना एकल रणनीति अनुकूलन को संदर्भित करता है, जबकि पुनरावृत्त सुदृढीकरण सीखना कई रणनीति अनुकूलन के बाद इनाम मॉडल के निरंतर अद्यतन को संदर्भित करता है। प्रायोगिक परिणाम बताते हैं कि पुनरावृत्तीय सुदृढीकरण सीखने से प्रदर्शन में काफी सुधार हो सकता है, विशेष रूप से पहले पुनरावृत्ति में.

ग्रेडिएंट गुणांक का अवलोकन

नियम-आधारित बनाम मॉडल-आधारित: नियम का तात्पर्य उत्तर की शुद्धता के आधार पर पुरस्कार का निर्धारण करना है, तथा मॉडल का तात्पर्य स्कोर करने के लिए पुरस्कार मॉडल को प्रशिक्षित करना है।

ढाल गुणांक में अंतर: जीआरपीओ और के बीच मुख्य अंतर ऑनलाइन आरएफटी में अंतर यह है कि जीआरपीओ अपने ग्रेडिएंट गुणांकों को पुरस्कार मॉडल द्वारा प्रदान किए गए पुरस्कार मूल्यों के आधार पर समायोजित करता है, जबकि ऑनलाइन आरएफटी ऐसा नहीं करता है।

जीआरपीओ के लाभ: प्रयोगों से पता चलता है कि जीआरपीओ ऑनलाइन आरएफटी से बेहतर है, जो ग्रेडिएंट गुणांक के चिह्न को बदलने की प्रभावशीलता को प्रदर्शित करता है। जीआरपीओ+पीएस जीआरपीओ+ओएस से बेहतर है, जो बारीक-बारीक, चरण-जागरूक ग्रेडिएंट गुणांक का उपयोग करने के लाभों को प्रदर्शित करता है.

आरएल प्रभावशीलता और सुधार के लिए दिशा-निर्देश

आर.एल. प्रभावी क्यों है?

प्रयोगात्मक परिणाम: आरएल मेजर@के प्रदर्शन में सुधार करता है लेकिन पास@के में नहीं।

स्पष्टीकरण: आरएल आउटपुट वितरण को अधिक मजबूत बनाकर मॉडल के समग्र प्रदर्शन में सुधार करता है, अर्थात, यह मॉडल की अंतर्निहित क्षमता को बढ़ाने के बजाय टॉपके में सही उत्तरों की संभावना में सुधार करता है।

अधिक प्रभावी आर.एल. कैसे प्राप्त किया जा सकता है?

एकीकृत प्रतिमान के आधार पर, लेखक तीन पहलुओं में आरएल में सुधार के लिए भविष्य की दिशाएं प्रस्तावित करते हैं: डेटा स्रोत, एल्गोरिदम और पुरस्कार फ़ंक्शन।

  • डेटा स्रोत:
    • एसएफटी चरण से आगे के मुद्दों का अन्वेषण करें।
    • अधिक उन्नत नमूनाकरण (डिकोडिंग) रणनीतियों का उपयोग करें, जैसे कि वृक्ष खोज-आधारित विधियाँ।
    • नीति मॉडल की अन्वेषण दक्षता में सुधार करने के लिए कुशल अनुमान तकनीकों का उपयोग करें।
  • एल्गोरिथ्म:
    • सुदृढ़ीकरण सीखने के एल्गोरिदम का अन्वेषण करें जो शोर पुरस्कार संकेतों के प्रति अधिक मजबूत हैं।
    • कमजोर से मजबूत प्रकार के संरेखण विधियों का अध्ययन करें।
  • पुरस्कार समारोह:
    • आउट-ऑफ-डिस्ट्रीब्यूशन समस्याओं और उन्नत डिकोडेड आउटपुट को संभालने के लिए पुरस्कार मॉडल की सामान्यीकरण क्षमता को बढ़ाना।
    • पुरस्कार मॉडल की अनिश्चितता को प्रतिबिंबित करें और इसे कमजोर पुरस्कार मॉडल और कमजोर-से-मजबूत सीखने के एल्गोरिदम को जोड़ने के लिए एक सेतु के रूप में उपयोग करें।
    • अनुमान प्रक्रिया के लिए सूक्ष्म प्रशिक्षण संकेत प्रदान करने के लिए उच्च गुणवत्ता वाले प्रक्रिया पुरस्कार मॉडल का कुशलतापूर्वक निर्माण करना।

सारांश

DeepSeekMath ने बड़े पैमाने पर गणितीय कॉर्पस का निर्माण करके और एक नया सुदृढीकरण सीखने का एल्गोरिदम प्रस्तावित करके गणितीय तर्क में ओपन सोर्स भाषा मॉडल की क्षमता में काफी सुधार किया है। इस पेपर के मुख्य बिंदु हैं

  • DeepSeekMath कॉर्पस का निर्माण और सत्यापन, जो एक बड़े पैमाने पर, उच्च गुणवत्ता वाला, बहुभाषी गणितीय कॉर्पस है।
  • मॉडल की गणितीय तर्क क्षमता में सुधार करते हुए मेमोरी उपयोग को कम करने के लिए एक कुशल सुदृढीकरण सीखने के एल्गोरिदम, जीआरपीओ, का प्रस्ताव किया गया है।
  • गणितीय तर्क क्षमता पर कोड प्रशिक्षण के प्रभाव पर गहराई से चर्चा की गई है, और यह पाया गया है कि arXiv डेटा का सीमित प्रभाव है। DeepSeekMath का मान:
  • यह ओपन सोर्स समुदाय को एक शक्तिशाली गणितीय तर्क मॉडल प्रदान करता है और गणितीय AI के विकास को बढ़ावा देता है।
  • यह गणितीय निकायों के निर्माण और गणितीय तर्क मॉडलों के प्रशिक्षण के लिए मूल्यवान अनुभव और विधियां प्रदान करता है।
  • प्रस्तावित जीआरपीओ एल्गोरिदम अन्य क्षेत्रों में सुदृढीकरण सीखने के प्रशिक्षण के लिए नए विचार प्रदान करता है।

इसी तरह की पोस्ट

प्रातिक्रिया दे

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *