आज हम साझा करेंगे 1टीपी5टी, शीर्षक: DeepSeek-R1: सुदृढीकरण सीखने के माध्यम से एलएलएम में तर्क क्षमता को प्रोत्साहित करना: सुदृढीकरण सीखने के माध्यम से एलएलएम की तर्क क्षमता को प्रोत्साहित करना।

यह पेपर DeepSeek के तर्क मॉडल की पहली पीढ़ी का परिचय देता है, DeepSeek-R1-शून्य और 1टीपी8टी-आर1DeepSeek-R1-Zero मॉडल को किसके माध्यम से प्रशिक्षित किया गया था? प्रारंभिक चरण के रूप में पर्यवेक्षित फ़ाइन-ट्यूनिंग (SFT) के बिना बड़े पैमाने पर सुदृढीकरण सीखना (RL), RL की क्षमता और बेहतर तर्क क्षमताओं का प्रदर्शन करता है यह लाता है। सुदृढीकरण सीखने के माध्यम से, DeepSeek-R1-Zero स्वाभाविक रूप से कई शक्तिशाली और दिलचस्प तर्क व्यवहारों के साथ उभराआर1-जीरो (भाषाई भ्रम, बेहतर सामान्यीकरण क्षमता) के साथ कुछ मुद्दों को और अधिक अनुकूलित करने के लिए, उन्होंने जारी किया DeepSeek-R1, जो सुदृढीकरण सीखने से पहले बहु-चरणीय प्रशिक्षण और कोल्ड-स्टार्ट डेटा फ़ाइन-ट्यूनिंग को जोड़ता है। DeepSeek-R1 ने तुलनीय प्रदर्शन हासिल किया OpenAI-01-1217 के साथ तर्क कार्य पर। अनुसंधान समुदाय का समर्थन करने के लिए, उन्होंने ओपन-सोर्स DeepSeek-R1-Zero, DeepSeek-R1, और DeepSeek-R1 से निकाले गए छह सघन मॉडल (1.5B, 7B, 8B, 14B, 32B, 70B), जो कि क्वेन और लामा पर आधारित हैं.

विधि की विशेषताएं संक्षेप में इस प्रकार हैं:

  1. सुदृढीकरण सीखना सीधे आधार मॉडल पर लागू होता है, प्रारंभिक चरण के रूप में पर्यवेक्षित फ़ाइन-ट्यूनिंग (एसएफटी) पर निर्भर किए बिना।
  2. DeepSeek-R1 विकास प्रक्रिया शुरू की गई है, जो मॉडल की तर्क और गैर-तर्क क्षमताओं के लिए आधार तैयार करने के लिए दो सुदृढीकरण सीखने के चरणों और दो पर्यवेक्षित फ़ाइन-ट्यूनिंग चरणों को संयोजित करता है.
  3. तर्क कार्यों पर छोटे मॉडलों के प्रदर्शन को बड़े मॉडलों के तर्क पैटर्न को छोटे मॉडलों में स्थानांतरित करके सुधारा जाता है। आसवन तकनीक.

अवलोकन

प्रेरणा

  • वर्तमान बड़े भाषा मॉडल (एलएलएम) ने अनुमान कार्यों में महत्वपूर्ण प्रगति की है, लेकिन अभी भी चुनौतियों का सामना करना पड़ रहा है।
  • शुद्ध की क्षमता एलएलएम की तर्क क्षमता में सुधार करने में सुदृढीकरण सीखने (आरएल) का पूरी तरह से पता नहीं लगाया गया है, विशेष रूप से पर्यवेक्षित डेटा पर भरोसा किए बिना।
  • आरएल के माध्यम से प्रशिक्षित मॉडल, जैसे DeepSeek-R1-Zero में पठनीयता और भाषा मिश्रण (जैसे, चीनी और अंग्रेजी मिश्रित बोलना) की समस्या है, तथा उपयोगकर्ता-मित्रता में सुधार के लिए इसमें और सुधार की आवश्यकता है.

तरीकों

DeepSeek-R1-शून्य: बेस मॉडल के रूप में DeepSeek-V3-Base का उपयोग करता है, और सुदृढीकरण सीखने के रूप में जीआरपीओ (समूह सापेक्ष नीति अनुकूलन) रूपरेखा, अनुमान में मॉडल के प्रदर्शन को बेहतर बनाने के लिए पर्यवेक्षित डेटा के बिना.

1टीपी8टी-आर1:

  • ठंडी शुरुआत: उच्च गुणवत्ता वाले लंबे CoT (चेन-ऑफ-थॉट) डेटा की एक छोटी मात्रा एकत्र करता है और इसे ठीक करता है DeepSeek-V3-बेस मॉडल सुदृढीकरण सीखने के लिए प्रारंभिक अभिनेता के रूप में।
  • तर्क-उन्मुख सुदृढीकरण सीखना: जो उसी सुदृढीकरण सीखने की प्रशिक्षण प्रक्रिया DeepSeek-R1-शून्य के रूप में लागू की जाती है, लेकिन मॉडल की तर्क क्षमताओं को बढ़ाने पर ध्यान केंद्रित किया जाता है कोडिंग, गणित, विज्ञान और तार्किक तर्क जैसे क्षेत्रों में। CoT में होने वाली भाषाई मिश्रण की समस्या को कम करने के लिए भाषाई स्थिरता पुरस्कार पेश किए गए हैं।
  • अस्वीकृति नमूनाकरण और पर्यवेक्षित फ़ाइन-ट्यूनिंग: सुदृढीकरण सीखने के अभिसरित चेकपॉइंट का उपयोग करता है पर्यवेक्षित फ़ाइन-ट्यूनिंग (SFT) डेटा एकत्र करें आगामी प्रशिक्षण के लिए।
  • सभी परिदृश्यों के लिए सुदृढीकरण सीखना: एक दूसरे स्तर के सुदृढीकरण सीखने के चरण को लागू करता है, जिसका उद्देश्य सुधार करना है मॉडल की उपयोगीता और हानिरहितता को ध्यान में रखते हुए, इसकी तर्क क्षमता को अनुकूलित करना।
  • ज्ञान आसवन: DeepSeek-R1 द्वारा संकलित 800k नमूनों का उपयोग करके सीधे ओपन सोर्स मॉडल क्वेन और लामा को परिष्कृत करना।

विस्तृत विधियां और प्रक्रियाएं:

DeepSeek-R1-Zero: आधार मॉडल के लिए सुदृढीकरण सीखना

  • सुदृढीकरण सीखने एल्गोरिथ्म: समूह सापेक्ष नीति अनुकूलन (जीआरपीओ) एल्गोरिथ्म का उपयोग करता है, जो की आवश्यकता नहीं है समीक्षक मॉडल, समूह स्कोर द्वारा आधार रेखा का अनुमान लगाता है, और प्रशिक्षण लागत को कम करता है.
  • पुरस्कार मॉडलिंग: का उपयोग करता है नियम-आधारित पुरस्कार प्रणाली, शामिल
  • सटीकता पुरस्कार: यह मूल्यांकन करता है कि क्या उत्तर सही है, जैसे कि प्रश्न के अंतिम परिणाम की शुद्धता। गणित समस्या का उत्तर, कोड समस्याओं के लिए संकलक से प्रतिक्रिया.
  • प्रारूप पुरस्कार: मॉडल को प्रोत्साहित करता है सोचने की प्रक्रिया को बीच में रखें और टैग.

प्रशिक्षण टेम्पलेट: एक टेम्पलेट जिसमें और टैग को डिज़ाइन किया गया है मॉडल को पहले विचार प्रक्रिया और फिर अंतिम उत्तर देने के लिए निर्देशित करें.

  • आत्म-विकास प्रक्रिया: DeepSeek-R1-Zero का प्रदर्शन किया गया प्रशिक्षण के दौरान आत्म-विकासवादी विशेषताओं को विकसित किया, और अधिक जटिल तर्क रणनीतियों को स्वायत्त रूप से सीखने में सक्षम था, जैसे कि कई समस्या-समाधान पथों का प्रतिबिंब और अन्वेषण.

DeepSeek-R1: कोल्ड स्टार्ट के साथ संयुक्त सुदृढीकरण सीखना

  • ठंडी शुरुआत: DeepSeek-R1-Zero को हल करने के लिए पठनीयता समस्या, DeepSeek-R1 पहले थोड़ी मात्रा में एकत्र करता है उच्च गुणवत्ता वाला CoT डेटा और DeepSeek-V3-बेस मॉडल को बेहतर बनाता है सुदृढीकरण सीखने के लिए प्रारंभिक अभिनेता के रूप में कार्य करें. शीत प्रारंभ डेटा इसमें सारांश टैग और अमित्र उत्तर शामिल हैं फ़िल्टर कर दिए जाते हैं।
    • विधि: 1) उच्च गुणवत्ता वाला लंबा COT डेटा चुनें। 2) टैग जोड़ें।
    • लाभ: 1) अनुकूलित पठनीयता (R1-Zero की बहुभाषी समस्या या मार्कडाउन प्रारूप समस्या का समाधान)। 2) सावधानीपूर्वक चयनित मानव-पसंदीदा डेटा R1-Zero पर प्रदर्शन में सुधार जारी रख सकता है।
    • प्रश्न: पठनीयता समस्या का समाधान क्यों किया जाए? क्या इसे हल किए बिना बेहतर करना संभव नहीं है (जैसे, आउटपुट की लंबाई कम करना और अधिक कुशलता से अनुमान लगाना)?
  • तर्क-उन्मुख आरएल: कोल्ड-स्टार्ट मॉडल के आधार पर, एक सुदृढीकरण सीखने की प्रक्रिया DeepSeek-R1-Zero का प्रयोग किया गया है, जो कोडिंग, गणित, वैज्ञानिक और तार्किक तर्क जैसे कार्यों में मॉडल की क्षमता को बेहतर बनाने पर केंद्रित हैमिश्रित भाषाओं की समस्या को हल करने के लिए (बहुभाषी तर्क), भाषा स्थिरता पुरस्कार पेश किए गए हैं।
    • प्रश्न: वैज्ञानिक और तार्किक तर्क कार्यों और डेटासेटों को कैसे प्रशिक्षित किया जाता है?
  • अस्वीकृति नमूनाकरण और एसएफटी: अनुमान-निर्देशित सुदृढीकरण सीखने के अभिसरण के बाद, प्राप्त चेकपॉइंट का उपयोग किया जाता है नए एसएफटी डेटा उत्पन्न करने के लिए अस्वीकृति नमूनाकरण का उपयोग किया जाता है, जिसे लेखन, भूमिका-निभाने और सामान्य कार्यों में मॉडल की क्षमताओं को बढ़ाने के लिए DeepSeek-V3 के डेटा के साथ जोड़ा जाता है।
    • उद्देश्य:
      • यह चरण निम्नलिखित के बाद शुरू किया जाता है: अनुमान-उन्मुख सुदृढीकरण सीखने (आरएल) प्रक्रिया अभिसरण करती है.
      • इसका मुख्य उद्देश्य यह है कि पर्यवेक्षित फ़ाइन-ट्यूनिंग (SFT) डेटा एकत्र करें आगामी प्रशिक्षण दौर में उपयोग के लिए।
      • प्रारंभिक कोल्ड-स्टार्ट डेटा के विपरीत, जो केवल अनुमान पर केंद्रित होता है, इस चरण का उद्देश्य है मॉडल की क्षमताओं का विस्तार करें लेखन, भूमिका-निर्धारण और अन्य सामान्य प्रयोजन कार्यों को कवर करना, न कि केवल अनुमान लगाना।
    • डेटा संग्रहण – अनुमान डेटा:
      • तरीका: अस्वीकृति प्रतिचयन द्वारा अनुमान पथ उत्पन्न करने के लिए अनुमान-उन्मुख आरएल चरण से प्राप्त चेकपॉइंट्स का उपयोग करें।
      • डेटा सेट विस्तार: पिछले आरएल चरण के विपरीत, जिसमें केवल नियम-आधारित पुरस्कार डेटा का उपयोग किया गया था, यहाँ गैर-नियम-आधारित पुरस्कार डेटा पेश किया गया है। कुछ मामलों में, प्रतिक्रिया निर्धारित करने के लिए एक जनरेटिव रिवॉर्ड मॉडल (DeepSeek-V3) का उपयोग किया जाता है।
      • डेटा फ़िल्टरिंग: गुणवत्ता और पठनीयता सुनिश्चित करने के लिए, आउटपुट को फ़िल्टर करके हटाया जाता है:
        • मिश्रित भाषाओं वाली विचार श्रृंखलाएँ
        • लंबे पैराग्राफ
        • कोड ब्लॉक
      • नमूनाकरण और चयन: प्रत्येक प्रॉम्प्ट के लिए, कई प्रतिक्रियाएँ उत्पन्न की गईं। डेटासेट के लिए केवल “सही” प्रतिक्रिया को ही बनाए रखा गया।
      • डेटासेट का आकार: लगभग 600,000 अनुमान-संबंधी प्रशिक्षण नमूने इस तरह से एकत्र किए गए थे।
    • डेटा संग्रहण – गैर-अनुमान डेटा:
      • कवरेज: लेखन, तथ्यात्मक प्रश्न उत्तर (क्यूए), आत्म-जागरूकता और अनुवाद।
      • इस पेपर में इसके उपयोग का उल्लेख किया गया है DeepSeek-V3 की प्रक्रिया और DeepSeek-V3 SFT डेटासेट के भाग का पुनः उपयोग इन गैर-अनुमान कार्यों को संभालने के लिए। 200,000 अनुमान-स्वतंत्र नमूने अर्जित किये गये। (नोट: गैर-अनुमान डेटा के संग्रह का विवरण अनुभाग 2.3.4 में आगे वर्णित है)
    • एकत्रित डेटा का उपयोग:
      • एकत्रित तर्क और गैर-तर्क डेटा (कुल लगभग 800,000 नमूने - 600,000 तर्क नमूने + 200,000 गैर-तर्क नमूने) का उपयोग तब किया गया था DeepSeek-V3-बेस मॉडल को दो युगों के लिए फाइन-ट्यून करेंइस परिष्कृत मॉडल का उपयोग अनुभाग 2.3.4 में वर्णित अंतिम आरएल चरण में किया गया।
    • सारांश यह चरण अनुमान क्षमताओं का उपयोग करता है आरएल के माध्यम से सीखा गया एक विविध और उच्च गुणवत्ता वाला एसएफटी डेटासेट तैयार करने के लिए। यह डेटासेट अनुमान क्षमताओं को मजबूत करता है और सामान्य क्षमताओं का भी विस्तार करता है अंतिम संरेखण और सुधार चरण में प्रशिक्षण के लिए मॉडल।
  • सभी परिदृश्यों के लिए सुदृढीकरण सीखना: मानव प्राथमिकताओं को और अधिक संरेखित करने के लिए, मॉडल की उपयोगिता और हानिरहितता में सुधार करने के लिए सुदृढीकरण सीखने का दूसरा चरण लागू किया जाता है।
    • अनुमान डेटा: उदाहरणार्थ गणित, कोड, तार्किक अनुमान या नियम आधारित विधियों के साथ पर्यवेक्षित।
    • सामान्य डेटा: जटिल और सूक्ष्म परिदृश्यों के लिए वरीयता जानकारी प्रदान करने के लिए अभी भी पुरस्कार मॉडल का उपयोग किया जाता है। युग्मित डेटा के साथ प्रशिक्षित मॉडल का भी अनुमान लगाया जाता है।
    • उपयोगिता: केवल अंतिम सारांश परिणामों पर ध्यान केंद्रित करें, जिससे अनुमान प्रक्रिया में हस्तक्षेप कम हो।
    • हानिरहितता: किसी भी जोखिम को कम करने के लिए संपूर्ण प्रतिक्रिया का पर्यवेक्षण करें।

मॉडल आसवन (Distillation):

  • अधिक कुशल लघु अनुमान मॉडल प्राप्त करने के लिए, यह पेपर DeepSeek-R1 की अनुमान क्षमता को क्वेन और लामा श्रृंखला के ओपन सोर्स मॉडल में आसवित करता है। आसवन प्रक्रिया केवल पर्यवेक्षित फ़ाइन-ट्यूनिंग (SFT) का उपयोग करता है और सुदृढीकरण सीखने के चरण का उपयोग नहीं करता है।

निष्कर्ष

DeepSeek-R1-शून्य: की क्षमता को प्रदर्शित करता है एलएलएम अनुमान क्षमता को प्रेरित करने में शुद्ध सुदृढीकरण सीखना, और मजबूत प्रदर्शन प्राप्त कर सकता है पर्यवेक्षित डेटा पर निर्भर किये बिना।

  • अहा क्षण: सुदृढीकरण सीखने की सुंदरता (मॉडल का ज्ञान का क्षण, जहां यह किसी समस्या का पुनर्मूल्यांकन करना सीखकर उस पर सोचने के लिए अधिक समय आवंटित करता है प्रारंभिक दृष्टिकोण)
  • आउटपुट की लंबाई लगातार बढ़ती रहती है (सोचने का समय लगातार बढ़ता रहता है)
  • सटीकता में सुधार जारी है (सटीकता की गणना के लिए 16 प्रतिक्रियाओं का नमूना लिया गया)
  • 1टीपी8टी-आर1: कोल्ड-स्टार्ट डेटा और पुनरावृत्त सुदृढीकरण सीखने की फाइन-ट्यूनिंग को मिलाकर मॉडल के प्रदर्शन को और बेहतर बनाता है, विभिन्न कार्यों पर OpenAI-01-1217 के बराबर स्तर प्राप्त करना.
  • ज्ञान आसवन: DeepSeek-R1 को शिक्षक मॉडल के रूप में उपयोग करते हुए, 800K प्रशिक्षण नमूने तैयार किए गए और कई छोटे, सघन मॉडलों को ठीक किया गया। परिणाम बताते हैं कि यह आसवन विधि से अनुमान लगाने की क्षमता में काफी सुधार हो सकता है छोटे मॉडल.

परिसीमन

  • सीमा 1: DeepSeek-R1 की सामान्य क्षमता में सुधार की आवश्यकता है। DeepSeek-R1 अभी भी फ़ंक्शन कॉल, मल्टी-टर्न डायलॉग, जटिल रोल-प्लेइंग और JSON आउटपुट जैसे कार्यों में DeepSeek-V3 से कमतर है।
  • सीमा 2: भाषा मिश्रण समस्या. DeepSeek-R1 को गैर-चीनी और गैर-अंग्रेजी प्रश्नों को संसाधित करते समय भाषा मिश्रण की समस्या का सामना करना पड़ सकता है, उदाहरण के लिए, अंग्रेजी में तर्क करना और जवाब देना।
  • सीमा 3: शीघ्र संवेदनशीलता. DeepSeek-R1 संकेत शब्दों के प्रति संवेदनशील है, और कुछ-शॉट संकेत देने से इसका प्रदर्शन कम हो जाएगा।
  • सीमा 4: सॉफ्टवेयर इंजीनियरिंग कार्यों तक सीमित अनुप्रयोग। लंबे मूल्यांकन समय के कारण, बड़े पैमाने पर सुदृढीकरण सीखने को सॉफ्टवेयर इंजीनियरिंग कार्यों में पूरी तरह से लागू नहीं किया गया है, और सॉफ्टवेयर इंजीनियरिंग बेंचमार्क में DeepSeek-R1 में DeepSeek-V3 की तुलना में सीमित सुधार हुआ है।

इसी तरह की पोस्ट

प्रातिक्रिया दे

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *