1 पृष्ठभूमि

वसंत महोत्सव के दौरान, 1टीपी5टी एक बार फिर व्यापक ध्यान आकर्षित किया, और यहां तक कि DeepSeek V3 व्याख्या लेख जो हमने पहले लिखा था, उसे भी पुनः प्रसारित किया गया और उस पर काफी चर्चा हुई।

यद्यपि DeepSeek R1 के कई विश्लेषण और पुनरुत्पादन हुए हैं, फिर भी हमने यहां कुछ संगत पठन नोट्स संकलित करने का निर्णय लिया है।

हम मॉडल निर्माण और प्रमुख तकनीकी बिंदुओं को प्रदर्शित करने के लिए तीन मुख्य योजनाबद्ध आरेखों का उपयोग करेंगे, DeepSeek-R1 श्रृंखला के सार को आसवित करेंगे ताकि इसके डिजाइन विचारों की अधिक सहज समझ प्रदान की जा सके।

संबंधित पेपर इस प्रकार है [2501.12948] DeepSeek-R1: सुदृढीकरण सीखने के माध्यम से एलएलएम में तर्क क्षमता को प्रोत्साहित करना

और संबंधित ओपन सोर्स मॉडल है 1टीपी8टी-आर1

2 परिचय

2.1 सामान्य तर्क एल्गोरिदम

जैसा कि नीचे चित्र 2 में दिखाया गया है, लेखक चार सामान्य तर्क एल्गोरिदम की व्याख्या करता है। हालाँकि वे विशिष्ट विवरणों में भिन्न हैं, लेकिन उन सभी में दो मुख्य ऑपरेशन शामिल हैं:

  • विस्तार: समाधान पथ का विस्तार करने के लिए टोकन उत्पन्न करें।
  • एकत्रीकरण: अंतिम उत्तर प्राप्त करने के लिए प्रत्येक पथ के परिणामों को एकीकृत करें। विस्तार चरण में कम्प्यूटेशनल संसाधनों को बढ़ाने से आमतौर पर एकत्रीकरण चरण में उत्तर की गुणवत्ता में सुधार हो सकता है।

स्व-संगति (SC)। जैसा कि चित्र 2a में दिखाया गया है, SC का मुख्य विचार कई अलग-अलग आउटपुट उत्पन्न करना है (जिसे नमूनाकरण मापदंडों को बदलकर प्राप्त किया जा सकता है, आदि), और फिर उच्चतम जीतने की दर वाले उत्तर का चयन करने के लिए सभी उत्तरों के लिए वोट करना। मुख्य पैरामीटर उम्मीदवार उत्तरों की संख्या n है।

रीबेस एल्गोरिथ्म: जैसा कि नीचे चित्र 2बी में दिखाया गया है, रीबेस भी कई आउटपुट उत्पन्न करता है, लेकिन वे कई चरणों में उत्पन्न होते हैं। प्रत्येक चरण को रिवॉर्ड मॉडल का उपयोग करके स्कोर किया जाता है, और उच्चतम स्कोर वाले परिणाम का उपयोग जनरेटिंग जारी रखने के लिए किया जाता है। अंत में, कई शाखाओं वाला एक तर्क वृक्ष उत्पन्न होता है। उच्चतम स्कोर (बेस्ट-ऑफ़-एन) वाला उत्तर एकत्रीकरण चरण में चुना जाता है।

मोंटे कार्लो ट्री सर्च (MCTS): जैसा कि नीचे चित्र 2c में दिखाया गया है, MCTS एक शक्तिशाली रीजनिंग एल्गोरिदम है जो धीरे-धीरे सैंपलिंग करके नोड्स का विस्तार करता है और एक समाधान वृक्ष का निर्माण करता है जब तक कि यह उम्मीदवार समाधान वाले लीफ नोड तक नहीं पहुंच जाता। प्रत्येक समाधान को एक रिवॉर्ड मॉडल या सिमुलेशन के माध्यम से स्कोर किया जाता है, और स्कोर को उनके पूर्वज नोड्स में वापस प्रसारित किया जाता है ताकि उनके रिवॉर्ड मानों को अपडेट किया जा सके, इस प्रकार एक पुनरावृत्ति पूरी हो जाती है। मुख्य पैरामीटर भी n है, और n को बढ़ाने से संभावित समाधानों की गहन और व्यापक खोज की अनुमति मिलती है।

आंतरिककृत संज्ञानात्मक श्रृंखला (ICoT)। जैसा कि नीचे चित्र 2d में दिखाया गया है, नवीनतम LLM, जैसे कि OpenAI o1 और Qwen-QWQ, स्पष्ट तर्क एल्गोरिथ्म की आवश्यकता के बिना प्रशिक्षण के दौरान तर्क व्यवहार को आंतरिक बना सकते हैं। मुख्य विचार एक CoT अनुक्रम उत्पन्न करना, जटिल समस्याओं को कई उप-समस्याओं में विघटित करना और फिर पिछले आउटपुट पर विचार करके इन उत्तरों को पुनरावृत्त रूप से अनुकूलित करना है ताकि अंततः एक समाधान पर पहुंचा जा सके।

2.2 तर्क संरेखण विधियाँ

2.2.1 बेस्ट-ऑफ-एन विधि का अवलोकन

संक्षेप में, बेस्ट-ऑफ-एन एक संरेखण विधि है जिसका व्यापक रूप से एलएलएम अनुमान में उपयोग किया जाता है, जिसका उद्देश्य कई उम्मीदवार प्रतिक्रियाओं को उत्पन्न करके और सर्वश्रेष्ठ का चयन करके उत्पन्न परिणामों की उच्च गुणवत्ता सुनिश्चित करना है। इसमें तीन मुख्य प्रक्रियाएँ शामिल हैं:

  1. जनरेशन प्रक्रिया: किसी दिए गए प्रॉम्प्ट X के लिए, बेस्ट-ऑफ-N विधि N IID प्रतिक्रियाएं (Y₁, Y₂, …, Yₙ) उत्पन्न करती है, जहां N को अक्सर "बैच आकार" के रूप में संदर्भित किया जाता है।
  2. स्कोरिंग तंत्र: प्रत्येक उत्पन्न प्रतिक्रिया को एक पुरस्कार मॉडल द्वारा स्कोर किया जाता है ताकि संबंधित स्कोर {s(Y₁), s(Y₂), …, s(Yₙ)} प्राप्त किया जा सके।
  3. सर्वोत्तम प्रतिक्रिया का चयन: अंत में, सभी उत्पन्न प्रतिक्रियाओं में से उच्चतम स्कोर वाली प्रतिक्रिया को आउटपुट के रूप में चुना जाता है, अर्थात, Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}।

इस विधि के लाभ इस प्रकार हैं:

  1. यह जटिल फ़ाइन-ट्यूनिंग चरणों को प्रभावी ढंग से टाल सकता है, जिससे पूर्व-प्रशिक्षित या निर्देशों के साथ फ़ाइन-ट्यून्ड किए गए भाषा मॉडल को तैनात करना आसान हो जाता है।
  2. इसे लागू करना सरल है, समझना आसान है, तथा यह मूलतः हाइपरपैरामीटर्स से मुक्त है: मुख्य हाइपरपैरामीटर N है, जिसे अनुमान के दौरान गतिशील रूप से समायोजित किया जा सकता है।
  3. यह उत्पादन गुणवत्ता के मामले में अत्यधिक प्रतिस्पर्धी है और यहां तक कि RLHF या DPO जैसी कुछ जटिल पोस्ट-ट्रेनिंग तकनीकों से भी मुकाबला कर सकता है। शोध से पता चलता है कि बेस्ट-ऑफ-एन विधि इनाम और केएल विचलन के बीच व्यापार-बंद वक्र पर अच्छा प्रदर्शन करती है, यहां तक कि अन्य जटिल संरेखण रणनीतियों को भी पीछे छोड़ देती है।

इस विधि के नुकसान ये हैं

  1. अनुमान लगाने के लिए N अनुक्रम उत्पन्न करने की आवश्यकता होती है, जिससे महत्वपूर्ण कम्प्यूटेशनल ओवरहेड हो सकता है। व्यवहार में, N के लिए एक उचित मान 4 से 128 तक होता है, लेकिन सबसे उन्नत पोस्ट-ट्रेनिंग विधियों के साथ प्रतिस्पर्धा करने के लिए, उच्च N मानों की आवश्यकता हो सकती है, जैसे कि 1000 से 60000, जिससे लगभग अस्वीकार्य कम्प्यूटेशनल ओवरहेड हो सकता है।

सर्वोत्तम-एन विधि का प्रयोग अक्सर पर्यवेक्षित फाइन-ट्यूनिंग के लिए उच्च-गुणवत्ता वाले डेटासेट उत्पन्न करने के लिए किया जाता है और इसने LLaMA-2 और LLaMA-3 के संरेखण प्रक्रिया में महत्वपूर्ण भूमिका निभाई है।

2.2.2 ओपनएआई बेस्ट-ऑफ-एन विधि

ओपनएआई ने सबसे पहले बेस्ट-ऑफ-एन सैंपलिंग का प्रस्ताव रखा [2009.01325] मानवीय प्रतिक्रिया से सारांश बनाना सीखना . विशेष रूप से, इसका उपयोग कई मॉडलों से उत्पन्न सर्वोत्तम सारांश का चयन करके सारांश मॉडल के प्रदर्शन का मूल्यांकन और अनुकूलन करने के लिए किया जाता है। यह विधि शोधकर्ताओं को विभिन्न मूल्यांकन मीट्रिक और मानव मूल्यांकनकर्ता वरीयताओं के बीच संबंधों को बेहतर ढंग से समझने में मदद करती है, और इसका उपयोग मॉडल प्रशिक्षण और अनुकूलन को निर्देशित करने के लिए किया जाता है।

ओपनएआई फॉलो-अप में बेस्ट-ऑफ-एन सैंपलिंग (अस्वीकृति नमूनाकरण) का भी उपयोग करता है [2112.09332] WebGPT: मानव फ़ीडबैक के साथ ब्राउज़र-सहायता प्राप्त प्रश्न-उत्तर. विशेष रूप से, बीसी मॉडल या आरएल मॉडल से उत्तरों की एक निश्चित संख्या (4, 16 या 64) का नमूना लिया जाता है, और उच्चतम पुरस्कार मॉडल स्कोर वाले को प्रतिकूल पुरस्कार मॉडल के लिए अनुकूलन विधि के रूप में चुना जाता है। इस विधि को अतिरिक्त प्रशिक्षण की आवश्यकता नहीं होती है, लेकिन इसे प्राप्त करने के लिए अनुमान चरण की कम्प्यूटेशनल जटिलता बढ़ जाती है।

2.2.3 गूगल बॉन्ड विधि

में [2407.14622] बॉन्ड: एलएलएम को बेस्ट-ऑफ-एन डिस्टिलेशन के साथ संरेखित करते हुए, गूगल के लेखक बेस्ट-ऑफ-एन डिस्टिलेशन (बॉन्ड) का प्रस्ताव करते हैं, एक नया आरएलएचएफ एल्गोरिदम जिसे अनुमान के दौरान कम्प्यूटेशनल ओवरहेड को महत्वपूर्ण रूप से बढ़ाए बिना वितरण मिलान एल्गोरिदम के माध्यम से बेस्ट-ऑफ-एन नमूनाकरण रणनीति का अनुकरण करने के लिए डिज़ाइन किया गया है।

विशेष रूप से, लेखक सबसे पहले बेस्ट-ऑफ-एन नमूनाकरण का सटीक विश्लेषणात्मक वितरण प्राप्त करता है और बेस्ट-ऑफ-एन नमूनाकरण का संभाव्यता फ़ंक्शन देता है:

दूसरा, लेखक समस्या को वितरण मिलान समस्या के रूप में व्यक्त करते हैं;

इसके बाद, लेखक वितरण मिलान उद्देश्य के रूप में जेफ़्रीज़ डाइवर्जेंस का उपयोग करने का प्रस्ताव करते हैं:

अंत में, N के चयन की समस्या को हल करने के लिए, लेखक पुनरावृत्तीय BOND विधि का प्रस्ताव करते हैं, जो N के सर्वश्रेष्ठ वितरण को पुनरावृत्तीय रूप से आसवित करके रणनीति के प्रदर्शन को बेहतर बनाता है। विशिष्ट चरणों में शामिल हैं:

सहायक एंकर रणनीति π(एंकर) को आरंभ करें।

सर्वश्रेष्ठ-एन π(एंकर) को आसवित करने के लिए BOND को पुनरावृत्त रूप से निष्पादित करें और प्रत्येक चरण के बाद π(एंकर) को अपडेट करें।

2.3 प्रक्रिया पर्यवेक्षण और परिणाम पर्यवेक्षण

परिणाम और प्रक्रिया, पुरस्कार मॉडल मूल्यांकन के दो पहलुओं को संदर्भित करते हैं:

  • परिणाम पुरस्कार मॉडल: मूल्यांकन करें कि मॉडल आउटपुट का अंतिम परिणाम सही है या अपेक्षा के अनुरूप है।
  • प्रक्रिया पुरस्कार मॉडल: यह मूल्यांकन करता है कि परिणाम उत्पन्न करने की प्रक्रिया में मॉडल के तर्क और निर्णय लेने के चरण उचित और प्रभावी हैं या नहीं।

उदाहरण के लिए, OpenAI के Let's Verify Step by Step | OpenAI में यह भी उल्लेख किया गया है:

  • प्रक्रिया पर्यवेक्षण (परिणाम-पर्यवेक्षित): इसमें मॉडल की तर्क प्रक्रिया के प्रत्येक चरण पर प्रतिक्रिया प्रदान करना शामिल है। प्रक्रिया-पर्यवेक्षित पुरस्कार मॉडल (PRM) को समाधान के प्रत्येक चरण की शुद्धता की भविष्यवाणी करने के लिए प्रशिक्षित किया जाता है।
  • परिणाम-पर्यवेक्षित: परिणाम-पर्यवेक्षित केवल मॉडल के तर्क के अंतिम परिणाम के आधार पर प्रतिक्रिया प्रदान करता है। परिणाम-पर्यवेक्षित पुरस्कार मॉडल (ORM) को समाधान के अंतिम उत्तर का उपयोग करके प्रशिक्षित किया जाता है, और स्वचालित जाँच द्वारा शुद्धता निर्धारित की जाती है।

2.4 रिवॉर्ड हैकिंग

आरएल में, रिवॉर्ड हैकिंग उस घटना को संदर्भित करता है जिसमें एक एजेंट रिवॉर्ड फ़ंक्शन के डिज़ाइन में किसी दोष का फ़ायदा उठाता है ताकि संचयी रिवॉर्ड को इस तरह से अधिकतम किया जा सके जो डिज़ाइनर के मूल इरादे को पूरा न करे। हालाँकि यह व्यवहार तकनीकी रूप से रिवॉर्ड फ़ंक्शन के अनुकूलन लक्ष्य को पूरा करता है, लेकिन वास्तविक प्रभाव अपेक्षित कार्य लक्ष्य से भटक जाता है और इससे नकारात्मक परिणाम भी हो सकते हैं।

मुख्य बिंदु विश्लेषण:

  1. परिभाषा और अभिव्यक्ति:
    1. एजेंट पुरस्कार फ़ंक्शन में कोई त्रुटि पाता है और समस्या को वास्तव में हल करने के बजाय "शॉर्टकट" अपनाकर उच्च पुरस्कार प्राप्त करता है।
    2. उदाहरण के लिए, एक सफाई रोबोट कमरे को वास्तव में साफ करने के बजाय, उसे "साफ" दिखाने के लिए रोशनी बंद कर देता है; एक गेम एजेंट स्तर के लक्ष्य को पूरा किए बिना बार-बार अंक अर्जित करता है; ब्रेक लगाने के समय की संख्या को कम करने के लिए गति को धीमा न करने का विकल्प चुनना, जो सुरक्षा के लिए खतरा पैदा करता है; उच्च स्कोर को धोखा देने के लिए कीवर्ड से मेल खाने वाली अर्थहीन सामग्री उत्पन्न करना।
  2. मूल कारणों:
    1. अपूर्ण पुरस्कार फ़ंक्शन डिज़ाइन: अति सरलीकरण या किनारे के मामलों को कवर करने में विफलता।
    2. लक्ष्यों और पुरस्कारों के बीच विसंगति: पुरस्कार फ़ंक्शन वास्तविक लक्ष्य को पूरी तरह से प्रतिबिंबित करने में विफल रहता है, जिसके कारण एजेंट "गलत" लक्ष्य के लिए अनुकूलन करता है।
  3. समाधान:
    1. पुरस्कार डिजाइन में सुधार करें: बहुआयामी पुरस्कार (जैसे सुरक्षा, दक्षता, आदि) शुरू करें या पुरस्कार फ़ंक्शन को गतिशील रूप से समायोजित करें।
    2. प्रतिकूल सत्यापन: अतिरिक्त तंत्रों के माध्यम से पता लगाएं कि क्या एजेंट "धोखा" दे रहा है।
    3. मैनुअल हस्तक्षेप और बाधाएं: व्यवहारिक सीमाएं (जैसे सुरक्षा परत) या मैनुअल फीडबैक (जैसे आरएलएचएफ) निर्धारित करें।
    4. व्युत्क्रम सुदृढीकरण सीखना (आईआरएल): विशेषज्ञ प्रदर्शनों से अधिक यथार्थवादी पुरस्कार फ़ंक्शन सीखें।
    5. पदानुक्रमिक सुदृढीकरण सीखना: स्थानीय अनुकूलन के जोखिम को कम करने के लिए कार्य को उप-लक्ष्यों में विघटित करें।
  4. ओवरफिटिंग के साथ संबंध:
    1. दोनों ही प्रशिक्षण मेट्रिक्स और वास्तविक दुनिया के प्रदर्शन के बीच एक वियोग दर्शाते हैं, लेकिन रिवॉर्ड हैकिंग मॉडल की सामान्यीकरण क्षमता की तुलना में रिवॉर्ड फ़ंक्शन के डिज़ाइन दोषों पर अधिक जोर देता है।
  5. सारांश:
    1. रिवॉर्ड हैकिंग से आरएल में लक्ष्य संरेखण की चुनौती का पता चलता है। इस समस्या को हल करने के लिए अधिक मजबूत रिवॉर्ड तंत्रों को डिजाइन करने, बाहरी बाधाओं को पेश करने और मानवीय पूर्व ज्ञान को शामिल करने के संयोजन की आवश्यकता होती है ताकि यह सुनिश्चित किया जा सके कि एजेंट का व्यवहार कुशल और डिजाइन के इरादे के अनुरूप हो।

3 DeepSeek-R1-शून्य और DeepSeek-R1

3.1 अवलोकन

पिछले शोध में मॉडल के प्रदर्शन को बेहतर बनाने के लिए बड़े पैमाने पर पर्यवेक्षित डेटा की बड़ी मात्रा पर भरोसा किया गया है। यह अध्ययन दर्शाता है कि कोल्ड स्टार्ट के रूप में SFT के बिना भी, बड़े पैमाने पर RL मॉडल की तर्क क्षमता को काफी हद तक बढ़ा सकता है। इसके अलावा, कोल्ड स्टार्ट डेटा की एक छोटी मात्रा का परिचय प्रदर्शन को और भी बेहतर बना सकता है। DeepSeek-R1 से संबंधित मॉडल निम्नलिखित हैं:

  1. DeepSeek-R1-Zero: यह मॉडल किसी भी SFT डेटा के बिना RL को सीधे बेस मॉडल पर लागू करता है।
  2. DeepSeek-R1: यह मॉडल एक चेकपॉइंट से आरएल लागू करता है जिसे हजारों लंबे CoT नमूनों के साथ ठीक किया गया है।
  3. DeepSeek-R1-Distill-xx: DeepSeek-R1 की तर्क क्षमता को एक छोटे से सघन मॉडल में परिवर्तित करता है।

3.2 DeepSeek-R1-शून्य

निम्नलिखित चित्र DeepSeek-R1-Zero मॉडल के प्रशिक्षण में मुख्य बिंदुओं को दर्शाता है:

पुनश्च: यह ध्यान दिया जाना चाहिए कि यह पेपर DeepSeek-R1-Zero की RL प्रक्रिया में उपयोग किए गए डेटा के बारे में अधिक जानकारी प्रदान नहीं करता है। हालाँकि, बाद के R1 प्रशिक्षण में डेटा निर्माण प्रक्रिया और मात्रा के बारे में कुछ स्पष्टीकरण है, हालाँकि यह विशेष रूप से विशिष्ट नहीं है।

3.2.1 आरएल एल्गोरिथ्म

आरएल की प्रशिक्षण लागत को कम करने के लिए, लेखक DeepSeek की अपनी GRPO (ग्रुप रिलेटिव पॉलिसी ऑप्टिमाइजेशन) विधि, [2402.03300] DeepSeekMath: ओपन लैंग्वेज मॉडल में गणितीय तर्क की सीमाओं को आगे बढ़ाना का उपयोग करते हैं। यह विधि क्रिटिक मॉडल को छोड़ देती है, जो आमतौर पर पॉलिसी मॉडल के आकार के बराबर होता है, और इसके बजाय समूह स्कोर का उपयोग करके बेसलाइन का अनुमान लगाता है। संबंधित स्पष्टीकरण नीचे दिए गए चित्र में दिखाया गया है (ट्विटर से चित्र):

3.2.2 पुरस्कार मॉडलिंग

पुरस्कार प्रशिक्षण संकेतों का स्रोत हैं और आरएल की अनुकूलन दिशा निर्धारित करते हैं। DeepSeek-R1-Zero को प्रशिक्षित करने के लिए, लेखकों ने एक नियम-आधारित पुरस्कार प्रणाली का उपयोग किया, जिसमें मुख्य रूप से दो प्रकार के पुरस्कार शामिल हैं:

  • सटीकता पुरस्कार: मूल्यांकन करें कि क्या प्रतिक्रिया सही है। उदाहरण के लिए:
    • नियतात्मक परिणाम वाली गणितीय समस्याओं में, मॉडल को अंतिम उत्तर एक विशिष्ट प्रारूप में (जैसे कि एक बॉक्स के अंदर) प्रदान करने की आवश्यकता होती है, ताकि नियमों द्वारा इसकी शुद्धता को विश्वसनीय रूप से सत्यापित किया जा सके।
    • इसी प्रकार, लीटकोड समस्याओं के लिए, पूर्वनिर्धारित परीक्षण मामलों के आधार पर कंपाइलर का उपयोग करके फीडबैक तैयार किया जा सकता है।
  • प्रारूप पुरस्कार: प्रारूप पुरस्कार का उपयोग मॉडल को अपनी विचार प्रक्रिया को " " और " ” टैग.

DeepSeek-R1-Zero के विकास के दौरान, लेखक ने आउटकम न्यूरल रिवार्ड मॉडल या प्रोसेस न्यूरल रिवार्ड मॉडल का उपयोग नहीं किया क्योंकि लेखक ने पाया कि न्यूरल रिवार्ड मॉडल बड़े पैमाने पर आरएल प्रक्रियाओं में रिवार्ड स्पूफिंग (रिवार्ड हैकिंग) का सामना कर सकता है; इसके अलावा, रिवार्ड मॉडल को पुनः प्रशिक्षित करने के लिए न केवल अतिरिक्त प्रशिक्षण संसाधनों की आवश्यकता होती है, बल्कि यह संपूर्ण प्रशिक्षण प्रक्रिया को भी जटिल बनाता है।

3.2.3 प्रशिक्षण टेम्पलेट

DeepSeek-R1-Zero को प्रशिक्षित करने के लिए, लेखकों ने सबसे पहले बेस मॉडल को निर्धारित निर्देशों का पालन करने के लिए मार्गदर्शन करने के लिए एक सरल टेम्पलेट डिज़ाइन किया। जैसा कि नीचे दी गई तालिका 1 में दिखाया गया है, टेम्पलेट को अनुमान प्रक्रिया उत्पन्न करने और फिर अंतिम उत्तर देने के लिए DeepSeek-R1-Zero की आवश्यकता होती है।

लेखक ने जानबूझकर इस संरचनात्मक ढांचे तक ही सीमित बाधाओं को रखा है, ताकि किसी भी प्रकार का विषय-वस्तु संबंधी पूर्वाग्रह उत्पन्न न हो - उदाहरण के लिए, चिंतनशील तर्क को बल देना या विशिष्ट समस्या-समाधान रणनीतियों को बढ़ावा देना - ताकि यह सुनिश्चित किया जा सके कि मॉडल के प्राकृतिक विकास को वास्तविक जीवन में आरएल प्रक्रिया के दौरान सटीक रूप से देखा जा सके।

3.2.4 निष्कर्ष

एसएफटी डेटा के बिना मजबूत तर्क क्षमता: बेस मॉडल से सीधे आरएल शुरू करके, मॉडल के विकास पथ को एसएफटी हस्तक्षेप के बिना बारीकी से मॉनिटर किया जा सकता है। जैसा कि नीचे चित्र 3 दिखाता है, DeepSeek-R1-Zero के सोचने के समय में प्रशिक्षण प्रक्रिया के दौरान सुधार जारी रहा (विकास की अवधि धीरे-धीरे लंबी होती गई)। यह सुधार बाहरी समायोजन से नहीं आया, बल्कि मॉडल के आंतरिक विकास का एक स्वाभाविक परिणाम था। DeepSeek-R1-Zero ने स्वाभाविक रूप से विस्तारित परीक्षण समय गणनाओं का उपयोग करके, प्रतिबिंबित करने की क्षमता जैसे जटिल अनुमान कार्यों को हल करने की क्षमता प्राप्त की।

DeepSeek-R1-Zero ने प्रशिक्षण के दौरान एक "अहा पल" का अनुभव किया। जैसा कि नीचे दी गई तालिका 3 में दिखाया गया है, यह पल मॉडल के मध्य संस्करण चरण के दौरान हुआ। इस चरण के दौरान, DeepSeek-R1-Zero ने अपने प्रारंभिक दृष्टिकोण का पुनर्मूल्यांकन करके समस्याओं पर अधिक सोचने का समय आवंटित करना सीखा।

बहुमत मतदान: बहुमत मतदान लागू करके DeepSeek-R1-Zero के प्रदर्शन को और बेहतर बनाया जा सकता है। उदाहरण के लिए, जैसा कि नीचे दी गई तालिका 2 में दिखाया गया है, AIME बेंचमार्क परीक्षण में बहुमत मतदान का उपयोग करने के बाद, इसका प्रदर्शन 71.0% से बढ़कर 86.7% हो जाता है, जो OpenAI-o1-0912 से आगे निकल जाता है।

कमजोरियां: जबकि DeepSeek-R1-Zero मजबूत तर्क क्षमताओं का प्रदर्शन करता है और स्वायत्त रूप से अप्रत्याशित और शक्तिशाली तर्क व्यवहार विकसित करता है, फिर भी इसे खराब पठनीयता और भाषा मिश्रण जैसी चुनौतियों का सामना करना पड़ता है।

3.3 1टीपी8टी-आर1

रीजनिंग प्रक्रिया को अधिक पठनीय बनाने और इसे खुले समुदाय के साथ साझा करने के लिए, लेखक DeepSeek-R1 विधि का और अन्वेषण करते हैं, जो RL के लिए मानव-अनुकूल कोल्ड-स्टार्ट डेटा का उपयोग करता है। DeepSeek-R1-Zero से प्रेरित होकर, दो स्वाभाविक प्रश्न उठते हैं:

  1. क्या कोल्ड स्टार्ट के रूप में उच्च गुणवत्ता वाले डेटा की एक छोटी मात्रा को शामिल करके रीजनिंग प्रदर्शन को और बेहतर बनाया जा सकता है या अभिसरण प्रक्रिया को तेज किया जा सकता है?
  2. हम एक उपयोगकर्ता-अनुकूल मॉडल को कैसे प्रशिक्षित कर सकते हैं जो न केवल स्पष्ट और सुसंगत CoTs उत्पन्न करता है, बल्कि मजबूत सामान्यीकरण क्षमताओं को भी प्रदर्शित करता है?

इन सवालों के जवाब में, हमने DeepSeek-R1 के लिए एक प्रशिक्षण प्रक्रिया तैयार की। इस प्रक्रिया में कई चरण शामिल हैं, जैसा कि नीचे वर्णित है:

चरण-1, जैसा कि नीचे चित्र में दिखाया गया है, SFT + RL के माध्यम से DeepSeek-R1 की मध्यवर्ती अवस्था को प्रशिक्षित करता है:

निम्नलिखित चित्र चरण-2, 3 और 4 को दर्शाता है:

  • चरण-2: ऊपर बाईं ओर, 200K गैर-तर्क डेटा और 600K तर्क डेटा का निर्माण करें।
  • चरण-3: ऊपरी दायां, SFT + RL ट्रेन DeepSeek-R1.
  • चरण-4: निचला चित्र, डिस्टिल DeepSeek-R1-डिस्टिल-xx.

3.3.1 कोल्ड स्टार्ट (चरण-1)

DeepSeek-R1-Zero के विपरीत, RL प्रशिक्षण की शुरुआत में बेस मॉडल के अस्थिर कोल्ड स्टार्ट चरण को रोकने के लिए, लेखकों ने DeepSeek-R1 के लिए लॉन्ग CoT डेटा की एक छोटी मात्रा बनाई और एकत्र की ताकि मॉडल को प्रारंभिक RL एक्टर के रूप में ठीक किया जा सके। इस डेटा को इकट्ठा करने के लिए, लेखकों ने विभिन्न तरीकों की खोज की:

  • लॉन्ग CoT उदाहरणों के साथ कुछ-शॉट प्रॉम्प्ट का उपयोग करना
  • प्रतिबिंब और सत्यापन के साथ विस्तृत उत्तर उत्पन्न करने के लिए मॉडल को सीधे संकेत देना
  • DeepSeek-R1-Zero आउटपुट को मानव-पठनीय प्रारूप में एकत्रित करना
  • मैनुअल लेबलिंग के साथ पोस्ट-प्रोसेसिंग के माध्यम से परिणामों को परिष्कृत करना

लेखकों ने कुल हज़ारों कोल्ड स्टार्ट डेटा एकत्र किया, जिसका उपयोग DeepSeek-V3-Base को RL के लिए शुरुआती बिंदु के रूप में ठीक करने के लिए किया गया। DeepSeek-R1-Zero की तुलना में, कोल्ड स्टार्ट डेटा के लाभों में शामिल हैं

  • पठनीयता: DeepSeek-R1-शून्य प्रतिक्रियाओं को कई भाषाओं में मिलाया जा सकता है या उपयोगकर्ता के उत्तरों को हाइलाइट करने के लिए उपयोग किए जाने वाले मार्कडाउन स्वरूपण की कमी हो सकती है। इसके विपरीत, DeepSeek-R1 के लिए कोल्ड स्टार्ट डेटा बनाते समय, लेखक ने एक पठनीय प्रारूप तैयार किया जिसमें प्रत्येक प्रतिक्रिया के अंत में एक सारांश शामिल है और अपठनीय प्रतिक्रियाओं को फ़िल्टर करता है। यहाँ, आउटपुट प्रारूप को |special_token| के रूप में परिभाषित किया गया है। |विशेष_टोकन| , जहां reasoning_process क्वेरी की श्रृंखलाबद्ध सोच है और summary का उपयोग तर्क परिणामों को संक्षेप में प्रस्तुत करने के लिए किया जाता है।
  • संभाव्यता: मानव-प्राथमिकता वाले कोल्ड स्टार्ट डेटा पैटर्न के संयोजन को सावधानीपूर्वक डिजाइन करके, लेखकों ने देखा कि इसका प्रदर्शन DeepSeek-R1-Zero से बेहतर है।

3.3.2 तर्क-संचालित आरएल (चरण-1)

कोल्ड स्टार्ट डेटा पर DeepSeek-V3-बेस को फाइन-ट्यूनिंग करने के बाद, DeepSeek-R1-Zero जैसी ही बड़े पैमाने पर RL प्रशिक्षण प्रक्रिया का उपयोग किया जाता है। इस चरण का उद्देश्य तर्क-गहन कार्यों में मॉडल की क्षमता में सुधार करना है, विशेष रूप से प्रोग्रामिंग, गणित, विज्ञान और तार्किक तर्क समस्याओं पर स्पष्ट समाधान के साथ।

प्रशिक्षण के दौरान, लेखकों ने पाया कि CoT अक्सर भाषा मिश्रण से ग्रस्त था, खासकर जब RL प्रॉम्प्ट में कई भाषाएँ शामिल थीं। भाषा मिश्रण की समस्या को कम करने के लिए, लेखकों ने RL प्रशिक्षण में एक भाषा स्थिरता पुरस्कार पेश किया, जिसकी गणना CoT में लक्ष्य भाषा में शब्दों के अनुपात के आधार पर की जाती है। हालाँकि पृथक्करण प्रयोगों से पता चलता है कि इस संरेखण विधि से मॉडल के प्रदर्शन में थोड़ी कमी आती है, यह पुरस्कार तंत्र मानवीय प्राथमिकताओं के अनुरूप है और पठनीयता को बढ़ाता है। अंत में, लेखक अंतिम पुरस्कार बनाने के लिए भाषा स्थिरता पुरस्कार में तर्क कार्य की सटीकता को सीधे जोड़ते हैं, और फाइन-ट्यून्ड मॉडल पर RL प्रशिक्षण को तब तक लागू करते हैं जब तक कि यह तर्क कार्य पर अभिसरित न हो जाए।

3.3.3 800,000 चयनित डेटा का निर्माण (चरण-2)

जब रीजनिंग के लिए आरएल अभिसरित होता है, तो अगले प्रशिक्षण दौर के लिए परिणामी चेकपॉइंट का उपयोग करके एसएफटी डेटा एकत्र किया जाता है। प्रारंभिक कोल्ड स्टार्ट डेटा के विपरीत, जो मुख्य रूप से रीजनिंग पर केंद्रित है, यह चरण लेखन, रोल-प्लेइंग और अन्य सामान्य-उद्देश्य कार्यों में मॉडल की क्षमता को बढ़ाने के लिए अन्य डोमेन से डेटा को शामिल करता है। विशेष रूप से, डेटा उत्पन्न होता है और मॉडल को निम्नानुसार ठीक किया जाता है:

  • तर्क डेटा: तर्क संकेत चुने जाते हैं और तर्क प्रक्षेप पथ उपर्युक्त आरएल प्रशिक्षित चेकपॉइंट (DeepSeek-R1 चरण 1) से अस्वीकृति नमूनाकरण करके उत्पन्न होते हैं। पिछले चरण में, केवल वही डेटा शामिल किया गया था जिसका मूल्यांकन नियम-आधारित पुरस्कारों का उपयोग करके किया जा सकता था। हालाँकि, इस चरण में, अधिक डेटा शामिल करके डेटासेट का विस्तार किया गया था, जिनमें से कुछ को एक पुरस्कार मॉडल का उपयोग करके उत्पन्न किया गया था, और वास्तविक उत्तरों का मूल्यांकन मॉडल पूर्वानुमानों को DeepSeek-V3 (DeepSeek V3 को जज के रूप में) में फीड करके किया गया था। इसके अलावा, क्योंकि मॉडल आउटपुट कभी-कभी भ्रामक और पढ़ने में कठिन होता है, इसलिए मिश्रित-भाषा विचार श्रृंखला, लंबे पैराग्राफ और कोड ब्लॉक को फ़िल्टर किया गया था। प्रत्येक संकेत के लिए, कई प्रतिक्रियाओं का नमूना लिया गया और केवल सही लोगों (बेस्ट-ऑफ़-एन) को बनाए रखा गया। कुल मिलाकर, लगभग 600,000 तर्क-संबंधी प्रशिक्षण नमूने एकत्र किए गए।
  • गैर-तर्कसंगत डेटा: जैसे कि लेखन, तथ्यात्मक प्रश्न, आत्म-जागरूकता और अनुवाद, ने DeepSeek-V3 प्रक्रिया का उपयोग किया और DeepSeek-V3 के कुछ SFT डेटासेट का पुनः उपयोग किया। कुछ गैर-तर्कसंगत कार्यों के लिए, प्रश्न का उत्तर देने से पहले संभावित CoTs उत्पन्न करने के लिए DeepSeek-V3 को बुलाया जाता है। हालाँकि, "हैलो" जैसे सरल प्रश्नों के लिए, प्रतिक्रिया में कोई विचार श्रृंखला प्रदान नहीं की जाती है। अंत में, कुल मिलाकर लगभग 200,000 गैर-तर्कसंगत प्रशिक्षण नमूने एकत्र किए गए।

3.3.4 सभी परिदृश्यों के लिए एसएफटी और आरएल (चरण-3)

कुल मिलाकर लगभग 800,000 चयनित नमूनों की फाइन-ट्यूनिंग के दो दौर DeepSeek-V3-बेस पर दो पूर्वोक्त डेटा सेटों (रीजनिंग और नॉन-रीजनिंग) का उपयोग करके किए गए।

मॉडल को मानवीय प्राथमिकताओं के साथ और अधिक संरेखित करने के लिए, लेखकों ने आरएल के दूसरे चरण को लागू किया, जिसका उद्देश्य मॉडल की उपयोगिता और हानिरहितता में सुधार करना है, साथ ही इसकी तर्क क्षमताओं को भी परिष्कृत करना है। विशेष रूप से, मॉडल को इनाम संकेतों और विविध संकेत वितरण के संयोजन के साथ प्रशिक्षित किया गया था।

  • तर्क डेटा के लिए, DeepSeek-R1-Zero में वर्णित कार्यप्रणाली का अनुसरण किया जाता है, जिसमें गणित, प्रोग्रामिंग और तार्किक तर्क के क्षेत्रों में मॉडल के सीखने को निर्देशित करने के लिए नियम-आधारित पुरस्कार तंत्र का उपयोग किया जाता है।
  • सामान्य डेटा के लिए, जटिल और सूक्ष्म स्थितियों में मानवीय प्राथमिकताओं को पकड़ने के लिए रिवॉर्ड मॉडल का उपयोग किया जाता है। DeepSeek-V3 प्रक्रिया के आधार पर वरीयता जोड़े और प्रशिक्षण संकेत वितरण की एक समान रणनीति का उपयोग किया जाता है।
  • उपयोगिता के संदर्भ में, केवल अंतिम सारांश पर विचार किया जाता है, जिससे यह सुनिश्चित होता है कि मूल्यांकन उपयोगकर्ता के लिए प्रतिक्रिया की व्यावहारिकता और प्रासंगिकता पर केंद्रित हो, जबकि अंतर्निहित तर्क प्रक्रिया में हस्तक्षेप को न्यूनतम किया जाए।
  • जहां तक हानिरहितता का सवाल है, मॉडल की संपूर्ण प्रतिक्रिया का व्यापक मूल्यांकन किया जाता है, जिसमें तर्क प्रक्रिया और सारांश भी शामिल है, ताकि निर्माण प्रक्रिया के दौरान उत्पन्न होने वाले किसी भी संभावित जोखिम, पूर्वाग्रह या हानिकारक सामग्री की पहचान की जा सके और उसे समाप्त किया जा सके।
  • अंततः, पुरस्कार संकेतों को एकीकृत करके और डेटा वितरण में विविधता लाकर, एक ऐसे मॉडल को प्रशिक्षित किया जा सकता है जो लाभ और अहानिकारकता दोनों को प्राथमिकता देता है और साथ ही तर्क में भी उत्कृष्टता प्राप्त करता है।

3.3.5 आसवन (चरण-4)

DeepSeek-R1 की तर्क क्षमता के साथ एक अधिक कुशल छोटे मॉडल को सुसज्जित करने के लिए, लेखकों ने DeepSeek-R1-Stage-1 में चुने गए 800,000 नमूनों का उपयोग करके सीधे ओपन सोर्स मॉडल Qwen और LLaMA को ठीक किया। परिणाम बताते हैं कि यह प्रत्यक्ष आसवन विधि छोटे मॉडलों की तर्क क्षमता में काफी सुधार करती है। लेखकों द्वारा उपयोग किए जाने वाले बुनियादी मॉडलों में Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B और Llama-3.3-70B-Instruct शामिल हैं। Llama-3.3 का चयन इसलिए किया गया क्योंकि इसकी तर्क क्षमता Llama-3.1 से थोड़ी बेहतर है।

आसवन मॉडल के लिए, लेखक केवल SFT का उपयोग करता है और RL चरण को शामिल नहीं करता है। हालाँकि RL की शुरूआत मॉडल के प्रदर्शन में बहुत सुधार कर सकती है, यहाँ लेखक का मुख्य उद्देश्य आसवन तकनीक की प्रभावशीलता को प्रदर्शित करना है, और RL चरण की खोज को बाद के शोध के लिए छोड़ दिया गया है।

पुनश्च: इसके अलावा, उपरोक्त डेटा उत्पन्न करने और आसवन के लिए उपयोग किए गए 800,000 डेटा को फिर से बनाने के लिए अंतिम DeepSeek-R1 का उपयोग करना वास्तव में संभव है, और आसुत मॉडल का बेहतर प्रभाव हो सकता है; हालाँकि, कीमत यह है कि डेटा को फिर से बनाने की आवश्यकता है।

इसी तरह की पोस्ट

प्रातिक्रिया दे

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *