१ पृष्ठभूमि

वसन्त महोत्सवको समयमा, DeepSeek R1 फेरि एक पटक व्यापक ध्यान आकर्षित भयो, र हामीले पहिले लेखेको DeepSeek V3 व्याख्या लेख पनि पुन: प्रसारित भयो र धेरै छलफल गरियो।

यद्यपि DeepSeek R1 को धेरै विश्लेषण र पुनरुत्पादनहरू भएका छन्, यहाँ हामीले केही सम्बन्धित पठन नोटहरू संकलन गर्ने निर्णय गरेका छौं।

हामी मोडेल निर्माण र मुख्य प्राविधिक बुँदाहरू प्रदर्शन गर्न तीनवटा मुख्य योजनाबद्ध रेखाचित्रहरू प्रयोग गर्नेछौं, DeepSeek-R1 शृङ्खलाको सारलाई यसको डिजाइन विचारहरूको थप सहज बुझाइ प्रदान गर्न डिस्टिल्ड गर्नेछौं।

सम्बन्धित पत्र हो [2501.12948] DeepSeek-R1: सुदृढीकरण सिकाइ मार्फत LLM मा तर्क क्षमतालाई प्रोत्साहन गर्दै

र सम्बन्धित खुला स्रोत मोडेल हो DeepSeek-R1

२ परिचय

२.१ सामान्य तर्क एल्गोरिदमहरू

तलको चित्र २ मा देखाइएझैं, लेखकले चार सामान्य तर्क एल्गोरिदमहरू व्याख्या गर्छन्। यद्यपि तिनीहरू विशिष्ट विवरणहरूमा फरक छन्, तिनीहरू सबैमा दुई मुख्य अपरेशनहरू समावेश छन्:

  • विस्तार: समाधान मार्ग विस्तार गर्न टोकनहरू उत्पन्न गर्नुहोस्।
  • एकत्रीकरण: अन्तिम उत्तर प्राप्त गर्न प्रत्येक मार्गको नतिजा एकीकृत गर्नुहोस्। विस्तार चरणमा कम्प्युटेसनल स्रोतहरू बढाउनाले सामान्यतया एकत्रीकरण चरणमा उत्तरको गुणस्तर सुधार गर्न सकिन्छ।

स्व-स्थिरता (SC)। चित्र २a मा देखाइए अनुसार, SC को मुख्य विचार भनेको धेरै फरक आउटपुटहरू उत्पन्न गर्नु हो (जुन नमूना प्यारामिटरहरू, आदि परिवर्तन गरेर प्राप्त गर्न सकिन्छ), र त्यसपछि उच्चतम विजयी दरको साथ उत्तर चयन गर्न सबै उत्तरहरूको लागि मतदान गर्नु हो। मुख्य प्यारामिटर भनेको उम्मेदवार उत्तरहरूको संख्या n हो।

रिबेस एल्गोरिथ्म: तलको चित्र २b मा देखाइए अनुसार, रिबेसले धेरै आउटपुटहरू पनि उत्पन्न गर्दछ, तर तिनीहरू धेरै चरणहरूमा उत्पन्न हुन्छन्। प्रत्येक चरण रिवार्ड मोडेल प्रयोग गरेर स्कोर गरिन्छ, र उच्चतम स्कोर भएको परिणाम उत्पन्न गर्न जारी राख्न प्रयोग गरिन्छ। अन्तमा, धेरै शाखाहरू भएको तर्क रूख उत्पन्न हुन्छ। उच्चतम स्कोर (बेस्ट-अफ-एन) भएको उत्तर एकत्रीकरण चरणमा चयन गरिन्छ।

मोन्टे कार्लो ट्री सर्च (MCTS): तलको चित्र २c मा देखाइए अनुसार, MCTS एक शक्तिशाली तर्क एल्गोरिथ्म हो जसले बिस्तारै नमूना बनाएर नोडहरू विस्तार गर्दछ र उम्मेदवार समाधान भएको पात नोडमा नपुगुन्जेल समाधान रूख निर्माण गर्दछ। प्रत्येक समाधानलाई रिवार्ड मोडेल वा सिमुलेशन मार्फत स्कोर गरिन्छ, र स्कोरलाई यसको पूर्वज नोडहरूमा फिर्ता प्रचार गरिन्छ ताकि तिनीहरूको रिवार्ड मानहरू अद्यावधिक गर्न सकियोस्, यसरी पुनरावृत्ति पूरा होस्। मुख्य प्यारामिटर पनि n हो, र n बढाउँदा सम्भावित समाधानहरूको गहिरो र फराकिलो अन्वेषणको लागि अनुमति दिन्छ।

आन्तरिकीकृत संज्ञानात्मक श्रृंखला (ICoT)। तल चित्र २d मा देखाइए अनुसार, OpenAI o1 र Qwen-QWQ जस्ता नवीनतम LLM हरूले स्पष्ट तर्क एल्गोरिथ्मको आवश्यकता बिना प्रशिक्षणको क्रममा तर्क व्यवहारलाई आन्तरिकीकरण गर्न सक्छन्। मुख्य विचार भनेको CoT अनुक्रम उत्पन्न गर्नु, जटिल समस्याहरूलाई धेरै उप-समस्याहरूमा विघटन गर्नु, र त्यसपछि समाधानमा पुग्न अघिल्लो आउटपुटहरूमा प्रतिबिम्बित गरेर यी उत्तरहरूलाई पुनरावृत्ति रूपमा अनुकूलन गर्नु हो।

२.२ तर्क पङ्क्तिबद्धता विधिहरू

२.२.१ बेस्ट-अफ-एन विधि सिंहावलोकन

छोटकरीमा भन्नुपर्दा, बेस्ट-अफ-एन भनेको LLM अनुमानमा व्यापक रूपमा प्रयोग हुने एक पङ्क्तिबद्ध विधि हो, जसको उद्देश्य धेरै उम्मेदवार प्रतिक्रियाहरू उत्पन्न गरेर र उत्तम एक चयन गरेर उत्पन्न परिणामहरूको उच्च गुणस्तर सुनिश्चित गर्नु हो। यसमा तीन मुख्य प्रक्रियाहरू हुन्छन्:

  1. उत्पादन प्रक्रिया: दिइएको प्रम्प्ट X को लागि, Best-of-N विधिले N IID प्रतिक्रियाहरू (Y₁, Y₂, …, Yₙ) उत्पन्न गर्दछ, जहाँ N लाई प्रायः "ब्याच साइज" भनिन्छ।
  2. स्कोरिङ मेकानिज्म: प्रत्येक उत्पन्न प्रतिक्रियालाई इनाम मोडेलद्वारा स्कोर गरिन्छ ताकि सम्बन्धित स्कोर {s(Y₁), s(Y₂), …, s(Yₙ)} प्राप्त गर्न सकियोस्।
  3. उत्तम प्रतिक्रिया चयन गर्दै: अन्तमा, सबै उत्पन्न प्रतिक्रियाहरू मध्ये उच्चतम स्कोर भएको प्रतिक्रियालाई आउटपुटको रूपमा चयन गरिन्छ, अर्थात्, Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}।

यस विधिका फाइदाहरू यस प्रकार छन्:

  1. यसले जटिल फाइन-ट्युनिङ चरणहरूलाई प्रभावकारी रूपमा बेवास्ता गर्न सक्छ, जसले गर्दा पूर्व-प्रशिक्षित वा निर्देशनहरू सहित फाइन-ट्युन गरिएका भाषा मोडेलहरू तैनाथ गर्न सजिलो हुन्छ।
  2. यो कार्यान्वयन गर्न सरल छ, बुझ्न सजिलो छ, र अनिवार्य रूपमा हाइपरप्यारामिटरहरूबाट मुक्त छ: मुख्य हाइपरप्यारामिटर N हो, जुन अनुमानको समयमा गतिशील रूपमा समायोजन गर्न सकिन्छ।
  3. यो उत्पादन गुणस्तरको हिसाबले अत्यधिक प्रतिस्पर्धी छ र RLHF वा DPO जस्ता केही जटिल पोस्ट-ट्रेनिङ प्रविधिहरूसँग पनि प्रतिस्पर्धा गर्न सक्छ। अनुसन्धानले देखाउँछ कि बेस्ट-अफ-एन विधिले इनाम र KL विचलन बीचको ट्रेड-अफ कर्भमा राम्रो प्रदर्शन गर्दछ, अन्य जटिल पङ्क्तिबद्ध रणनीतिहरूलाई पनि उछिनेर।

यस विधिका बेफाइदाहरू हुन्

  1. अनुमानको लागि N अनुक्रमहरू उत्पन्न गर्न आवश्यक छ, जसले महत्त्वपूर्ण कम्प्युटेसनल ओभरहेड निम्त्याउन सक्छ। व्यवहारमा, N को लागि उचित मान ४ देखि १२८ सम्म हुन्छ, तर सबैभन्दा उन्नत पोस्ट-ट्रेनिङ विधिहरूसँग प्रतिस्पर्धा गर्न, १००० देखि ६०००० जस्ता उच्च N मानहरू आवश्यक पर्न सक्छ, जसले लगभग अस्वीकार्य कम्प्युटेसनल ओभरहेड निम्त्याउन सक्छ।

पछिल्ला सुपरिवेक्षित फाइन-ट्युनिङको लागि उच्च-गुणस्तरको डेटासेटहरू उत्पन्न गर्न प्रायः बेस्ट-अफ-एन विधि प्रयोग गरिन्छ र LLaMA-2 र LLaMA-3 को पङ्क्तिबद्धता प्रक्रियामा प्रमुख भूमिका खेलेको थियो।

२.२.२ ओपनएआई बेस्ट-अफ-एन विधि

ओपनएआईले पहिलो पटक २०१५ मा बेस्ट-अफ-एन नमूना प्रस्ताव गरेको थियो [२००९.०१३२५] मानव प्रतिक्रियाबाट संक्षेप गर्न सिक्दै । विशेष गरी, यो धेरै मोडेलहरूबाट उत्पन्न हुने उत्तम सारांश चयन गरेर सारांश मोडेलको कार्यसम्पादन मूल्याङ्कन र अनुकूलन गर्न प्रयोग गरिन्छ। यो विधिले अनुसन्धानकर्ताहरूलाई विभिन्न मूल्याङ्कन मेट्रिक्स र मानव मूल्याङ्कनकर्ता प्राथमिकताहरू बीचको सम्बन्धलाई राम्रोसँग बुझ्न मद्दत गर्दछ, र मोडेल प्रशिक्षण र अनुकूलनलाई मार्गदर्शन गर्न प्रयोग गरिन्छ।

ओपनएआईले फलो-अपमा बेस्ट-अफ-एन नमूना (अस्वीकृति नमूना) पनि प्रयोग गर्दछ। [2112.09332] WebGPT: मानव प्रतिक्रियाको साथ ब्राउजर-सहायता प्राप्त प्रश्न-उत्तर। विशेष गरी, BC मोडेल वा RL मोडेलबाट निश्चित संख्यामा उत्तरहरू (४, १६ वा ६४) नमूना गरिन्छन्, र उच्चतम पुरस्कार मोडेल स्कोर भएको एकलाई adversarial पुरस्कार मोडेलको लागि अनुकूलन विधिको रूपमा चयन गरिन्छ। यो विधिलाई अतिरिक्त प्रशिक्षणको आवश्यकता पर्दैन, तर प्राप्त गर्न अनुमान चरणको कम्प्युटेशनल जटिलता बढाउँछ।

२.२.३ गुगल बन्ड विधि

मा [2407.14622] बन्ड: बेस्ट-अफ-एन डिस्टिलेसनसँग LLM हरूलाई पङ्क्तिबद्ध गर्दै, गुगलका लेखकहरूले बेस्ट-अफ-एन डिस्टिलेसन (BOND) प्रस्ताव गर्छन्।, अनुमानको समयमा कम्प्युटेसनल ओभरहेडलाई उल्लेखनीय रूपमा नबढाई वितरण मिलान एल्गोरिथ्म मार्फत बेस्ट-अफ-एन नमूना रणनीति अनुकरण गर्न डिजाइन गरिएको नयाँ RLHF एल्गोरिथ्म।

विशेष गरी, लेखकले पहिले बेस्ट-अफ-एन नमूनाको सटीक विश्लेषणात्मक वितरण निकाल्छन् र बेस्ट-अफ-एन नमूनाको सम्भाव्यता प्रकार्य दिन्छन्:

दोस्रो, लेखकहरूले समस्यालाई वितरण मिलान समस्याको रूपमा व्यक्त गर्छन्;

त्यसपछि, लेखकहरूले जेफ्रीको विचलनलाई वितरण मिलान उद्देश्यको रूपमा प्रयोग गर्ने प्रस्ताव गर्छन्:

अन्तमा, N चयन गर्ने समस्या समाधान गर्न, लेखकहरूले पुनरावृत्ति BOND विधि प्रस्ताव गर्छन्, जसले उत्कृष्ट-अफ-N वितरणलाई पुनरावृत्ति रूपमा डिस्टिलिंग गरेर रणनीतिको कार्यसम्पादनमा सुधार गर्दछ। विशिष्ट चरणहरूमा समावेश छन्:

सहायक एङ्कर रणनीति π(एङ्कर) सुरु गर्नुहोस्।

Best-of-N π(anchor) डिस्टिल गर्न BOND लाई पुनरावृत्ति रूपमा कार्यान्वयन गर्नुहोस् र प्रत्येक चरण पछि π(anchor) अपडेट गर्नुहोस्।

२.३ प्रक्रिया सुपरिवेक्षण र परिणाम सुपरिवेक्षण

परिणाम र प्रक्रियाले पुरस्कार मोडेल मूल्याङ्कनका दुई पक्षहरूलाई जनाउँछ:

  • परिणाम पुरस्कार मोडेल: मोडेल आउटपुटको अन्तिम परिणाम सही छ वा अपेक्षाकृत छ कि छैन भनेर मूल्याङ्कन गर्नुहोस्।
  • प्रक्रिया पुरस्कार मोडेल: परिणामहरू उत्पन्न गर्ने प्रक्रियामा मोडेलको तर्क र निर्णय लिने चरणहरू उचित र प्रभावकारी छन् कि छैनन् भनेर मूल्याङ्कन गर्दछ।

उदाहरणका लागि, OpenAI को Let's Verify Step by Step | OpenAI ले पनि उल्लेख गर्दछ:

  • प्रक्रिया पर्यवेक्षण (परिणाम-पर्यवेक्षण): मोडेलको तर्क प्रक्रियाको प्रत्येक चरणमा प्रतिक्रिया प्रदान गर्ने समावेश छ। प्रक्रिया-पर्यवेक्षण गरिएको पुरस्कार मोडेलहरू (PRM) समाधानको प्रत्येक चरणको शुद्धताको भविष्यवाणी गर्न प्रशिक्षित हुन्छन्।
  • परिणाम-पर्यवेक्षण: परिणाम-पर्यवेक्षणले मोडेलको तर्कको अन्तिम परिणामको आधारमा मात्र प्रतिक्रिया प्रदान गर्दछ। परिणाम-पर्यवेक्षण गरिएको पुरस्कार मोडेलहरू (ORM) समाधानको अन्तिम उत्तर प्रयोग गरेर प्रशिक्षित गरिन्छ, र शुद्धता स्वचालित जाँचद्वारा निर्धारण गरिन्छ।

२.४ रिवार्ड ह्याकिङ

RL मा, रिवार्ड ह्याकिङले त्यस्तो घटनालाई जनाउँछ जसमा एजेन्टले रिवार्ड प्रकार्यको डिजाइनमा रहेको त्रुटिको शोषण गरेर डिजाइनरको मूल उद्देश्य पूरा नगर्ने तरिकाले संचयी इनामलाई अधिकतम बनाउँछ। यद्यपि यो व्यवहारले प्राविधिक रूपमा रिवार्ड प्रकार्यको अप्टिमाइजेसन लक्ष्य पूरा गर्दछ, वास्तविक प्रभाव अपेक्षित कार्य लक्ष्यबाट विचलित हुन्छ र नकारात्मक परिणामहरू पनि निम्त्याउन सक्छ।

मुख्य बुँदा विश्लेषण:

  1. परिभाषा र अभिव्यक्ति:
    1. एजेन्टले रिवार्ड प्रकार्यमा त्रुटि फेला पार्छ र वास्तवमा समस्या समाधान गर्नुको सट्टा "सर्टकट" लिएर उच्च इनाम प्राप्त गर्छ।
    2. उदाहरणका लागि, सफा गर्ने रोबोटले कोठालाई वास्तवमा सफा गर्नुको सट्टा "सफा" देखाउन बत्तीहरू निभाउँछ; खेल एजेन्टले स्तर लक्ष्य पूरा नगरी बारम्बार अंक स्कोर गर्छ; ब्रेकिङ समय कम गर्न ढिलो नगर्ने छनौट गर्छ, जसले सुरक्षा खतरा निम्त्याउँछ; उच्च स्कोरहरू छल गर्न किवर्डहरूसँग मेल खाने अर्थहीन सामग्री उत्पन्न गर्दछ।
  2. मूल कारणहरू:
    1. अपूर्ण पुरस्कार प्रकार्य डिजाइन: अति सरलीकरण वा किनाराका केसहरू कभर गर्न असफलता।
    2. लक्ष्य र पुरस्कार बीचको गलत मिलान: पुरस्कार प्रकार्यले वास्तविक लक्ष्यलाई पूर्ण रूपमा प्रतिबिम्बित गर्न असफल हुन्छ, जसले गर्दा एजेन्टले "गलत" लक्ष्यको लागि अनुकूलन गर्छ।
  3. समाधानहरू:
    1. पुरस्कार डिजाइन सुधार गर्नुहोस्: बहु-आयामी पुरस्कारहरू (जस्तै सुरक्षा, दक्षता, आदि) परिचय गर्नुहोस् वा गतिशील रूपमा पुरस्कार प्रकार्य समायोजन गर्नुहोस्।
    2. विरोधी प्रमाणीकरण: थप संयन्त्रहरू मार्फत एजेन्टले "धोखा" गरिरहेको छ कि छैन पत्ता लगाउनुहोस्।
    3. म्यानुअल हस्तक्षेप र अवरोधहरू: व्यवहारिक सीमाहरू सेट गर्नुहोस् (जस्तै सुरक्षा तह) वा म्यानुअल प्रतिक्रिया (जस्तै RLHF)।
    4. इन्भर्स रिइन्फोर्समेन्ट लर्निङ (IRL): विशेषज्ञ प्रदर्शनहरूबाट अझ यथार्थपरक इनाम प्रकार्य सिक्नुहोस्।
    5. पदानुक्रमिक सुदृढीकरण सिकाइ: स्थानीय अनुकूलनको जोखिम कम गर्न कार्यलाई उप-लक्ष्यहरूमा विभाजित गर्नुहोस्।
  4. ओभरफिटिंगसँगको सम्बन्ध:
    1. दुबैले तालिम मेट्रिक्स र वास्तविक-विश्व प्रदर्शन बीचको विच्छेदन प्रदर्शन गर्दछ, तर रिवार्ड ह्याकिङले मोडेलको सामान्यीकरण क्षमता भन्दा रिवार्ड प्रकार्यको डिजाइन त्रुटिहरूमा बढी जोड दिन्छ।
  5. सारांश:
    1. रिवार्ड ह्याकिङले RL मा लक्ष्य पङ्क्तिबद्धताको चुनौती प्रकट गर्दछ। यो समस्या समाधान गर्न थप बलियो इनाम संयन्त्रहरू डिजाइन गर्ने, बाह्य बाधाहरू परिचय गराउने, र एजेन्टको व्यवहार कुशल र डिजाइन उद्देश्य अनुरूप छ भनी सुनिश्चित गर्न मानव पूर्व ज्ञान समावेश गर्ने संयोजन आवश्यक छ।

३ १TP8T-R1-शून्य र १TP8T-R1

३.१ अवलोकन

मोडेलको कार्यसम्पादन सुधार गर्न अघिल्लो अनुसन्धानले ठूलो मात्रामा पर्यवेक्षित डेटामा निर्भर गरेको छ। यस अध्ययनले देखाउँछ कि कोल्ड स्टार्टको रूपमा SFT बिना पनि, ठूलो मात्रामा RL ले मोडेलको तर्क क्षमतालाई उल्लेखनीय रूपमा बढाउन सक्छ। थप रूपमा, थोरै मात्रामा कोल्ड स्टार्ट डेटाको परिचयले कार्यसम्पादनलाई अझ अनुकूलन गर्न सक्छ। DeepSeek-R1 सँग सम्बन्धित मोडेलहरू निम्न छन्:

  1. १TP8T-R1-शून्य: यो मोडेलले कुनै पनि SFT डेटा बिना नै RL लाई सिधै आधार मोडेलमा लागू गर्छ।
  2. DeepSeek-R1: यो मोडेलले हजारौं लामो CoT नमूनाहरूसँग मिलाइएको चेकपोइन्टबाट सुरु गर्दै RL लागू गर्दछ।
  3. DeepSeek-R1-Distill-xx: DeepSeek-R1 को तर्क क्षमतालाई सानो डेन्स मोडेलमा डिस्टिल्ड गर्छ।

३.२ १TP8T-R1-शून्य

निम्न चित्रले DeepSeek-R1-शून्य मोडेलको प्रशिक्षणमा मुख्य बुँदाहरू देखाउँछ:

पुनश्च: यो कुरा ध्यान दिनुपर्छ कि पेपरले DeepSeek-R1-Zero को RL प्रक्रियामा प्रयोग गरिएको डेटाको बारेमा धेरै जानकारी प्रदान गर्दैन। यद्यपि, पछिल्ला R1 प्रशिक्षणमा डेटा उत्पादन प्रक्रिया र मात्राको बारेमा केही व्याख्या छ, यद्यपि यो विशेष रूपमा विशिष्ट छैन।

३.२.१ आरएल एल्गोरिथ्म

RL को प्रशिक्षण लागत घटाउन, लेखकहरूले DeepSeek को आफ्नै GRPO (समूह सापेक्ष नीति अनुकूलन) विधि, [2402.03300] DeepSeekMath: खुला भाषा मोडेलहरूमा गणितीय तर्कको सीमाहरू धकेल्ने प्रयोग गर्छन्। यो विधिले क्रिटिक मोडेललाई त्याग्छ, जुन सामान्यतया नीति मोडेलसँग आकारमा तुलना गर्न सकिन्छ, र यसको सट्टा समूह स्कोर प्रयोग गरेर आधारभूत रेखा अनुमान गर्दछ। सम्बन्धित व्याख्या तलको चित्रमा देखाइएको छ (ट्विटरबाट चित्र):

३.२.२ पुरस्कार मोडेलिङ

पुरस्कारहरू प्रशिक्षण संकेतहरूको स्रोत हुन् र RL को अनुकूलन दिशा निर्धारण गर्छन्। DeepSeek-R1-Zero लाई तालिम दिन, लेखकहरूले नियम-आधारित पुरस्कार प्रणाली प्रयोग गरे, जसमा मुख्यतया दुई प्रकारका पुरस्कारहरू हुन्छन्:

  • शुद्धता पुरस्कार: प्रतिक्रिया सही छ कि छैन मूल्याङ्कन गर्नुहोस्। उदाहरणका लागि:
    • निर्धारणात्मक नतिजा भएका गणितीय समस्याहरूमा, मोडेलले अन्तिम उत्तर एक विशेष ढाँचामा (जस्तै बक्स भित्र) प्रदान गर्न आवश्यक छ ताकि यसको शुद्धता नियमहरूद्वारा विश्वसनीय रूपमा प्रमाणित गर्न सकियोस्।
    • त्यस्तै गरी, LeetCode समस्याहरूको लागि, पूर्वनिर्धारित परीक्षण केसहरूमा आधारित कम्पाइलर प्रयोग गरेर प्रतिक्रिया उत्पन्न गर्न सकिन्छ।
  • ढाँचा पुरस्कार: मोडेललाई आफ्नो विचार प्रक्रियालाई "" बीचमा राख्न बाध्य पार्न ढाँचा पुरस्कार पनि प्रयोग गरिन्छ। "र" "ट्यागहरू।

DeepSeek-R1-Zero को विकासको क्रममा, लेखकले आउटकम न्यूरल रिवार्ड मोडेल वा प्रोसेस न्यूरल रिवार्ड मोडेल प्रयोग गरेनन् किनभने लेखकले पत्ता लगाए कि न्यूरल रिवार्ड मोडेलले ठूलो मात्रामा RL प्रक्रियाहरूमा रिवार्ड स्पूफिंग (रिवार्ड ह्याकिङ) सामना गर्न सक्छ; थप रूपमा, रिवार्ड मोडेललाई पुन: तालिम दिन थप प्रशिक्षण स्रोतहरू मात्र आवश्यक पर्दैन, तर सम्पूर्ण प्रशिक्षण प्रक्रियालाई पनि जटिल बनाउँछ।

३.२.३ तालिम ढाँचा

DeepSeek-R1-Zero लाई तालिम दिनको लागि, लेखकहरूले पहिले आधार मोडेललाई सेट निर्देशनहरू पालना गर्न मार्गदर्शन गर्न एउटा साधारण टेम्प्लेट डिजाइन गरे। तलको तालिका १ मा देखाइए अनुसार, टेम्प्लेटलाई अनुमान प्रक्रिया उत्पन्न गर्न र त्यसपछि अन्तिम उत्तर दिन DeepSeek-R1-Zero आवश्यक पर्दछ।

लेखकले जानाजानी यस संरचनात्मक ढाँचामा सीमित बाधाहरूलाई सीमित गरे ताकि कुनै पनि सामग्री पूर्वाग्रहको परिचय नहोस् - उदाहरणका लागि, प्रतिबिम्बित तर्कलाई जबरजस्ती गर्ने वा विशिष्ट समस्या समाधान रणनीतिहरूलाई प्रवर्द्धन गर्ने - ताकि RL प्रक्रियाको क्रममा मोडेलको प्राकृतिक विकासलाई सही रूपमा अवलोकन गर्न सकियोस्।

३.२.४ निष्कर्ष

SFT डेटा बिना बलियो तर्क क्षमताहरू: आधार मोडेलबाट सिधै RL सुरु गरेर, SFT हस्तक्षेप बिना मोडेलको विकास प्रक्षेपणलाई नजिकबाट निगरानी गर्न सकिन्छ। तलको चित्र ३ ले देखाएको छ, प्रशिक्षण प्रक्रियाभरि DeepSeek-R1-Zero को सोच्ने समय सुधार हुँदै गयो (बृद्धि लम्बाइ बिस्तारै लामो हुँदै गयो)। यो सुधार बाह्य समायोजनबाट आएको होइन, तर मोडेलको आन्तरिक विकासको प्राकृतिक परिणाम थियो। DeepSeek-R1-Zero ले विस्तारित परीक्षण समय गणनाहरू प्रयोग गरेर प्रतिबिम्बित गर्ने क्षमता जस्ता बढ्दो जटिल अनुमान कार्यहरू समाधान गर्ने क्षमता स्वाभाविक रूपमा प्राप्त गर्यो।

तालिमको क्रममा DeepSeek-R1-Zero ले "आहा क्षण" अनुभव गर्यो। तलको तालिका ३ मा देखाइए अनुसार, यो क्षण मोडेलको मध्य संस्करण चरणको समयमा भएको थियो। यस चरणको समयमा, DeepSeek-R1-Zero ले आफ्नो प्रारम्भिक दृष्टिकोणको पुन: मूल्याङ्कन गरेर समस्याहरूमा बढी सोच्ने समय छुट्याउन सिक्यो।

बहुमत मतदान: बहुमत मतदान लागू गरेर DeepSeek-R1-Zero को कार्यसम्पादनलाई अझ सुधार गर्न सकिन्छ। उदाहरणका लागि, तलको तालिका २ मा देखाइए अनुसार, AIME बेन्चमार्क परीक्षणमा बहुमत मतदान प्रयोग गरिसकेपछि, यसको कार्यसम्पादन 71.0% बाट 86.7% मा बढ्छ, OpenAI-o1-0912 लाई उछिन्दै।

कमजोरीहरू: DeepSeek-R1-Zero ले बलियो तर्क क्षमताहरू प्रदर्शन गर्छ र स्वायत्त रूपमा अप्रत्याशित र शक्तिशाली तर्क व्यवहारहरू विकास गर्छ, यसले अझै पनि कमजोर पठनीयता र भाषा मिश्रण जस्ता चुनौतीहरूको सामना गर्छ।

३.३ १TP8T-R1 को परिचय

तर्क प्रक्रियालाई अझ पठनीय बनाउन र खुला समुदायसँग साझा गर्न, लेखकहरूले DeepSeek-R1 विधिको थप अन्वेषण गर्छन्, जसले RL को लागि मानव-मैत्री कोल्ड-स्टार्ट डेटा प्रयोग गर्दछ। DeepSeek-R1-शून्यबाट प्रेरित, दुई प्राकृतिक प्रश्नहरू निम्नानुसार छन्:

  1. कोल्ड स्टार्टको रूपमा थोरै मात्रामा उच्च-गुणस्तरको डेटा प्रस्तुत गरेर तर्क प्रदर्शनलाई अझ सुधार गर्न सकिन्छ वा अभिसरण प्रक्रियालाई तीव्र बनाउन सकिन्छ?
  2. हामी कसरी प्रयोगकर्ता-मैत्री मोडेललाई प्रशिक्षित गर्न सक्छौं जसले स्पष्ट र सुसंगत CoTs मात्र उत्पन्न गर्दैन, तर बलियो सामान्यीकरण क्षमताहरू पनि प्रदर्शन गर्दछ?

यी प्रश्नहरूको जवाफमा, हामीले DeepSeek-R1 को लागि प्रशिक्षण प्रक्रिया डिजाइन गरेका छौं। यस प्रक्रियामा धेरै चरणहरू छन्, जसलाई तल वर्णन गरिएको छ:

तलको चित्रमा देखाइए अनुसार चरण-१ ले SFT + RL मार्फत DeepSeek-R1 को मध्यवर्ती अवस्थालाई तालिम दिन्छ:

निम्न चित्रले चरण-२, ३ र ४ देखाउँछ:

  • चरण-२: माथि बायाँ, २०० हजार गैर-तर्क डेटा र ६०० हजार तर्क डेटा निर्माण गर्नुहोस्।
  • चरण-३: माथिल्लो दायाँ, SFT + RL ट्रेन DeepSeek-R1।
  • चरण-४: तल्लो चित्र, डिस्टिल १TP८T-R१-डिस्टिल-xx।

३.३.१ कोल्ड स्टार्ट (चरण-१)

DeepSeek-R1-Zero भन्दा फरक, RL तालिमको सुरुवातमा आधार मोडेलको अस्थिर कोल्ड स्टार्ट चरणलाई रोक्नको लागि, लेखकहरूले DeepSeek-R1 को लागि थोरै मात्रामा लामो CoT डेटा निर्माण र सङ्कलन गरे जसले गर्दा मोडेललाई प्रारम्भिक RL अभिनेताको रूपमा फाइन-ट्यून गर्न सकियोस्। यो डेटा सङ्कलन गर्न, लेखकहरूले विभिन्न विधिहरू अन्वेषण गरे:

  • लामो CoT उदाहरणहरू सहित केही-शट प्रम्प्टहरू प्रयोग गर्दै
  • मोडेललाई प्रतिबिम्ब र प्रमाणीकरणको साथ विस्तृत उत्तरहरू उत्पन्न गर्न सिधै प्रोत्साहित गर्ने
  • मानव-पठनीय ढाँचामा DeepSeek-R1-शून्य आउटपुट सङ्कलन गर्दै
  • म्यानुअल लेबलिङको साथ पोस्ट-प्रोसेसिङ मार्फत परिणामहरूलाई परिष्कृत गर्ने

लेखकहरूले कुल हजारौं कोल्ड स्टार्ट डेटा सङ्कलन गरे, जुन RL को लागि सुरुवात बिन्दुको रूपमा DeepSeek-V3-बेसलाई फाइन-ट्यून गर्न प्रयोग गरिएको थियो। DeepSeek-R1-शून्यको तुलनामा, कोल्ड स्टार्ट डेटाका फाइदाहरू समावेश छन्

  • पठनीयता: DeepSeek-R1-शून्य प्रतिक्रियाहरू धेरै भाषाहरूमा मिसाउन सकिन्छ वा प्रयोगकर्ता उत्तरहरू हाइलाइट गर्न प्रयोग गरिने मार्कडाउन ढाँचाको अभाव हुन सक्छ। यसको विपरीत, DeepSeek-R1 को लागि कोल्ड स्टार्ट डेटा सिर्जना गर्दा, लेखकले पढ्न सकिने ढाँचा डिजाइन गरे जसमा प्रत्येक प्रतिक्रियाको अन्त्यमा सारांश समावेश हुन्छ र पढ्न नसकिने प्रतिक्रियाहरूलाई फिल्टर गरिन्छ। यहाँ, आउटपुट ढाँचा |special_token| को रूपमा परिभाषित गरिएको छ। |विशेष_टोकन| , जहाँ reasoning_process भनेको क्वेरीको चेन गरिएको सोच हो र सारांश तर्क परिणामहरूको सारांश बनाउन प्रयोग गरिन्छ।
  • सम्भाव्यता: मानव-प्राथमिक कोल्ड स्टार्ट डेटा ढाँचाहरूको संयोजनलाई सावधानीपूर्वक डिजाइन गरेर, लेखकहरूले यसको कार्यसम्पादन DeepSeek-R1-शून्य भन्दा उत्कृष्ट रहेको अवलोकन गरे।

३.३.२ तर्क-संचालित RL (चरण-१)

कोल्ड स्टार्ट डेटामा DeepSeek-V3-बेसलाई फाइन-ट्युनिङ गरेपछि, DeepSeek-R1-Zero जस्तै ठूलो स्तरको RL प्रशिक्षण प्रक्रिया प्रयोग गरिन्छ। यो चरणले स्पष्ट समाधानहरू सहित तर्क-गहन कार्यहरूमा, विशेष गरी प्रोग्रामिङ, गणित, विज्ञान र तार्किक तर्क समस्याहरूमा मोडेलको क्षमता सुधार गर्ने लक्ष्य राख्छ।

तालिमको क्रममा, लेखकहरूले अवलोकन गरे कि CoT प्रायः भाषा मिश्रणबाट पीडित हुन्छ, विशेष गरी जब RL प्रम्प्टमा धेरै भाषाहरू समावेश हुन्छन्। भाषा मिश्रण समस्यालाई कम गर्न, लेखकहरूले RL प्रशिक्षणमा भाषा स्थिरता पुरस्कार प्रस्तुत गरे, जुन CoT मा लक्षित भाषामा शब्दहरूको अनुपातको आधारमा गणना गरिन्छ। यद्यपि एब्लेशन प्रयोगहरूले देखाउँछन् कि यो पङ्क्तिबद्धता विधिले मोडेल प्रदर्शनमा थोरै कमी ल्याउँछ, यो पुरस्कार संयन्त्र मानव प्राथमिकताहरूसँग मिल्दोजुल्दो छ र पठनीयता बढाउँछ। अन्तमा, लेखकहरूले अन्तिम पुरस्कार बनाउनको लागि भाषा स्थिरता पुरस्कारमा तर्क कार्यको शुद्धता सिधै थप्छन्, र तर्क कार्यमा अभिसरण नभएसम्म फाइन-ट्युन गरिएको मोडेलमा RL प्रशिक्षण लागू गर्छन्।

३.३.३ ८,००,००० चयन गरिएका तथ्याङ्कहरूको निर्माण (चरण-२)

जबकि रिजनिङको लागि RL कन्भर्ज हुन्छ, SFT डेटा अर्को प्रशिक्षण राउन्डको लागि परिणामस्वरूप चेकपॉइन्ट प्रयोग गरेर सङ्कलन गरिन्छ। प्रारम्भिक कोल्ड स्टार्ट डेटाको विपरीत, जुन मुख्यतया रिजनिङमा केन्द्रित हुन्छ, यस चरणले लेखन, भूमिका खेल्ने र अन्य सामान्य-उद्देश्य कार्यहरूमा मोडेलको क्षमता बढाउन अन्य डोमेनहरूबाट डेटा समावेश गर्दछ। विशेष गरी, डेटा उत्पन्न गरिन्छ र मोडेललाई निम्नानुसार फाइन-ट्यून गरिन्छ:

  • तर्क डेटा: तर्क प्रम्प्टहरू चयन गरिन्छन् र माथि उल्लिखित RL प्रशिक्षित चेकपोइन्ट (DeepSeek-R1 चरण १) बाट अस्वीकृति नमूना प्रदर्शन गरेर तर्क प्रक्षेपणहरू उत्पन्न गरिन्छन्। अघिल्लो चरणमा, नियम-आधारित पुरस्कारहरू प्रयोग गरेर मूल्याङ्कन गर्न सकिने डेटा मात्र समावेश गरिएको थियो। यद्यपि, यस चरणमा, डेटासेटलाई थप डेटा समावेश गरेर विस्तार गरिएको थियो, जसमध्ये केही पुरस्कार मोडेल प्रयोग गरेर उत्पन्न गरिएको थियो, र वास्तविक उत्तरहरूलाई मोडेल भविष्यवाणीहरूलाई DeepSeek-V3 (DeepSeek V3 न्यायाधीशको रूपमा) मा फिड गरेर न्याय गरिएको थियो। थप रूपमा, मोडेल आउटपुट कहिलेकाहीं भ्रामक र पढ्न गाह्रो हुने भएकोले, मिश्रित-भाषा विचार श्रृंखलाहरू, लामो अनुच्छेदहरू, र कोड ब्लकहरू फिल्टर गरिएको थियो। प्रत्येक प्रम्प्टको लागि, धेरै प्रतिक्रियाहरू नमूना गरिएको थियो र केवल सहीहरू (सर्वोत्तम-N) राखिएका थिए। कुलमा, लगभग 600,000 तर्क-सम्बन्धित प्रशिक्षण नमूनाहरू सङ्कलन गरिएको थियो।
  • गैर-तर्क डेटा: जस्तै लेखन, तथ्यात्मक प्रश्नहरू, आत्म-जागरूकता, र अनुवाद, DeepSeek-V3 प्रक्रिया प्रयोग गरियो र DeepSeek-V3 को केही SFT डेटासेटहरू पुन: प्रयोग गरियो। केही गैर-तर्क कार्यहरूको लागि, प्रश्नको जवाफ दिनु अघि सम्भावित CoTs उत्पन्न गर्न DeepSeek-V3 लाई बोलाइन्छ। यद्यपि, "नमस्ते" जस्ता साधारण प्रश्नहरूको लागि, प्रतिक्रियामा कुनै विचार श्रृंखला प्रदान गरिएको छैन। अन्तमा, कुल लगभग 200,000 गैर-तर्क प्रशिक्षण नमूनाहरू सङ्कलन गरियो।

३.३.४ सबै परिदृश्यहरूको लागि SFT र RL (चरण-३)

माथि उल्लिखित दुई डेटा सेटहरू (तर्क र गैर-तर्क) प्रयोग गरेर DeepSeek-V3-बेसमा कुल ८००,००० चयन गरिएका नमूनाहरूको फाइन-ट्युनिङका दुई राउन्डहरू प्रदर्शन गरियो।

मोडेललाई मानव प्राथमिकताहरूसँग थप मिलाउन, लेखकहरूले RL को दोस्रो चरण लागू गरे, जसको उद्देश्य मोडेलको उपयोगिता र हानिरहितता सुधार गर्नुका साथै यसको तर्क क्षमताहरूलाई पनि परिष्कृत गर्नु हो। विशेष गरी, मोडेललाई पुरस्कार संकेतहरू र विविध प्रम्प्ट वितरणहरूको संयोजनको साथ प्रशिक्षित गरिएको थियो।

  • तर्क डेटाको लागि, DeepSeek-R1-Zero मा वर्णन गरिएको पद्धति पालना गरिएको छ, गणित, प्रोग्रामिङ र तार्किक तर्कको क्षेत्रमा मोडेलको सिकाइलाई मार्गदर्शन गर्न नियम-आधारित पुरस्कार संयन्त्र प्रयोग गरेर।
  • सामान्य डेटाको लागि, जटिल र सूक्ष्म परिस्थितिहरूमा मानव प्राथमिकताहरू कैद गर्न पुरस्कार मोडेल प्रयोग गरिन्छ। DeepSeek-V3 प्रक्रियाको आधारमा प्राथमिकता जोडी र प्रशिक्षण प्रम्प्ट वितरणको समान रणनीति प्रयोग गरिन्छ।
  • उपयोगिताको सन्दर्भमा, अन्तिम सारांश मात्र विचार गरिन्छ, जसले गर्दा मूल्याङ्कनले प्रयोगकर्तालाई प्रतिक्रियाको व्यावहारिकता र सान्दर्भिकतामा ध्यान केन्द्रित गर्दछ र अन्तर्निहित तर्क प्रक्रियामा हस्तक्षेपलाई कम गर्दछ।
  • हानिरहितताको सन्दर्भमा, मोडेलको सम्पूर्ण प्रतिक्रियाको व्यापक मूल्याङ्कन गरिएको छ, जसमा तर्क प्रक्रिया र सारांश समावेश छ, जसले गर्दा उत्पादन प्रक्रियाको क्रममा उत्पन्न हुन सक्ने कुनै पनि सम्भावित जोखिम, पूर्वाग्रह वा हानिकारक सामग्री पहिचान गर्न र हटाउन सकिन्छ।
  • अन्ततः, पुरस्कार संकेतहरूलाई एकीकृत गरेर र डेटा वितरणलाई विविधीकरण गरेर, तर्कमा उत्कृष्ट हुँदै लाभ र हानिरहितता दुवैलाई प्राथमिकता दिने मोडेललाई प्रशिक्षित गर्न सकिन्छ।

३.३.५ आसवन (चरण-४)

DeepSeek-R1 को तर्क क्षमताले अझ प्रभावकारी सानो मोडेललाई सुसज्जित गर्न, लेखकहरूले DeepSeek-R1-Stage-1 मा चयन गरिएका 800,000 नमूनाहरू प्रयोग गरेर खुला स्रोत मोडेलहरू Qwen र LLaMA लाई सिधै फाइन-ट्यून गरे। परिणामहरूले देखाउँछन् कि यो प्रत्यक्ष आसवन विधिले साना मोडेलहरूको तर्क क्षमतामा उल्लेखनीय सुधार गर्दछ। लेखकहरूले प्रयोग गर्ने आधारभूत मोडेलहरूमा Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B र Llama-3.3-70B-Instruct समावेश छन्। Llama-3.3 चयन गरिएको थियो किनभने यसको तर्क क्षमता Llama-3.1 भन्दा अलि राम्रो छ।

आसवन मोडेलको लागि, लेखकले SFT मात्र प्रयोग गर्छन् र RL चरण समावेश गर्दैनन्। यद्यपि RL को परिचयले मोडेलको कार्यसम्पादनमा धेरै सुधार ल्याउन सक्छ, यहाँ लेखकको मुख्य उद्देश्य आसवन प्रविधिको प्रभावकारिता प्रदर्शन गर्नु हो, र RL चरणको अन्वेषण पछिको अनुसन्धानमा छोडिएको छ।

पुनश्च: यसको अतिरिक्त, माथिको डेटा उत्पन्न गर्न र आसवनको लागि प्रयोग गरिएको ८००,००० डेटा पुनर्निर्माण गर्न अन्तिम १TP८T-R1 प्रयोग गर्न सम्भव छ, र आसवन मोडेलले राम्रो प्रभाव पार्न सक्छ; यद्यपि, मूल्य यो हो कि डेटा पुनर्निर्माण गर्न आवश्यक छ।

समान पोस्टहरू

जवाफ लेख्नुहोस्

तपाईँको इमेल ठेगाना प्रकाशित गरिने छैन। अनिवार्य फिल्डहरूमा * चिन्ह लगाइएको छ