आज हामी साझा गर्नेछौं DeepSeek R1, शीर्षक: DeepSeek-R1: सुदृढीकरण सिकाइ मार्फत LLM मा तर्क क्षमतालाई प्रोत्साहन: सुदृढीकरण सिकाइ मार्फत LLM को तर्क क्षमतालाई प्रोत्साहन।
यो पेपरले DeepSeek को पहिलो पुस्ताको तर्क मोडेलहरू प्रस्तुत गर्दछ, १TP8T-R1-शून्य र DeepSeek-R1। DeepSeek-R1-शून्य मोडेललाई निम्न मार्फत प्रशिक्षित गरिएको थियो: आरएलको सम्भाव्यता र उत्कृष्ट तर्क क्षमताहरू प्रदर्शन गर्दै, सुपरिवेक्षित फाइन-ट्युनिङ (SFT) बिना ठूलो स्तरको सुदृढीकरण सिकाइ (RL) यसले ल्याउँछ। सुदृढीकरण सिकाइ मार्फत, DeepSeek-R1-शून्य स्वाभाविक रूपमा धेरै शक्तिशाली र रोचक तर्क व्यवहारहरू सहित देखा पर्यो।। R1-Zero (भाषिक भ्रम, सुधारिएको सामान्यीकरण क्षमता) सँग सम्बन्धित केही समस्याहरूलाई अझ अनुकूलन गर्न, तिनीहरूले जारी गरे DeepSeek-R1, जसले सुदृढीकरण सिकाइ अघि बहु-चरणीय प्रशिक्षण र कोल्ड-स्टार्ट डेटा फाइन-ट्युनिङलाई संयोजन गर्दछ। DeepSeek-R1 ले तुलनात्मक प्रदर्शन हासिल गर्यो। OpenAI-01-1217 सँग तर्क कार्यमा। अनुसन्धान समुदायलाई समर्थन गर्न, तिनीहरूले खुला स्रोत DeepSeek-R1-शून्य, DeepSeek-R1, र छवटा घन मोडेलहरू (1.5B, 7B, 8B, 14B, 32B, 70B) DeepSeek-R1 बाट डिस्टिल्ड गरिएको, जुन Qwen र Llama मा आधारित छन्।.
यस विधिका विशेषताहरूलाई निम्नानुसार संक्षेपमा प्रस्तुत गरिएको छ:
- सुदृढीकरण सिकाइ सिधै आधार मोडेलमा लागू गरिन्छ, प्रारम्भिक चरणको रूपमा सुपरिवेक्षित फाइन-ट्युनिङ (SFT) मा भर नपरिकन।
- DeepSeek-R1 विकास प्रक्रिया प्रस्तुत गरिएको छ, जुन मोडेलको तर्क र गैर-तर्क क्षमताहरूको जग बसाल्न दुई सुदृढीकरण सिकाइ चरणहरू र दुई पर्यवेक्षित फाइन-ट्युनिङ चरणहरू संयोजन गर्दछ।.
- ठूला मोडेलहरूको तर्क ढाँचाहरूलाई साना मोडेलहरूमा स्थानान्तरण गरेर तर्क कार्यहरूमा साना मोडेलहरूको प्रदर्शन सुधार गरिन्छ आसवन प्रविधिहरू।
अवलोकन
- शीर्षक: DeepSeek-R1: सुदृढीकरण सिकाइ मार्फत LLM मा तर्क क्षमतालाई प्रोत्साहन गर्दै
- लेखकहरू: DeepSeek-AI को लागि सोधपुछ पेश गर्नुहोस्, हामी तपाईंलाई 24 घण्टामा सम्पर्क गर्नेछौं।
- गिथब: १TP1T को परिचय
प्रेरणा
- हालका ठूला भाषा मोडेलहरू (LLMs) ले अनुमान कार्यहरूमा उल्लेखनीय प्रगति गरेका छन्, तर अझै पनि चुनौतीहरूको सामना गर्छन्।
- शुद्धताको सम्भावना LLM हरूको तर्क क्षमता सुधार गर्न सुदृढीकरण सिकाइ (RL) पूर्ण रूपमा अन्वेषण गरिएको छैन।, विशेष गरी पर्यवेक्षित डेटामा भर नपरिकन।
- RL मार्फत प्रशिक्षित मोडेलहरू, जस्तै १TP8T-R1-शून्य, पठनीयता र भाषा मिश्रणमा समस्याहरू छन् (जस्तै, चिनियाँ र अंग्रेजी मिश्रित बोल्ने), र प्रयोगकर्ता-मैत्री सुधार गर्न थप सुधार आवश्यक छ।.
विधिहरू

१TP8T-R1-शून्य: आधार मोडेलको रूपमा DeepSeek-V3-Base प्रयोग गर्दछ, र सुदृढीकरण सिकाइको रूपमा GRPO (समूह सापेक्ष नीति अनुकूलन) रूपरेखा, अनुमानमा मोडेलको कार्यसम्पादन सुधार गर्न पर्यवेक्षित डेटा बिना.
१TP8T-R1:
- कोल्ड स्टार्ट: थोरै मात्रामा उच्च-गुणस्तरको लामो CoT (चेन-अफ-थट) डेटा सङ्कलन गर्दछ र फाइन-ट्यून गर्दछ १TP8T-V3-आधार मोडेल सुदृढीकरण सिकाइको लागि प्रारम्भिक अभिनेताको रूपमा।
- तर्क-उन्मुख सुदृढीकरण सिकाइ: उस्तै DeepSeek-R1-शून्यको रूपमा सुदृढीकरण सिकाइ प्रशिक्षण प्रक्रिया लागू गरिएको छ, तर मोडेलको तर्क क्षमता बढाउनमा केन्द्रित छ। कोडिङ, गणित, विज्ञान र तार्किक तर्क जस्ता क्षेत्रहरूमा। CoT मा हुने भाषिक मिश्रणको समस्यालाई कम गर्न भाषिक स्थिरता पुरस्कारहरू प्रस्तुत गरिन्छ।
- अस्वीकृति नमूना र सुपरिवेक्षित फाइन-ट्यूनिंग: सुदृढीकरण सिकाइको अभिसरणित चेकपोइन्ट प्रयोग गर्दछ सुपरभाइज्ड फाइन-ट्युनिङ (SFT) डेटा सङ्कलन गर्नुहोस् पछिको तालिमको लागि।
- सबै परिदृश्यहरूको लागि सुदृढीकरण सिकाइ: दोस्रो-स्तरको सुदृढीकरण सिकाइ चरण लागू गर्दछ, जसको उद्देश्य सुधार गर्नु हो मोडेलको उपयोगीता र हानिरहिततालाई ध्यानमा राख्दै यसको तर्क क्षमतालाई अनुकूलन गर्दछ।
- ज्ञान आसवन: DeepSeek-R1 द्वारा क्युरेट गरिएका ८००k नमूनाहरू प्रयोग गरेर खुला स्रोत मोडेलहरू क्वेन र लामालाई सिधै फाइन-ट्यून गर्दछ।
विस्तृत विधि र प्रक्रियाहरू:

१TP8T-R1-शून्य: आधार मोडेलहरूको लागि सुदृढीकरण सिकाइ
- सुदृढीकरण सिकाइ एल्गोरिथ्म: समूह सापेक्ष नीति अनुकूलन (GRPO) एल्गोरिथ्म प्रयोग गर्दछ, जुन आवश्यक पर्दैन आलोचक मोडेल, समूह स्कोर द्वारा आधाररेखा अनुमान, र प्रशिक्षण लागत घटाउँछ.
- पुरस्कार मोडलिङ: प्रयोग गर्दछ a नियममा आधारित पुरस्कार प्रणाली, सहित

- शुद्धता पुरस्कार: उत्तर सही छ कि छैन भनेर मूल्याङ्कन गर्छ, जस्तै अन्तिम नतिजाको शुद्धता गणित समस्या उत्तर, कोड समस्याहरूको लागि कम्पाइलरबाट प्रतिक्रिया.
- पुरस्कारको ढाँचा: मोडेललाई प्रोत्साहित गर्दछ सोच प्रक्रियालाई बीचमा राख्नुहोस्
र
ट्यागहरू.
तालिम टेम्प्लेट: समावेश भएको टेम्प्लेट र
ट्यागहरू डिजाइन गरिएको छ मोडेललाई पहिले सोच प्रक्रिया आउटपुट गर्न मार्गदर्शन गर्नुहोस्, र त्यसपछि अन्तिम उत्तर दिनुहोस्।.

- स्व-विकास प्रक्रिया: १TP8T-R1-शून्य प्रदर्शन गरियो तालिमको क्रममा आत्म-विकासवादी विशेषताहरू, र धेरै समस्या समाधान गर्ने मार्गहरूको प्रतिबिम्ब र अन्वेषण जस्ता थप जटिल तर्क रणनीतिहरू स्वायत्त रूपमा सिक्न सक्षम थिए।.

DeepSeek-R1: कोल्ड स्टार्टसँग मिलेर सुदृढीकरण सिकाइ

- चिसो सुरु: DeepSeek-R1-शून्य समाधान गर्न पढ्न योग्यता समस्या, DeepSeek-R1 ले पहिले थोरै मात्रामा सङ्कलन गर्छ उच्च गुणस्तरको CoT डेटा र DeepSeek-V3-बेस मोडेललाई फाइन-ट्यून गर्दछ सुदृढीकरण सिकाइको लागि प्रारम्भिक अभिनेताको रूपमा सेवा गर्नुहोस्। कोल्ड स्टार्ट डेटा सारांश ट्यागहरू र अनुपयुक्त जवाफहरू समावेश गर्दछ फिल्टर गरिएका हुन्छन्।
- विधि: १) उच्च गुणस्तरको लामो COT डेटा चयन गर्नुहोस्। २) थप्नुहोस् र ट्याग गर्नुहोस्।
- फाइदाहरू: १) अनुकूलित पठनीयता (R1-Zero को बहुभाषी समस्या वा मार्कडाउन ढाँचा समस्या समाधान गर्नुहोस्)। २) ध्यानपूर्वक चयन गरिएको मानव-रुचाइएको डेटाले R1-Zero मा प्रदर्शन सुधार गर्न जारी राख्न सक्छ।
- प्रश्न: पठनीयताको समस्या किन समाधान गर्ने? के यसलाई समाधान नगरी राम्रो गर्न सम्भव छैन (जस्तै, आउटपुटको लम्बाइ घटाउने र अझ कुशलतापूर्वक अनुमान लगाउने)?
- तर्क-उन्मुख RL: कोल्ड-स्टार्ट मोडेलमा आधारित, जस्तै सुदृढीकरण सिकाइ प्रक्रिया कोडिङ, गणित, वैज्ञानिक र तार्किक तर्क जस्ता कार्यहरूमा मोडेलको क्षमता सुधार गर्नमा केन्द्रित हुँदै, DeepSeek-R1-शून्य लागू गरिएको छ।मिश्रित भाषाहरूको समस्या समाधान गर्न (बहुभाषिक तर्क), भाषा एकरूपता पुरस्कारहरू परिचय गराइन्छ।
- प्रश्न: वैज्ञानिक र तार्किक तर्क कार्यहरू र डेटासेटहरू कसरी प्रशिक्षित गरिन्छ?
- अस्वीकृति नमूना र SFT: अनुमान-निर्देशित सुदृढीकरण सिकाइ अभिसरण भएपछि, प्राप्त चेकपोइन्टको लागि प्रयोग गरिन्छ नयाँ SFT डेटा उत्पन्न गर्न अस्वीकृति नमूना, जुन DeepSeek-V3 को डेटासँग मिलाएर लेखन, भूमिका खेल्ने, र सामान्य कार्यहरूमा मोडेलको क्षमताहरू बढाउन प्रयोग गरिन्छ।
- उद्देश्य:
- यो चरण पछि सुरु हुन्छ अनुमान-उन्मुख सुदृढीकरण सिकाइ (RL) प्रक्रिया अभिसरण हुन्छ.
- मुख्य उद्देश्य भनेको सुपरिवेक्षित फाइन-ट्युनिङ (SFT) डेटा सङ्कलन गर्नुहोस् पछिल्ला प्रशिक्षण राउन्डहरूमा प्रयोगको लागि।
- प्रारम्भिक कोल्ड-स्टार्ट डेटाको विपरीत, जुन केवल अनुमानमा केन्द्रित हुन्छ, यो चरणको उद्देश्य मोडेलको क्षमता विस्तार गर्नुहोस् लेखन, भूमिका-निभाउने र अन्य सामान्य-उद्देश्य कार्यहरू समेट्न, केवल अनुमान मात्र होइन।
- तथ्याङ्क सङ्कलन - अनुमान तथ्याङ्क:
- विधि: अस्वीकृति नमूनाद्वारा अनुमान प्रक्षेपणहरू उत्पन्न गर्न अनुमान-उन्मुख RL चरणबाट प्राप्त चेकपोइन्टहरू प्रयोग गर्नुहोस्।
- डेटा सेट विस्तार: अघिल्लो RL चरणको विपरीत, जसले नियम-आधारित पुरस्कार डेटा मात्र प्रयोग गर्थ्यो, गैर-नियम-आधारित पुरस्कार डेटा यहाँ प्रस्तुत गरिएको छ। केही अवस्थामा, प्रतिक्रिया निर्धारण गर्न जेनेरेटिभ पुरस्कार मोडेल (DeepSeek-V3) प्रयोग गरिन्छ।
- डेटा फिल्टरिङ: गुणस्तर र पठनीयता सुनिश्चित गर्न, आउटपुट हटाउन फिल्टर गरिएको छ:
- मिश्रित भाषाहरू समावेश गर्ने विचार शृङ्खलाहरू
- लामो अनुच्छेदहरू
- कोड ब्लकहरू
- नमुना संकलन र छनोट: प्रत्येक प्रम्प्टको लागि, धेरै प्रतिक्रियाहरू उत्पन्न गरियो। डेटासेटको लागि केवल "सही" प्रतिक्रिया राखिएको थियो।
- डेटासेट आकार: लगभग ६,००,००० अनुमान-सम्बन्धित प्रशिक्षण नमूनाहरू यसरी सङ्कलन गरिएको थियो।
- डेटा सङ्कलन - गैर-अनुमान डेटा:
- कभरेज: लेखन, तथ्यपरक प्रश्न उत्तर (QA), आत्म-जागरूकता र अनुवाद।
- उक्त पत्रमा प्रयोगको उल्लेख छ DeepSeek-V3 को प्रक्रिया र DeepSeek-V3 SFT डेटासेटको भाग पुन: प्रयोग गर्दछ यी गैर-अनुमान कार्यहरू ह्यान्डल गर्न। बारेमा २००,००० अनुमान-स्वतन्त्र नमूनाहरू सङ्कलन गरिएको थियो। (नोट: गैर-अनुमान डेटाको सङ्कलनको विवरण खण्ड २.३.४ मा थप वर्णन गरिएको छ)
- सङ्कलन गरिएको तथ्याङ्कको प्रयोग:
- त्यसपछि सङ्कलन गरिएको तर्क र गैर-तर्क डेटा (कुल लगभग ८००,००० नमूनाहरू - ६००,००० तर्क नमूनाहरू + २००,००० गैर-तर्क नमूनाहरू) प्रयोग गरियो। दुई युगहरूको लागि DeepSeek-V3-बेस मोडेललाई फाइन-ट्यून गर्नुहोस्। यो फाइन-ट्युन गरिएको मोडेल त्यसपछि खण्ड २.३.४ मा वर्णन गरिएको अन्तिम RL चरणमा प्रयोग गरिएको थियो।
- सारांश यो चरणले अनुमान क्षमताहरू प्रयोग गर्दछ। विविध र उच्च-गुणस्तरको SFT डेटासेट उत्पन्न गर्न RL मार्फत सिकिएको। यो डेटासेटले अनुमान क्षमताहरूलाई बलियो बनाउँछ र सामान्य क्षमताहरूलाई पनि विस्तार गर्दछ। अन्तिम पङ्क्तिबद्धता र सुधार चरणमा प्रशिक्षणको लागि मोडेल।
- उद्देश्य:
- सबै परिदृश्यहरूको लागि सुदृढीकरण सिकाइ: मानव प्राथमिकताहरूलाई थप मिलाउन, मोडेलको उपयोगीता र हानिरहितता सुधार गर्न सुदृढीकरण सिकाइको दोस्रो चरण लागू गरिएको छ।
- अनुमान डेटा: जस्तै गणित, कोड, तार्किक अनुमान वा नियम आधार विधिहरूद्वारा सुपरिवेक्षण गरिएको।
- सामान्य डेटा: जटिल र सूक्ष्म परिदृश्यहरूको लागि प्राथमिकता जानकारी प्रदान गर्न पुरस्कार मोडेलहरू अझै पनि प्रयोग गरिन्छ। जोडी अनुसार डेटाको साथ प्रशिक्षित मोडेलहरू पनि अनुमानित छन्।
- उपयोगिता: अनुमान प्रक्रियामा हस्तक्षेप कम गर्दै, अन्तिम सारांश परिणामहरूमा मात्र ध्यान केन्द्रित गर्नुहोस्।
- हानिरहितता: कुनै पनि जोखिम कम गर्न सम्पूर्ण प्रतिक्रियाको निरीक्षण गर्नुहोस्।
मोडेल आसवन (आसवन):
- अझ प्रभावकारी सानो अनुमान मोडेल प्राप्त गर्न, पेपरले DeepSeek-R1 को अनुमान क्षमतालाई क्वेन र लामा श्रृंखलाको खुला स्रोत मोडेलहरूमा डिस्टिल्ड गर्दछ। आसवन प्रक्रिया सुपरिवेक्षित फाइन-ट्युनिङ (SFT) मात्र प्रयोग गर्दछ। र सुदृढीकरण सिकाइ चरण प्रयोग गर्दैन।
निष्कर्ष
१TP8T-R1-शून्य: को सम्भावना प्रदर्शन गर्दछ LLM अनुमान क्षमतालाई उत्प्रेरित गर्न शुद्ध सुदृढीकरण सिकाइ, र बलियो प्रदर्शन हासिल गर्न सक्छ निरीक्षण गरिएको डेटामा भर नपरिकन।


- आहा-क्षण: सुदृढीकरण सिकाइको सुन्दरता (मोडेलको ज्ञानको क्षण, जहाँ यो पुन: मूल्याङ्कन गर्न सिकेर समस्याको लागि बढी सोच्ने समय छुट्याउँछ प्रारम्भिक दृष्टिकोण)
- आउटपुट लम्बाइ बढ्दै जान्छ (सोच्ने समय बढ्दै जान्छ)
- शुद्धतामा सुधार हुँदै गइरहेको छ (शुद्धता गणना गर्न १६ प्रतिक्रियाहरूको नमूना लिँदै)

- DeepSeek-R1: कोल्ड-स्टार्ट डेटा र पुनरावृत्ति सुदृढीकरण सिकाइ फाइन-ट्युनिङ संयोजन गरेर मोडेल कार्यसम्पादनलाई थप सुधार गर्छ, विभिन्न कार्यहरूमा OpenAI-01-1217 सँग तुलना गर्न सकिने स्तर हासिल गर्दै.

- ज्ञान आसवन: शिक्षक मोडेलको रूपमा DeepSeek-R1 प्रयोग गरेर, 800K प्रशिक्षण नमूनाहरू उत्पन्न गरियो र धेरै साना, घना मोडेलहरूलाई राम्रोसँग मिलाइएको थियो। परिणामहरूले देखाउँछन् कि यो आसवन विधिले अनुमान क्षमतामा उल्लेखनीय सुधार गर्न सक्छ साना मोडेलहरू।
सीमा
- सीमा १: १TP8T-R1 को सामान्य क्षमतामा सुधार गर्न आवश्यक छ। फंक्शन कल, मल्टि-टर्न संवाद, जटिल भूमिका खेल्ने, र JSON आउटपुट जस्ता कार्यहरूमा DeepSeek-R1 अझै पनि DeepSeek-V3 भन्दा कम छ।
- सीमा २: भाषा मिश्रण समस्या। DeepSeek-R1 ले गैर-चिनियाँ र गैर-अंग्रेजी प्रश्नहरू प्रशोधन गर्दा भाषा मिश्रण समस्याको सामना गर्न सक्छ, उदाहरणका लागि, तर्क गर्दा र अंग्रेजीमा जवाफ दिँदा।
- सीमा ३: संवेदनशीलतालाई तीव्र बनाउनुहोस्। DeepSeek-R1 प्रम्प्ट शब्दहरूप्रति संवेदनशील छ, र थोरै-शट प्रम्प्टिङले यसको कार्यसम्पादन कम गर्नेछ।
- सीमा ४: सफ्टवेयर इन्जिनियरिङ कार्यहरूमा सीमित प्रयोग। लामो मूल्याङ्कन समयको कारणले गर्दा, सफ्टवेयर इन्जिनियरिङ कार्यहरूमा ठूलो मात्रामा सुदृढीकरण सिकाइ पूर्ण रूपमा लागू गरिएको छैन, र सफ्टवेयर इन्जिनियरिङ बेन्चमार्कहरूमा DeepSeek-R1 ले DeepSeek-V3 भन्दा सीमित सुधार गरेको छ।