आज म DeepSeek बाट "DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models" शीर्षकको एउटा लेख साझा गर्न चाहन्छु।
यस लेखले DeepSeekMath 7B को परिचय दिन्छ, जुन पूर्व-प्रशिक्षित छ DeepSeek-Coder-Base-v1.5 7B मा आधारित १२०B गणित-सम्बन्धित टोकनहरू, प्राकृतिक भाषा र कोड डेटाको संग्रह।
मोडेलले बाह्य टूलकिट र मतदान प्रविधिहरूमा भर नपरिकन प्रतिस्पर्धात्मक-स्तरको MATH बेन्चमार्कहरूमा ५१.७१TP11T को आश्चर्यजनक स्कोर हासिल गर्यो, जेमिनी-अल्ट्रा र GPT-4 को प्रदर्शन स्तरमा पुग्यो।
DeepSeekMath 7B को गणितीय तर्क क्षमता दुई प्रमुख कारकहरूमा निर्भर गर्दछ: पहिलो, एक मार्फत सावधानीपूर्वक डिजाइन गरिएको डेटा चयन पाइपलाइन, उच्च-गुणस्तरको गणित-सम्बन्धित डेटा सार्वजनिक रूपमा उपलब्ध वेब डेटाबाट पुनरावृत्ति रूपमा उत्खनन गरिन्छ।
दोस्रो, समूह सापेक्ष नीति अनुकूलन (GRPO) हो प्रस्तुत गरिएको छ, जुन प्रोक्सिमल पोलिसी अप्टिमाइजेसन (PPO) को एक प्रकार हो जसले PPO को मेमोरी प्रयोगलाई अनुकूलन गर्दै गणितीय तर्क क्षमता बढाउन सक्छ।
- विधिका विशेषताहरूलाई निम्नानुसार संक्षेपमा प्रस्तुत गरिएको छ:उच्च गुणस्तरको गणितीय पूर्व-प्रशिक्षण कोर्पस निर्माण गरिएको थियो, र कमन क्रलबाट उच्च-गुणस्तरको गणितीय डेटा खानी गर्न सावधानीपूर्वक डिजाइन गरिएको पाइपलाइन प्रयोग गरिएको थियो।
- GRPO एल्गोरिथ्म प्रस्ताव गरिएको थियो, जसले प्रशिक्षणको लागि आवश्यक पर्ने स्रोतहरू घटाउँछ र मोडेलको गणितीय तर्क क्षमतामा सुधार गर्छ। ३) अत्याधुनिक प्रदर्शन थियो धेरै गणितीय तर्क बेन्चमार्क परीक्षणहरूमा हासिल गरिएको.
अवलोकन
शीर्षक: DeepSeekMath: खुला भाषा मोडेलहरूमा गणितीय तर्कको सीमालाई अगाडि बढाउने
यूआरएल: यहाँ क्लिक गर्नुहोस्
लेखकहरू: Zhihong शाओ, Peiyi वांग, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y. Wu, Daya Guo
कोड: यहाँ क्लिक गर्नुहोस्
प्रेरणा
गणितको जटिलता र संरचित प्रकृतिको कारणले गर्दा गणितीय तर्कले भाषा मोडेलहरूको लागि एक महत्त्वपूर्ण चुनौती खडा गर्छ। GPT-4 र Gemini-Ultra जस्ता सबैभन्दा उन्नत मोडेलहरू शक्तिशाली छन् तर सार्वजनिक रूपमा उपलब्ध छैनन्। त्यसकारण, कार्यसम्पादनमा सुधारको लागि महत्त्वपूर्ण ठाउँ छ। खुला स्रोत मोडेलहरू।
जटिलता र संरचना: गणितको जटिलता र संरचित प्रकृतिको कारणले गर्दा गणितीय तर्कले भाषा मोडेलहरूको लागि महत्त्वपूर्ण चुनौती खडा गर्छ।
सार्वजनिक डेटाको सम्भावना: सार्वजनिक रूपमा उपलब्ध वेब डेटामा समृद्ध गणितीय जानकारी हुन सक्छ जुन अझै उत्खनन र प्रयोग गर्न बाँकी छ।
विधिहरू
तथ्याङ्क सङ्कलन: पुनरावृत्ति पाइपलाइन मार्फत सामान्य क्रलबाट उच्च-गुणस्तरको गणित-सम्बन्धित वेब डेटा सङ्कलन गरेर १२०B टोकनहरूको १TP8TMath कोष निर्माण गरिएको थियो।
मोडेल प्रशिक्षण: यो कोर्पस DeepSeek-Coder-Base-v1.5 7B को शीर्षमा पूर्व-प्रशिक्षणको लागि प्रयोग गरिएको थियो, र गणितीय निर्देशन फाइन-ट्युनिङ र समूह सापेक्ष नीति अनुकूलन (GRPO) एल्गोरिथ्म लागू गरिएको थियो।
GRPO एल्गोरिथ्म: GRPO एक सुधारिएको सुदृढीकरण सिकाइ एल्गोरिथ्म हो जसले PPO मा क्रिटिक मोडेल हटाउँछ र समूह स्कोरबाट आधाररेखा अनुमान गर्दछ, जसले गर्दा प्रशिक्षण स्रोतहरू उल्लेखनीय रूपमा घट्छ।
विस्तृत विधि र प्रक्रियाहरू:
तथ्याङ्क सङ्कलन र प्रशोधन:

१TP८TMath कर्पस निर्माण गर्नुहोस्: फास्टटेक्स्ट-आधारित वर्गीकरणकर्ता प्रयोग गर्दै, १२०B गणित-सम्बन्धित टोकनहरू निकाल्नुहोस् कमन क्रलबाट ठूलो मात्रामा, उच्च-गुणस्तरको पूर्व-प्रशिक्षित कोर्पस, DeepSeekMath कोर्पस निर्माण गर्न।
पुनरावृत्ति डेटा फिल्टरिङ: पुनरावृत्ति रणनीति प्रयोग गरिन्छ, प्रारम्भिक वर्गीकरणकर्तालाई तालिम दिन OpenWebMath लाई बीज डेटाको रूपमा प्रयोग गर्दै, र त्यसपछि थप सकारात्मक उदाहरणहरू खानी गर्न यो वर्गीकरणकर्ता प्रयोग गर्दै सामान्य क्रलबाट, जुन वर्गीकरणकर्ता कार्यसम्पादनलाई निरन्तर अनुकूलन गर्न म्यानुअल रूपमा एनोटेट गरिन्छ।
बहुभाषी सुविधाहरू: DeepSeekMath Corpus मा समावेश छ बहुभाषी डेटा, जसले चिनियाँ गणित बेन्चमार्कहरूमा मोडेलको कार्यसम्पादन सुधार गर्दछ।
प्रदूषणमुक्त प्रशोधन: डि-परीक्षण बेन्चमार्कसँग ओभरल्याप हुनबाट जोगिन प्रशिक्षण डेटामा प्रदूषण प्रशोधन गरिन्छ।.
पूर्व-प्रशिक्षण:
कोड-आधारित मोडेल प्रारम्भिकीकरण: प्रयोग गरेर प्रारम्भिकीकरण १TP8T-कोडर-बेस-v1.5 7B सामान्य LLM बाट प्रारम्भिक मोडेल भन्दा बढी प्रभावकारी पाइयो।
पूर्व-प्रशिक्षण डेटा संरचना: ५६१TP११T १TP८TMath Corpus, ४१TP११T AlgebraicStack, १०१TP११T arXiv, २०१TP११T Github कोड, १०१TP११T सामान्य क्रल प्राकृतिक भाषा डेटा।
पूर्व-प्रशिक्षण प्यारामिटरहरू: AdamW अप्टिमाइजर प्रयोग गरिन्छ, जसको सिकाइ दर ४.२e-४, ब्याच साइज १०M टोकन र प्रशिक्षण ५००B टोकन हुन्छ।
निर्देशन फाइन-ट्युनिङ:
निर्देशन फाइन-ट्युनिङ डेटासेट निर्माण गर्नुहोस्: समावेश भएको गणितीय निर्देशन फाइन-ट्युनिङ डेटासेट निर्माण गर्नुहोस् ७७६ हजार नमुनाहरू, चरणहरू समाधान गर्न CoT, PoT, र उपकरण-एकीकृत अनुमान ढाँचाहरू सहित विभिन्न गणितीय क्षेत्रहरू र कठिनाई स्तरहरू समेट्छ।
प्रशिक्षण प्यारामिटरहरू: ब्याच साइज २५६, सिकाइ दर ५e-५, ५०० पाइलाको लागि तालिम।
सुदृढीकरण सिकाइ - समूह सापेक्ष नीति अनुकूलन (GRPO):
GRPO एल्गोरिथ्म प्रस्ताव गर्नुहोस्: प्रस्ताव गर्नुहोस् a PPO भेरियन्ट एल्गोरिथ्म GRPO, जसले आधार रेखा अनुमान गर्न समूह-वार स्कोरहरू प्रयोग गरेर क्रिटिक मोडेलको आवश्यकतालाई बेवास्ता गर्दछ, जसले गर्दा प्रशिक्षण स्रोतहरू घट्छ।.
उद्देश्य कार्य: GRPO ले वस्तुनिष्ठ कार्यलाई अधिकतम बनाएर नीति मोडेललाई अनुकूलन गर्छ जुन समूह भित्रका आउटपुटहरूको सापेक्षिक फाइदालाई ध्यानमा राख्छ र नियमितीकरण शब्दको रूपमा KL विचलनलाई प्रत्यक्ष रूपमा थप्छ।.
फाइदा गणना: GRPO ले फाइदा गणना गर्छ समूहभित्रको सापेक्षिक पुरस्कार, समूह-अन्तरगत तुलनाहरू बेवास्ता गर्दै र पुरस्कार मोडेलको तुलनात्मक प्रकृतिसँग राम्रोसँग अनुरूप.
परिणाम र प्रक्रिया अनुगमन दुवैलाई समर्थन गर्दछ: GRPO नतिजा र प्रक्रिया दुवै अनुगमनलाई समर्थन गर्न सक्छ, र नीतिलाई अझ प्रभावकारी रूपमा अनुगमन गर्न सक्छ प्रत्येक अनुमान चरणको अन्त्यमा पुरस्कार प्रदान गरेर।
पुनरावृत्ति RL: प्रयोग गर्दछ पुनरावृत्ति आरएल रणनीति नीति मोडेलको नमूना परिणामहरूको आधारमा नयाँ प्रशिक्षण सेट उत्पन्न गर्न, पुरानो पुरस्कार मोडेललाई निरन्तर तालिम दिन, र नीति मोडेललाई अद्यावधिक गर्न नयाँ पुरस्कार मोडेल प्रयोग गर्न।
तालिम डेटा: SFT डेटामा GSM8K र MATH सँग सम्बन्धित CoT ढाँचा समस्याहरू प्रयोग गर्दछ, लगभग १४४K समस्याहरू।
प्रशिक्षण प्यारामिटरहरू: नीति मोडेलको सिकाइ दर १e-६ छ, KL गुणांक ०.०४ छ, प्रत्येक समस्याको लागि ६४ आउटपुटहरू नमूना गरिएका छन्, अधिकतम लम्बाइ १०२४ छ, र प्रशिक्षण ब्याच आकार १०२४ छ।
निष्कर्ष

निष्कर्ष १:DeepSeekMath 7B ले गणितीय तर्क क्षमतामा सबै खुला स्रोत मोडेलहरूलाई उछिन्छ। प्रतिस्पर्धात्मक MATH बेन्चमार्क परीक्षणमा, DeepSeekMath 7B ले 51.7% को शुद्धता हासिल गर्यो, जुन जेमिनी-अल्ट्रा र GPT-4 को प्रदर्शन स्तरको नजिक छ।
निष्कर्ष २:राम्रोसँग डिजाइन गरिएको पूर्व-प्रशिक्षण डेटा र GRPO एल्गोरिदमहरू मोडेलको सफलताको लागि महत्वपूर्ण छन्। उच्च-गुणस्तरको गणितीय कोष र GRPO एल्गोरिदमको संयोजनले मोडेललाई गणितीय तर्क कार्यहरूमा उल्लेखनीय प्रदर्शन लाभ प्राप्त गर्न सक्षम बनाउँछ।
निष्कर्ष ३:कोड तालिमले गणितीय तर्क क्षमता सुधार गर्न मद्दत गर्छ। प्रि-ट्रेनिङ चरणमा कोड डेटा थप्नाले मोडेलको उपकरणहरू सहित र बिना दुवै गणितीय समस्याहरू समाधान गर्ने क्षमतामा सुधार गर्न सक्छ।
निष्कर्ष ४: arXiv डेटाको सीमित उपयोगिता: अघिल्ला विश्वासहरूको विपरीत, arXiv डेटाले गणितीय तर्क सुधार गर्न सीमित सहयोग गरेको पाइयो।
सीमा
ज्यामिति र प्रमाण क्षमताहरू तुलनात्मक रूपमा कमजोर छन्: यद्यपि DeepSeekMath मात्रात्मक तर्कमा उत्कृष्ट छ, ज्यामिति र प्रमाणमा यसको क्षमताहरू अझै पनि बन्द-स्रोत मोडेलहरू भन्दा कम छन्। यो पूर्व-प्रशिक्षण र फाइन-ट्यूनिंग चरणहरूमा पक्षपाती डेटा चयनको कारण हुन सक्छ।
सानो नमूना क्षमतामा कमजोरी: DeepSeekMath सानो नमुना सिकाइको सन्दर्भमा GPT-4 भन्दा कम छ, जुन मोडेल आकारको सीमितताको कारणले हुन सक्छ।
थप कुशल सुदृढीकरण सिकाइ विधिहरू आवश्यक छन्: यद्यपि पेपरमा प्रस्तावित सुदृढीकरण सिकाइ विधिहरू प्रभावकारी छन्, अझै पनि सुधारको लागि ठाउँ छ, उदाहरणका लागि, पुरस्कार मोडेलबाट प्रतिक्रियाको कसरी अझ प्रभावकारी प्रयोग गर्ने र कोलाहलपूर्ण पुरस्कार संकेतहरूसँग कसरी व्यवहार गर्ने।
विवरणहरू
सुदृढीकरण सिकाइ अन्वेषण र विश्लेषण
अवलोकन:
समूह सापेक्ष नीति अनुकूलन (GRPO) को परिचय: यस पेपरले प्रोक्सिमल पोलिसी अप्टिमाइजेसन (PPO) को एक प्रकारको रूपमा नयाँ सुदृढीकरण सिकाइ एल्गोरिथ्म, GRPO प्रस्ताव गर्दछ। GRPO को मुख्य विशेषता यो हो कि यो PPO मा सामान्यतया प्रयोग हुने क्रिटिक मोडेललाई त्याग्छ र समूह स्कोरहरू मार्फत आधाररेखा अनुमान गर्दछ, जसले गर्दा प्रशिक्षणको लागि आवश्यक कम्प्युटेशनल स्रोतहरू धेरै कम हुन्छन्।
GRPO प्रभावकारिता प्रदर्शन: यो पेपरले प्रयोगात्मक रूपमा देखाउँछ कि GRPO ले गर्न सक्छ डोमेन भित्र र डोमेन बाहिर गणितीय कार्यहरू सहित कमाण्ड फाइन-ट्युनिङ मोडेलहरूको कार्यसम्पादनलाई प्रभावकारी रूपमा सुधार गर्नुहोस्।.
सुदृढीकरण सिकाइ विधिहरूको लागि एकीकृत रूपरेखा: यस पत्रले विभिन्न सुदृढीकरण सिकाइ विधिहरू बुझ्नको लागि एकीकृत रूपरेखा प्रस्ताव गर्दछ, जस्तै अस्वीकृति नमूना फाइन-ट्यूनिंग (RFT), प्रत्यक्ष प्राथमिकता अनुकूलन (DPO), PPO र GRPO। रूपरेखाले यी विधिहरूलाई प्रत्यक्ष वा सरलीकृत सुदृढीकरण सिकाइ प्रविधिको रूपमा व्यवहार गर्दछ।
सुदृढीकरण सिकाइका तत्वहरूको गहन अन्वेषण: यस पेपरले गहन रूपमा अन्वेषण गर्दछ सुदृढीकरण सिकाइका प्रमुख तत्वहरू, जस्तै अनलाइन तालिम र अफलाइन तालिम, नतिजा पर्यवेक्षण र प्रक्रिया पर्यवेक्षण, एकल-राउन्ड सुदृढीकरण सिकाइ र पुनरावृत्ति सुदृढीकरण सिकाइ।, विस्तृत प्रयोगहरू मार्फत, र सुदृढीकरण सिकाइको प्रभावकारिता सुधार गर्न सम्भावित दिशाहरूको सारांश दिन्छ।
GRPO (समूह सापेक्ष नीति अनुकूलन) एल्गोरिथ्म

सीमाहरू पीपीओ: पीपीओ एक सामान्यतया प्रयोग हुने सुदृढीकरण सिकाइ एल्गोरिथ्म हो, तर यसको लागि प्रशिक्षण आवश्यक पर्दछ र अतिरिक्त आलोचनात्मक मोडेल मूल्य प्रकार्य अनुमान गर्न, जसले लागू गर्दछ अतिरिक्त गणना र मेमोरी बोझ। यसको अतिरिक्त, LLM परिदृश्यमा, आलोचक मोडेल प्रशिक्षण जटिल हुन सक्छ किनभने यसको लागि मूल्याङ्कन आवश्यक पर्दछ प्रत्येक टोकनको आउटपुट।
GRPO को मूल विचार: GRPO को मूल विचार भनेको क्रिटिक मोडेल त्याग्नुहोस् र यसको सट्टा आधारभूत समस्याको लागि आउटपुटहरूको सेटको औसत स्कोर प्रयोग गर्नुहोस्। यो आधारभूत लाभ प्रकार्य अनुमान गर्न र नीति अनुकूलनको लागि प्रयोग गर्न सकिन्छ।यो दृष्टिकोणले प्रशिक्षणको जटिलतालाई उल्लेखनीय रूपमा कम गर्छ।
लाभ प्रकार्य गणना: GRPO ले लाभ प्रकार्य गणना गर्दछ छुट्टै मान प्रकार्यमा भर पर्नुको सट्टा, आउटपुटहरूको एउटै सेटमा प्रत्येक आउटपुटको सापेक्ष श्रेणीकरण गणना गर्दै PPO मा जस्तै।
KL विचलन पेनाल्टी: GRPO PPO जस्तै पुरस्कारमा KL विचलन पेनाल्टी थप्दैन, बरु नीति मोडेल र सन्दर्भ मोडेल बीचको KL विचलनलाई सिधै नोक्सान प्रकार्यमा थप्छ। यसले जटिल लाभ प्रकार्य गणनालाई बेवास्ता गर्छ।.
GRPO को मूल विचार
क्रिटिक (मान प्रकार्य) आवश्यक पर्दैन: GRPO ले मान प्रकार्यको आवश्यकतालाई बेवास्ता गर्छ र आधाररेखा अनुमान गर्न समूह भित्रको स्कोर प्रयोग गर्दछ, जसले गर्दा तालिम स्रोतहरू घट्छन्।
समूहभित्रको सापेक्षिक फाइदा: प्रत्येक समस्या q को लागि, GRPO ले पुरानो नीति π(θold) बाट आउटपुटहरूको सेट {o(1), o(2), …, o(G)} को नमूना लिन्छ र त्यसपछि निम्न समीकरणलाई वस्तुगत प्रकार्यको रूपमा अधिकतम बनाएर नीति मोडेललाई अनुकूलन गर्छ।

विशेष गरी:

यहाँ कुञ्जी Â(i,t) हो, जसले फाइदालाई प्रतिनिधित्व गर्दछ र गणना गरिन्छ समूह भित्रको आउटपुटको सापेक्षिक पुरस्कार, PPO मा जस्तै छुट्टै मान प्रकार्यमा भर पर्नुको सट्टा।

वस्तुनिष्ठ प्रकार्यले प्रत्यक्ष रूपमा थप्छ KL विचलनलाई परिमाण नियन्त्रण गर्न नियमितीकरण शब्दको रूपमा नीति अद्यावधिकहरू

र पुरस्कार मोडेलको तुलनात्मक प्रकृतिसँग पङ्क्तिबद्ध गर्नुहोस्: GRPO ले लाभ गणना गर्न सापेक्षिक अन्तरसमूह पुरस्कार प्रयोग गर्दछ, जुन पुरस्कार मोडेलको प्रकृतिसँग बढी सुसंगत छ, जुन सामान्यतया जोडीवार तुलनाको आधारमा प्रशिक्षित गरिन्छ।
GRPO को रिवार्ड मोडेल कसरी डिजाइन गर्न सकिन्छ (DeepSeek R1 हेर्नुहोस्)?
विशेषताहरु:
पुरस्कारको ढाँचा: लामो समयको पुस्तालाई बाध्य पार्छ खाट परिणामहरू, जसले मोडेललाई अनुमान प्रक्रियाहरू उत्पन्न गर्न र मोडेलको अनुमान प्रभाव सुधार गर्न प्रेरित गर्न सक्छ।
शुद्धता पुरस्कार: गणितले अन्तिम परिणाम प्रयोग गर्न सक्छ, र कोडले कम्पाइलर प्रतिक्रिया प्रयोग गर्न सक्छ।
GRPO का फाइदाहरू
कम मेमोरी फुटप्रिन्ट: कुनै क्रिटिक मोडेल आवश्यक पर्दैन, मेमोरी आवश्यकताहरू कम गर्दै।
अझ प्रभावकारी तालिम: समूहभित्रको सापेक्षिक लाभ प्रयोग गरेर गणना गर्दा तालिम प्रक्रियालाई सरल बनाउँछ।
पुरस्कार मोडेलहरूको प्रकृतिसँग बढी उपयुक्त: प्रशिक्षण स्थिरता र दक्षता सुधार गर्दछ।
RL एकीकृत प्रतिमान सारांश
प्रस्तावित एकीकृत प्रतिमान
लेखकहरूले SFT (सुपरभाइज्ड फाइन-ट्युनिङ), RFT (अस्वीकार नमूना फाइन-ट्युनिङ), DPO (प्रत्यक्ष प्राथमिकता अनुकूलन), PPO, GRPO, आदि जस्ता विभिन्न प्रशिक्षण विधिहरू बुझ्नको लागि एकीकृत प्रतिमान प्रस्ताव गर्छन्। RL प्रमुख तत्वहरू: एकीकृत ढाँचाका प्रमुख तत्वहरूमा समावेश छन्: डेटा स्रोतहरू, पुरस्कार प्रकार्यहरू, र एल्गोरिदमहरू।
- डेटा स्रोत: यसले तालिमको लागि प्रयोग गरिने डेटालाई जनाउँछ, जुन म्यानुअल लेबलिङ, SFT मोडेलहरू, वा वास्तविक-समय नीति मोडेलहरूबाट प्राप्त गर्न सकिन्छ।
- पुरस्कार प्रकार्य: यसले आउटपुटको गुणस्तर मूल्याङ्कन गर्न प्रयोग गरिने प्रकार्यलाई जनाउँछ, जुन नियम वा मोडेल हुन सक्छ।
- एल्गोरिथ्म: यसले डेटा र इनाम संकेत प्रशोधन गर्न र मोडेल प्यारामिटरहरू अद्यावधिक गर्न प्रयोग गरिने विधिलाई जनाउँछ।
एकीकृत प्रतिमानमा आधारित विभिन्न विधिहरूको विश्लेषण
तालिका १० ले डेटा स्रोतहरू, पुरस्कार प्रकार्यहरू र ग्रेडियन्ट गुणांकहरूको सन्दर्भमा SFT, RFT, DPO, अनलाइन RFT, PPO र GRPO बीचको समानता र भिन्नताहरूको सारांश दिन्छ।
विधि | तालिम डेटा | पुरस्कार समारोह | ग्रेडियन्ट गुणांक | तालिम विधि | फाइदाहरू/विशेषताहरू | लागू हुने परिदृश्यहरू |
एसएफटी | म्यानुअल रूपमा लेबल गरिएको SFT डेटा | म्यानुअल रूपमा चयन गरिएको (अनिहित पुरस्कार) | १ मा स्थिर गरियो | सुपरिवेक्षण गरिएको सिकाइ | सरल र स्थिर, उच्च-गुणस्तरको लेबल गरिएको डेटामा निर्भर | आधारभूत मोडेल प्रशिक्षण, प्रारम्भिक पङ्क्तिबद्धता कार्य |
आरएफटी | SFT डेटासेट समस्या + SFT मोडेल नमूना आउटपुट | उत्तर शुद्धतामा आधारित (नियम निर्णय) | ० (गलत) वा १ (सही) | अफलाइन नीति अप्टिमाइजेसन | कुशल गणना, नियम प्रतिक्रियाको प्रत्यक्ष प्रयोग | स्पष्ट नियमहरू सहितको गणितीय/तार्किक कार्यहरू |
डीपीओ | SFT डेटासेट समस्या + मोडेल आउटपुटलाई | मानव प्राथमिकता लेबलिंग वा नियम तुलना | प्राथमिकता सम्भाव्यता गणनामा आधारित (जस्तै, ब्राडली-टेरी मोडेल) | तुलनात्मक सिकाइ | स्पष्ट पुरस्कार मोडेलिङलाई बेवास्ता गर्छ, प्राथमिकताहरूलाई प्रत्यक्ष रूपमा अनुकूलन गर्छ | मानव प्राथमिकता पङ्क्तिबद्धता कार्यहरू (जस्तै, संवाद उत्पादन) |
अनलाइन RFT | वास्तविक-समय नीति मोडेल नमूना समस्या-आउटपुट जोडीहरू | उत्तर शुद्धतामा आधारित (नियम निर्णय) | ० (गलत) वा १ (सही) | अनलाइन नीति अप्टिमाइजेसन | वास्तविक-समय प्रतिक्रिया अनुकूलनको साथ नीतिहरूलाई गतिशील रूपमा अद्यावधिक गर्दछ। | अनलाइन अन्तरक्रिया आवश्यक पर्ने परिदृश्यहरू (जस्तै, खेल एआई) |
पीपीओ | SFT डेटासेट समस्या + नीति मोडेल नमूना आउटपुट | रिवार्ड मोडेल (RM) प्रशिक्षित | प्रभुत्व प्रकार्य (पुरस्कार अनुमानमा आधारित) | नीति ग्रेडियन्ट विधि | कुशल र स्थिर, बहु-चरण अनुकूलन समर्थन गर्दछ। | जटिल कार्यहरू (जस्तै पाठ उत्पादन, रोबोट नियन्त्रण) |
GRPO | SFT डेटासेट समस्या + नीति मोडेल नमूना आउटपुट | रिवार्ड मोडेल (RM) प्रशिक्षित | समूहभित्रको सापेक्षिक पुरस्कार (सामान्यीकृत तुलना) | समूह नीति अनुकूलन | पुरस्कार भिन्नता घटाउनुहोस् र समूह भित्रको तुलना सुधार गर्नुहोस् | उच्च भिन्नता भएका कार्यहरू (जस्तै लामो पाठ उत्पादन) |
डेटा स्रोतहरूमा अवलोकनहरू

अनलाइन बनाम अफलाइन प्रशिक्षण: अनलाइन तालिमले वास्तविक-समय नीति मोडेलको आउटपुटलाई तालिम डेटाको रूपमा प्रयोग गर्नुलाई जनाउँछ, जबकि अफलाइन तालिमले निश्चित मोडेल (जस्तै SFT मोडेल) को आउटपुटलाई तालिम डेटाको रूपमा प्रयोग गर्नुलाई जनाउँछ। प्रयोगात्मक नतिजाहरूले देखाउँछन् कि अनलाइन तालिम सामान्यतया अफलाइन तालिम भन्दा राम्रो हुन्छ.
परिणाम सुपरिवेक्षण बनाम प्रक्रिया सुपरिवेक्षण: परिणाम पर्यवेक्षणले आउटपुटको अन्तिम चरणलाई मात्र पुरस्कृत गर्ने बुझिन्छ, जबकि प्रक्रिया पर्यवेक्षणले तर्क प्रक्रियाको प्रत्येक चरणलाई पुरस्कृत गर्ने बुझिन्छ। प्रयोगात्मक परिणामहरूले देखाउँछन् कि जटिल कार्यहरूमा प्रक्रिया सुपरिवेक्षण बढी प्रभावकारी हुन्छ.
एकल-एपिसोड बनाम पुनरावृत्ति सुदृढीकरण सिकाइ: एकल-एपिसोड सुदृढीकरण सिकाइले एकल रणनीति अनुकूलनलाई जनाउँछ, जबकि पुनरावृत्ति सुदृढीकरण सिकाइले बहु रणनीति अनुकूलन पछि पुरस्कार मोडेलको निरन्तर अद्यावधिकलाई जनाउँछ। प्रयोगात्मक परिणामहरूले देखाउँछन् कि पुनरावृत्ति सुदृढीकरण सिकाइले कार्यसम्पादनमा उल्लेखनीय सुधार गर्न सक्छ, विशेष गरी पहिलो पुनरावृत्तिमा.
ग्रेडियन्ट गुणांकहरूको अवलोकन
नियम-आधारित बनाम मोडेल-आधारित: नियमले उत्तरको शुद्धताको आधारमा पुरस्कार निर्धारण गर्नेलाई जनाउँछ, र मोडेलले स्कोर गर्न पुरस्कार मोडेललाई प्रशिक्षण दिनेलाई जनाउँछ।
ग्रेडियन्ट गुणांकमा भिन्नता: GRPO र बीचको मुख्य भिन्नता अनलाइन RFT भनेको GRPO ले पुरस्कार मोडेलद्वारा प्रदान गरिएको पुरस्कार मानहरूको आधारमा यसको ग्रेडियन्ट गुणांकहरू समायोजन गर्ने हो, जबकि अनलाइन RFT ले गर्दैन।
GRPO का फाइदाहरू: प्रयोगहरूले देखाउँछन् कि GRPO अनलाइन RFT भन्दा उत्कृष्ट छ, जसले ग्रेडियन्ट गुणांकको चिन्ह परिवर्तन गर्ने प्रभावकारिता प्रदर्शन गर्दछ। GRPO+PS GRPO+OS भन्दा उत्कृष्ट छ, जसले सूक्ष्म, चरण-सचेत ग्रेडियन्ट गुणांक प्रयोग गर्ने फाइदाहरू प्रदर्शन गर्दछ।.
RL प्रभावकारिता र सुधारको लागि निर्देशनहरू
RL किन प्रभावकारी छ?

प्रयोगात्मक परिणामहरू: RL ले Maj@K को प्रदर्शन सुधार गर्छ तर Pass@K को होइन।
स्पष्टीकरण: RL ले आउटपुट वितरणलाई अझ बलियो बनाएर मोडेलको समग्र कार्यसम्पादनमा सुधार गर्छ, अर्थात्, यसले मोडेलको अन्तर्निहित क्षमता बढाउनुको सट्टा TopK मा सही उत्तरहरूको सम्भावनामा सुधार गर्छ।
अझ प्रभावकारी RL कसरी हासिल गर्न सकिन्छ?
एकीकृत प्रतिमानको आधारमा, लेखकहरूले तीन पक्षहरूमा RL सुधार गर्न भविष्यका दिशाहरू प्रस्ताव गर्छन्: डेटा स्रोतहरू, एल्गोरिदमहरू, र पुरस्कार प्रकार्यहरू।
- डेटा स्रोतहरू:
- SFT चरणभन्दा बाहिरका समस्याहरूको अन्वेषण गर्नुहोस्।
- रूख खोज-आधारित विधिहरू जस्ता थप उन्नत नमूना (डिकोडिङ) रणनीतिहरू प्रयोग गर्नुहोस्।
- नीति मोडेलको अन्वेषण दक्षता सुधार गर्न कुशल अनुमान प्रविधिहरू प्रयोग गर्नुहोस्।
- एल्गोरिथ्म:
- कोलाहलपूर्ण पुरस्कार संकेतहरूको लागि अझ बलियो सुदृढीकरण सिकाइ एल्गोरिदमहरू अन्वेषण गर्नुहोस्।
- कमजोर देखि बलियो प्रकारको पङ्क्तिबद्धता विधिहरू अध्ययन गर्नुहोस्।
- पुरस्कार प्रकार्य:
- वितरण बाहिरका समस्याहरू र उन्नत डिकोड गरिएका आउटपुटहरू ह्यान्डल गर्न पुरस्कार मोडेलको सामान्यीकरण क्षमता बढाउनुहोस्।
- पुरस्कार मोडेलको अनिश्चिततालाई प्रतिबिम्बित गर्नुहोस् र कमजोर पुरस्कार मोडेलहरू र कमजोर-देखि-बलियो सिकाइ एल्गोरिदमहरू जोड्न पुलको रूपमा प्रयोग गर्नुहोस्।
- अनुमान प्रक्रियाको लागि सूक्ष्म प्रशिक्षण संकेतहरू प्रदान गर्न उच्च-गुणस्तरको प्रक्रिया पुरस्कार मोडेलहरू कुशलतापूर्वक निर्माण गर्नुहोस्।
सारांश
DeepSeekMath ले ठूलो मात्रामा गणितीय कोर्पस निर्माण गरेर र नयाँ सुदृढीकरण सिकाइ एल्गोरिथ्म प्रस्ताव गरेर गणितीय तर्कमा खुला स्रोत भाषा मोडेलहरूको क्षमतामा उल्लेखनीय सुधार गरेको छ। यस पत्रका मुख्य विशेषताहरू हुन्
- DeepSeekMath Corpus को निर्माण र प्रमाणीकरण, एक ठूलो स्तरको, उच्च-गुणस्तरको, बहुभाषी गणितीय कोष।
- मोडेलको गणितीय तर्क क्षमतामा सुधार गर्दै मेमोरी प्रयोग घटाउन एक कुशल सुदृढीकरण सिकाइ एल्गोरिथ्म, GRPO, प्रस्ताव गरिएको छ।
- गणितीय तर्क क्षमतामा कोड तालिमको प्रभावको गहिराइमा छलफल गरिएको छ, र यो पत्ता लागेको छ कि arXiv डेटाको सीमित प्रभाव छ। DeepSeekMath को मान:
- यसले खुला स्रोत समुदायलाई शक्तिशाली गणितीय तर्क मोडेल प्रदान गर्दछ र गणितीय एआईको विकासलाई प्रवर्द्धन गर्दछ।
- यसले गणितीय निगम निर्माण गर्न र गणितीय तर्क मोडेलहरूलाई प्रशिक्षण दिन बहुमूल्य अनुभव र विधिहरू प्रदान गर्दछ।
- प्रस्तावित GRPO एल्गोरिथ्मले अन्य क्षेत्रहरूमा सुदृढीकरण सिकाइ प्रशिक्षणको लागि नयाँ विचारहरू प्रदान गर्दछ।