अमूर्त

यह शोधपत्र DeepSeek के प्रथम पीढ़ी के तर्क मॉडल प्रस्तुत करता है: DeepSeek-R1-Zero और DeepSeek-R1। DeepSeek-R1-Zero, बिना पर्यवेक्षित फ़ाइन-ट्यूनिंग (SFT) के बड़े पैमाने पर सुदृढीकरण सीखने (RL) के माध्यम से प्रशिक्षित, उल्लेखनीय तर्क क्षमताओं को प्रदर्शित करता है। RL के माध्यम से, यह स्वाभाविक रूप से शक्तिशाली तर्क व्यवहार विकसित करता है। हालाँकि, यह खराब पठनीयता और भाषा मिश्रण जैसी चुनौतियों का सामना करता है। इन मुद्दों को संबोधित करने और तर्क प्रदर्शन को बढ़ाने के लिए, DeepSeek-R1 को विकसित किया गया था, जिसमें RL से पहले बहु-चरण प्रशिक्षण और कोल्ड-स्टार्ट डेटा शामिल था। DeepSeek-R1 तर्क कार्यों पर OpenAI-o1-1217 के बराबर प्रदर्शन प्राप्त करता है

प्रमुख योगदान

प्रशिक्षण के बाद: बड़े पैमाने पर सुदृढीकरण सीखना

  • SFT के बिना सीधे बेस मॉडल पर RL को सफलतापूर्वक लागू किया गया
  • DeepSeek-R1-Zero विकसित किया गया, जो स्व-सत्यापन और प्रतिबिंब जैसी क्षमताओं का प्रदर्शन करता है
  • पहला खुला शोध जो यह प्रमाणित करता है कि तर्क क्षमताओं को विशुद्ध रूप से वास्तविक जीवन में क्रियाशील होने के माध्यम से प्रोत्साहित किया जा सकता है
  • दो आरएल चरणों और दो एसएफटी चरणों के साथ DeepSeek-R1 के लिए पाइपलाइन शुरू की गई

आसवन: छोटे मॉडलों को सशक्त बनाना

  • यह प्रदर्शित किया गया कि बड़े मॉडलों से तर्क पैटर्न को प्रभावी रूप से छोटे मॉडलों में परिवर्तित किया जा सकता है
  • ओपन-सोर्स DeepSeek-R1 और इसके API से अनुसंधान समुदाय को लाभ मिलेगा
  • कई सघन मॉडलों को परिष्कृत करके असाधारण बेंचमार्क प्रदर्शन दिखाया गया
  • आसुत मॉडल पिछले ओपन-सोर्स मॉडल से काफी बेहतर प्रदर्शन करते हैं

मूल्यांकन परिणाम

तर्क कार्य

  • DeepSeek-R1 ने AIME 2024 में 79.8% Pass@1 हासिल किया, OpenAI-o1-1217 को पीछे छोड़ा
  • MATH-500 पर 97.3% स्कोर, OpenAI-o1-1217 के बराबर प्रदर्शन
  • कोडफोर्स पर 2,029 एलो रेटिंग के साथ कोड प्रतियोगिता कार्यों में विशेषज्ञ स्तर का प्रदर्शन

ज्ञान कार्य

  • MMLU (90.8%), MMLU-Pro (84.0%), और GPQA डायमंड (71.5%) पर उत्कृष्ट परिणाम
  • शैक्षिक कार्यों में अन्य बंद-स्रोत मॉडलों से आगे निकल गया
  • SimpleQA जैसे तथ्यात्मक बेंचमार्क पर मजबूत प्रदर्शन

सामान्य क्षमताएं

  • रचनात्मक लेखन, प्रश्न उत्तर, संपादन और सारांशीकरण में उत्कृष्टता
  • AlpacaEval 2.0 पर 87.6% जीत दर और ArenaHard पर 92.3%
  • दीर्घ-संदर्भ समझने वाले कार्यों में मजबूत प्रदर्शन

भविष्य का कार्य

टीम की योजना निम्नलिखित पर ध्यान केन्द्रित करने की है:

  1. फ़ंक्शन कॉलिंग और जटिल रोल-प्लेइंग जैसे क्षेत्रों में सामान्य क्षमताओं को बढ़ाना
  2. भाषा मिश्रण संबंधी मुद्दों का समाधान
  3. प्रॉम्प्टिंग इंजीनियरिंग में सुधार
  4. सॉफ्टवेयर इंजीनियरिंग कार्यों पर प्रदर्शन को बढ़ाना

निष्कर्ष

DeepSeek-R1 सुदृढीकरण सीखने के माध्यम से AI तर्क क्षमताओं में एक महत्वपूर्ण उन्नति का प्रतिनिधित्व करता है। मुख्य मॉडल और इसके आसुत संस्करणों दोनों की सफलता अधिक सक्षम AI सिस्टम विकसित करने के लिए इस दृष्टिकोण की क्षमता को प्रदर्शित करती है। इन मॉडलों का ओपन-सोर्स रिलीज़ क्षेत्र में आगे के शोध और विकास में योगदान देगा।

इसी तरह की पोस्ट

प्रातिक्रिया दे

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *