पेपर-DeepSeek-R1: सुदृढीकरण सीखने के माध्यम से एलएलएम में तर्क क्षमता को प्रोत्साहित करना

विषयसूची

अमूर्त

यह शोधपत्र DeepSeek के प्रथम पीढ़ी के तर्क मॉडल प्रस्तुत करता है: DeepSeek-R1-Zero और DeepSeek-R1। DeepSeek-R1-Zero, बिना पर्यवेक्षित फ़ाइन-ट्यूनिंग (SFT) के बड़े पैमाने पर सुदृढीकरण सीखने (RL) के माध्यम से प्रशिक्षित, उल्लेखनीय तर्क क्षमताओं को प्रदर्शित करता है। RL के माध्यम से, यह स्वाभाविक रूप से शक्तिशाली तर्क व्यवहार विकसित करता है। हालाँकि, यह खराब पठनीयता और भाषा मिश्रण जैसी चुनौतियों का सामना करता है। इन मुद्दों को संबोधित करने और तर्क प्रदर्शन को बढ़ाने के लिए, DeepSeek-R1 को विकसित किया गया था, जिसमें RL से पहले बहु-चरण प्रशिक्षण और कोल्ड-स्टार्ट डेटा शामिल था। DeepSeek-R1 तर्क कार्यों पर OpenAI-o1-1217 के बराबर प्रदर्शन प्राप्त करता है

प्रमुख योगदान

प्रशिक्षण के बाद: बड़े पैमाने पर सुदृढीकरण सीखना

SFT के बिना सीधे बेस मॉडल पर RL को सफलतापूर्वक लागू किया गया
DeepSeek-R1-Zero विकसित किया गया, जो स्व-सत्यापन और प्रतिबिंब जैसी क्षमताओं का प्रदर्शन करता है
पहला खुला शोध जो यह प्रमाणित करता है कि तर्क क्षमताओं को विशुद्ध रूप से वास्तविक जीवन में क्रियाशील होने के माध्यम से प्रोत्साहित किया जा सकता है
दो आरएल चरणों और दो एसएफटी चरणों के साथ DeepSeek-R1 के लिए पाइपलाइन शुरू की गई

आसवन: छोटे मॉडलों को सशक्त बनाना

यह प्रदर्शित किया गया कि बड़े मॉडलों से तर्क पैटर्न को प्रभावी रूप से छोटे मॉडलों में परिवर्तित किया जा सकता है
ओपन-सोर्स DeepSeek-R1 और इसके API से अनुसंधान समुदाय को लाभ मिलेगा
कई सघन मॉडलों को परिष्कृत करके असाधारण बेंचमार्क प्रदर्शन दिखाया गया
आसुत मॉडल पिछले ओपन-सोर्स मॉडल से काफी बेहतर प्रदर्शन करते हैं

मूल्यांकन परिणाम

तर्क कार्य

DeepSeek-R1 ने AIME 2024 में 79.8% Pass@1 हासिल किया, OpenAI-o1-1217 को पीछे छोड़ा
MATH-500 पर 97.3% स्कोर, OpenAI-o1-1217 के बराबर प्रदर्शन
कोडफोर्स पर 2,029 एलो रेटिंग के साथ कोड प्रतियोगिता कार्यों में विशेषज्ञ स्तर का प्रदर्शन

ज्ञान कार्य

MMLU (90.8%), MMLU-Pro (84.0%), और GPQA डायमंड (71.5%) पर उत्कृष्ट परिणाम
शैक्षिक कार्यों में अन्य बंद-स्रोत मॉडलों से आगे निकल गया
SimpleQA जैसे तथ्यात्मक बेंचमार्क पर मजबूत प्रदर्शन

सामान्य क्षमताएं

रचनात्मक लेखन, प्रश्न उत्तर, संपादन और सारांशीकरण में उत्कृष्टता
AlpacaEval 2.0 पर 87.6% जीत दर और ArenaHard पर 92.3%
दीर्घ-संदर्भ समझने वाले कार्यों में मजबूत प्रदर्शन

भविष्य का कार्य

टीम की योजना निम्नलिखित पर ध्यान केन्द्रित करने की है:

फ़ंक्शन कॉलिंग और जटिल रोल-प्लेइंग जैसे क्षेत्रों में सामान्य क्षमताओं को बढ़ाना
भाषा मिश्रण संबंधी मुद्दों का समाधान
प्रॉम्प्टिंग इंजीनियरिंग में सुधार
सॉफ्टवेयर इंजीनियरिंग कार्यों पर प्रदर्शन को बढ़ाना

निष्कर्ष

DeepSeek-R1 सुदृढीकरण सीखने के माध्यम से AI तर्क क्षमताओं में एक महत्वपूर्ण उन्नति का प्रतिनिधित्व करता है। मुख्य मॉडल और इसके आसुत संस्करणों दोनों की सफलता अधिक सक्षम AI सिस्टम विकसित करने के लिए इस दृष्टिकोण की क्षमता को प्रदर्शित करती है। इन मॉडलों का ओपन-सोर्स रिलीज़ क्षेत्र में आगे के शोध और विकास में योगदान देगा।

DeepSeek_R1 डाउनलोड करना

अवर्गीकृत

सौ बिलियन डॉलर के निवेश के साथ ले चैट शीर्ष पर है। अमेरिका और चीन के बाद, क्या यह तीसरी एआई शक्ति है?

द्वाराzddeepseeker फ़रवरी 11, 2025फ़रवरी 11, 2025

9 फरवरी को, फ्रांस के राष्ट्रपति इमैनुएल मैक्रों ने घोषणा की कि फ्रांस अगले कुछ वर्षों में AI के क्षेत्र में 109 बिलियन यूरो (113 बिलियन अमेरिकी डॉलर) का निवेश करेगा। इस निवेश का उपयोग फ्रांस में AI पार्क बनाने, बुनियादी ढांचे में सुधार करने और स्थानीय AI स्टार्ट-अप में निवेश करने के लिए किया जाएगा। इस बीच, मिस्ट्रल, एक फ्रांसीसी स्टार्टअप, ने घोषणा की कि वह अगले कुछ वर्षों में AI के क्षेत्र में 109 बिलियन यूरो (113 बिलियन अमेरिकी डॉलर) का निवेश करेगा।

अवर्गीकृत

DeepSeek जैसे बड़े भाषा मॉडल प्रबंधन कलाकृतियाँ: चेरी स्टूडियो, चैटबॉक्स, एनीथिंगएलएलएम, आपका दक्षता त्वरक कौन है?

द्वाराzddeepseeker फ़रवरी 11, 2025फ़रवरी 11, 2025

बहुत से लोगों ने पहले ही डीपसीक लार्ज लैंग्वेज मॉडल को स्थानीय स्तर पर तैनात और उपयोग करना शुरू कर दिया है, चैटबॉक्स को विज़ुअलाइज़ेशन टूल के रूप में उपयोग कर रहे हैं। यह लेख दो अन्य AI लार्ज लैंग्वेज मॉडल प्रबंधन और विज़ुअलाइज़ेशन कलाकृतियों को पेश करना जारी रखेगा, और AI लार्ज लैंग्वेज मॉडल को अधिक कुशलता से उपयोग करने में आपकी मदद करने के लिए तीनों की विस्तार से तुलना करेगा। 2025 में,…

अवर्गीकृत

DeepSeek TOP17 सर्वश्रेष्ठ विकल्प: व्यापक विश्लेषण (2025)

द्वारा1TP7टेर 6 फरवरी, 20256 फरवरी, 2025

परिचय कृत्रिम बुद्धिमत्ता के तेजी से विकसित हो रहे परिदृश्य में, DeepSeek एक शक्तिशाली भाषा मॉडल के रूप में उभरा है। यह व्यापक विश्लेषण DeepSeek के शीर्ष 17 विकल्पों की खोज करता है, उनकी अनूठी विशेषताओं, क्षमताओं और उपयोग के मामलों की जांच करता है। हमारा शोध अंतरराष्ट्रीय और चीनी दोनों प्लेटफ़ॉर्म पर केंद्रित है जो DeepSeek एकीकरण या समान क्षमताएँ प्रदान करते हैं। शीर्ष विकल्प विश्लेषण 1….

अवर्गीकृत

27 वर्षीय सीईओ के साथ a16z संवाद: AI एजेंट का बहुत बड़ा उत्तोलन प्रभाव है, और दीर्घकालिक मूल्य निर्धारण श्रम लागत से जुड़ा होगा

द्वाराzddeepseeker 8 फरवरी, 20258 फरवरी, 2025

हाइलाइट्स एआई एजेंट ग्राहक अनुभव को नया आकार देता है जेसी झांग: एजेंट वास्तव में कैसे बनाया जाता है? हमारा विचार है कि समय के साथ, यह अधिक से अधिक प्राकृतिक भाषा-आधारित एजेंट की तरह बन जाएगा क्योंकि इसी तरह बड़े भाषा मॉडल (एलएलएम) को प्रशिक्षित किया जाता है। लंबे समय में, यदि आपके पास एक सुपर इंटेलिजेंट एजेंट है जो…

अवर्गीकृत

गूगल ने एक साथ तीन नए मॉडल जारी किए हैं: जेमिनी-2.0-प्रो निःशुल्क है, इसका स्कोर उत्कृष्ट है और यह प्रथम स्थान पर है, तथा यह कोडिंग और जटिल प्रॉम्प्ट के प्रसंस्करण के लिए उपयुक्त है!

द्वाराzddeepseeker 8 फरवरी, 20258 फरवरी, 2025

जेमिनी 2.0 की कहानी तेज़ी से आगे बढ़ रही है। दिसंबर में फ्लैश थिंकिंग एक्सपेरीमेंटल संस्करण ने डेवलपर्स को कम विलंबता और उच्च प्रदर्शन वाला एक कार्यशील मॉडल दिया। इस साल की शुरुआत में, Google AI स्टूडियो में 2.0 फ्लैश थिंकिंग एक्सपेरीमेंटल को अपडेट किया गया था ताकि फ्लैश की गति को बेहतर अनुमान क्षमताओं के साथ जोड़कर प्रदर्शन को और बेहतर बनाया जा सके। पिछले हफ़्ते,…

अवर्गीकृत

DeepSeek ने कर दिखाया! OpenAI ने क्लोज्ड सोर्स की गलती स्वीकार की, अब लीडिंग एज का लाभ कम हुआ

द्वाराzddeepseeker फरवरी 2, 2025फरवरी 2, 2025

ओपनएआई द्वारा ओ3-मिनी मॉडल जारी किए जाने के बाद, इसके सीईओ सैम ऑल्टमैन, मुख्य अनुसंधान अधिकारी मार्क चेन, मुख्य उत्पाद अधिकारी केविन वील; इंजीनियरिंग के उपाध्यक्ष श्रीनिवास नारायणन, एपीआई अनुसंधान प्रमुख मिशेल पोक्रास और अनुसंधान प्रमुख होंगयु रेन ने दुनिया के सबसे बड़े व्यापक मंचों में से एक रेडिट पर एक ऑनलाइन तकनीकी प्रश्नोत्तर सत्र आयोजित किया। मुख्य विषय…

अमूर्त

प्रमुख योगदान

प्रशिक्षण के बाद: बड़े पैमाने पर सुदृढीकरण सीखना

आसवन: छोटे मॉडलों को सशक्त बनाना

मूल्यांकन परिणाम

तर्क कार्य

ज्ञान कार्य

सामान्य क्षमताएं

भविष्य का कार्य

निष्कर्ष

इसी तरह की पोस्ट

प्रातिक्रिया दे जवाब रद्द करें