यह DeepSeek-R1-32B के करीब है और फी-फी ली के s1 को कुचल देता है! यूसी बर्कले और अन्य ओपन सोर्स नए SOTA अनुमान मॉडल

32B अनुमान मॉडल केवल 1/8 डेटा का उपयोग करता है और समान आकार के DeepSeek-R1 के साथ जुड़ा हुआ है!

अभी हाल ही में, स्टैनफोर्ड, यूसी बर्कले और वाशिंगटन विश्वविद्यालय जैसे संस्थानों ने संयुक्त रूप से एक SOTA-स्तरीय अनुमान मॉडल जारी किया है, ओपनथिंकर-32बी, और 114k तक का प्रशिक्षण डेटा भी ओपन-सोर्स किया है।

ओपनथिंकर परियोजना मुखपृष्ठ:

ओपनथिंकर गले लगाने वाला चेहरा:

खुले विचार डेटासेट:

टीम डिस्कवरी: DeepSeek-R1 सत्यापित एनोटेशन (R1 आसवन पर आधारित) के साथ बड़े पैमाने पर उच्च गुणवत्ता वाले डेटासेट का उपयोग करके, एक SOTA अनुमान मॉडल को प्रशिक्षित किया जा सकता है।

विशिष्ट विधि डेटा को मापना, अनुमान प्रक्रिया को सत्यापित करना, और मॉडल को मापना है।

परिणामस्वरूप ओपनथिंकर-32बी ने गणित, कोडिंग और विज्ञान में कई बेंचमार्क परीक्षणों में ली फी-फी के एस1 और एस1.1 मॉडल से बेहतर प्रदर्शन किया, और आर1-डिस्टिल-32बी के करीब था।

यह उल्लेखनीय है कि R1-Distill-32B की तुलना में, जिसमें 800k डेटा (600k अनुमान नमूनों सहित) का उपयोग किया गया था, OpenThinker-32B ने लगभग समान उत्कृष्ट परिणाम प्राप्त करने के लिए केवल 114k डेटा का उपयोग किया।

इसके अलावा, ओपनथिंकर-32 ने सभी मॉडल वेट, डेटासेट, डेटा जनरेशन कोड और प्रशिक्षण कोड भी सार्वजनिक कर दिया!

विषयसूची

डेटा क्यूरेशन

शोधकर्ताओं ने उसी OpenThoughts-114k डेटासेट का उपयोग करके OpenThinker-32B को प्रशिक्षित किया, जिस प्रकार उन्होंने पहले OpenThinker-7B को प्रशिक्षित किया था।

उन्होंने DeepSeek-R1 मॉडल का उपयोग करके 173,000 प्रश्नों के सावधानीपूर्वक चयनित सेट के लिए तर्क प्रक्रियाओं और उत्तर प्रयासों को एकत्र किया। इस कच्चे डेटा को फिर ओपनथॉट्स-अनवेरिफाइड-173k डेटासेट के रूप में प्रकाशित किया गया।

प्रक्रिया का अंतिम चरण, यदि तर्क प्रक्रिया सत्यापन में असफल हो जाती है तो संबंधित डेटा नमूनों को फ़िल्टर करना है।

निम्नलिखित चित्र संपूर्ण प्रक्रिया को दृश्यात्मक रूप से प्रदर्शित करता है।

शोध टीम सबसे पहले स्रोत डेटा या प्रश्न संकेत दर्ज करती है, जो विभिन्न क्षेत्रों और प्लेटफार्मों से आ सकते हैं, जैसे कि BAAI/TACO, डीपमाइंड, पायथन सबमिशन, आदि, जो कोड, पहेलियाँ, विज्ञान और गणित जैसे विभिन्न पहलुओं को कवर करते हैं।

इन विविध इनपुट को फिर कोर प्रोसेसिंग मॉड्यूल, DeepSeek-R1 में भेजा जाता है, जहाँ डेटा का विश्लेषण और प्रसंस्करण किया जाता है। प्रश्नों को तीन श्रेणियों में विभाजित किया गया है: विज्ञान प्रश्न, गणित और पहेलियाँ, और कोड।

कुछ परिणामों को सत्यापन की आवश्यकता नहीं होती है और वे सरल विश्लेषण या प्रत्यक्ष आउटपुट हो सकते हैं। कुछ सामग्री के लिए जिसे गहन सत्यापन की आवश्यकता होती है, उसे GT (ग्राउंड ट्रुथ) के बराबर आंकने के लिए एक बड़े भाषा मॉडल (LLM) का उपयोग किया जाता है। यदि यह कोड है, तो कोड निष्पादित किया जाता है और इसकी शुद्धता और प्रभावशीलता सुनिश्चित करने के लिए यूनिट परीक्षण किए जाते हैं।

अंततः, विभिन्न दिशाओं से प्राप्त परिणामों को मिलाकर खुले दिमाग वाली सोच और अधिक व्यापक समाधान उत्पन्न किया जा सकता है।

शोध दल ने अंतिम OpenThoughts-114k डेटासेट को "मेटाडेटा" नामक कॉन्फ़िगरेशन के साथ अपडेट किया है जिसमें डेटासेट बनाने के लिए उपयोग किए गए कुछ अतिरिक्त कॉलम शामिल हैं:

संकट
ग्राउंड_ट्रुथ_सॉल्यूशन
test_cases (केवल कोड)
स्टार्टर_कोड (केवल कोड)
DeepSeek_तर्क
DeepSeek_समाधान
कार्यक्षेत्र
स्रोत

ये अतिरिक्त मेटाडेटा नए परिदृश्यों में इस डेटासेट का उपयोग करना आसान बना देंगे, जैसे डेटा फ़िल्टरिंग, डोमेन स्विचिंग, सत्यापन जांच और अनुमान प्रक्रिया टेम्पलेट को बदलना।

ये अतिरिक्त मेटाडेटा इस डेटासेट का उपयोग करना आसान बना देंगे, और यह कोड की सिर्फ एक पंक्ति के साथ किया जा सकता है, जैसे फ़िल्टरिंग, डोमेन बदलना, सत्यापन की जांच करना और अनुमान ट्रैकिंग टेम्पलेट को बदलना।

load_dataset("open-thoughts/OpenThoughts-114k", "मेटाडेटा", split="ट्रेन")

शोध दल का कहना है कि वे समुदाय द्वारा इन प्रश्नों और मानक उत्तरों का लाभ उठाकर ओपनथिंकर मॉडल पर सुदृढीकरण सीखने (आरएल) पर शोध करने के लिए उत्सुक हैं। डीपस्केलआर ने पहले ही प्रदर्शित कर दिया है कि यह दृष्टिकोण विशेष रूप से छोटे पैमाने पर अच्छी तरह से काम करता है।

सत्यापन

अंतिम ओपनथॉट्स-114k डेटासेट पर पहुंचने के लिए, अनुसंधान टीम ने उत्तरों को सत्यापित किया और गलत प्रतिक्रियाओं को हटा दिया।

जैसा कि नीचे दी गई तालिका में दिखाया गया है, सत्यापन में पास न होने वाले अनुमानों को बनाए रखने से प्रदर्शन पर असर पड़ सकता है, हालांकि असत्यापित मॉडल अभी भी अन्य 32B अनुमान मॉडलों की तुलना में अच्छा प्रदर्शन करता है।

सत्यापन की भूमिका प्रशिक्षण प्रॉम्प्ट सेट की विविधता और आकार का विस्तार करते हुए R1 एनोटेशन की गुणवत्ता को बनाए रखना है। दूसरी ओर, असत्यापित डेटा को अधिक आसानी से विस्तारित किया जा सकता है और इसलिए यह आगे की खोज के लायक भी है।

कोड समस्याओं के लिए, हम मौजूदा परीक्षण मामलों के विरुद्ध उत्तर प्रयासों का सत्यापन करके अनुमान प्रक्रिया का सत्यापन पूरा करते हैं।

कोड निष्पादन के दौरान आने वाली चुनौतियों से प्रेरित होकर, हमने क्यूरेटर में एक कोड निष्पादन ढांचा लागू किया है जो उपयोगकर्ताओं को बड़े पैमाने पर, सुरक्षित रूप से कोड निष्पादित करने और अपेक्षित आउटपुट के विरुद्ध इसे सत्यापित करने में सक्षम बनाता है।

गणितीय समस्याओं के लिए, अनुसंधान दल ने सत्यापन के लिए एलएलएम (लार्ज लैंग्वेज मॉडल) जज का उपयोग किया, जो मानक उत्तर और DeepSeek-R1 समाधान प्रयास दोनों को प्राप्त करता है।

यह पाया गया कि अधिक कठोर पार्सिंग इंजन (गणित-सत्यापन) के स्थान पर डेटा उत्पादन के लिए एलएलएम मूल्यांकनकर्ता का उपयोग करने से उच्च प्रभावी डेटा दर प्राप्त हुई और बेहतर प्रदर्शन के साथ डाउनस्ट्रीम मॉडलों के प्रशिक्षण की अनुमति मिली।

प्रशिक्षण

शोध दल ने 16k की संदर्भ लंबाई वाले OpenThoughts-114k डेटासेट पर Qwen2.5-32B-Instruct को तीन बार फाइन-ट्यून करने के लिए LLaMa-Factory का उपयोग किया। संपूर्ण प्रशिक्षण कॉन्फ़िगरेशन GitHub पर पाया जा सकता है।

ओपनथिंकर-32बी को AWS सेजमेकर क्लस्टर पर चार 8xH100 P5 नोड्स का उपयोग करके 90 घंटों तक प्रशिक्षित किया गया, जो कुल 2,880 H100 घंटों का था।

इस बीच, ओपनथिंकर-32बी-अनवेरिफाइड ने लियोनार्डो सुपरकंप्यूटर पर 96 4xA100 नोड्स (प्रति GPU 64GB) का उपयोग करते हुए 30 घंटे तक प्रशिक्षण लिया, जिससे 11,520 A100 घंटे का संचयन हुआ।

मूल्यांकन

अनुसंधान टीम ने सभी मॉडलों के मूल्यांकन के लिए ओपन सोर्स मूल्यांकन लाइब्रेरी इवलकेमी का उपयोग किया।

AIME24 और AIME25 के लिए, उन्होंने पाँच रन के परिणामों का औसत निकालकर सटीकता की गणना की। मूल्यांकन कॉन्फ़िगरेशन ने 0.7 के तापमान पैरामीटर का उपयोग किया, मॉडल प्रतिक्रिया को 32,768 टोकन तक सीमित किया, कोई अतिरिक्त सिस्टम या उपयोगकर्ता संकेत शब्द नहीं जोड़ा, और किसी विशेष डिकोडिंग रणनीति (जैसे बजट फोर्सिंग) का उपयोग नहीं किया।

जब ओपनथॉट्स परियोजना शुरू की गई थी, तो उन्होंने एक ऐसा ओपन डेटा मॉडल बनाने का लक्ष्य रखा था जिसका प्रदर्शन DeepSeek-R1-Distill-Qwen-32B से मेल खा सके।

अब यह अंतर लगभग समाप्त हो गया है।

अंत में, अनुसंधान दल पिछले कुछ सप्ताहों में समुदाय द्वारा ओपन डेटा अनुमान मॉडल के निर्माण में की गई तीव्र प्रगति से उत्साहित है, तथा एक-दूसरे की अंतर्दृष्टि के आधार पर आगे बढ़ने की आशा करता है।

ओपनथिंकर-32बी का ओपन सोर्स रिलीज यह दर्शाता है कि डेटा, सत्यापन और मॉडल आकार के बीच तालमेल अनुमान क्षमताओं को बेहतर बनाने के लिए महत्वपूर्ण हैं।

यह परिणाम न केवल ओपन सोर्स अनुमान मॉडल के विकास को बढ़ावा देता है, बल्कि संपूर्ण AI समुदाय के लिए मूल्यवान संसाधन और प्रेरणा भी प्रदान करता है।

अवर्गीकृत

गूगल ने एक साथ तीन नए मॉडल जारी किए हैं: जेमिनी-2.0-प्रो निःशुल्क है, इसका स्कोर उत्कृष्ट है और यह प्रथम स्थान पर है, तथा यह कोडिंग और जटिल प्रॉम्प्ट के प्रसंस्करण के लिए उपयुक्त है!

द्वाराzddeepseeker 8 फरवरी, 20258 फरवरी, 2025

जेमिनी 2.0 की कहानी तेज़ी से आगे बढ़ रही है। दिसंबर में फ्लैश थिंकिंग एक्सपेरीमेंटल संस्करण ने डेवलपर्स को कम विलंबता और उच्च प्रदर्शन वाला एक कार्यशील मॉडल दिया। इस साल की शुरुआत में, Google AI स्टूडियो में 2.0 फ्लैश थिंकिंग एक्सपेरीमेंटल को अपडेट किया गया था ताकि फ्लैश की गति को बेहतर अनुमान क्षमताओं के साथ जोड़कर प्रदर्शन को और बेहतर बनाया जा सके। पिछले हफ़्ते,…

अवर्गीकृत

DeepSeek ने अपना स्रोत कोड, FlashMLA का विस्तृत विवरण जारी किया है

द्वाराzddeepseeker 24 फरवरी, 202524 फरवरी, 2025

पिछले सप्ताह, DeepSeek ने घोषणा की कि वह अगले सप्ताह पांच परियोजनाओं को ओपन सोर्स करेगा: नेटिज़ेंस ने कहा, "इस बार, OpenAI वास्तव में यहाँ है।" अभी, पहला ओपन सोर्स प्रोजेक्ट आया, जो अनुमान त्वरण से संबंधित है, FlashMLA: ओपन सोर्स प्रोजेक्ट का पता: DeepSeek FlashMLA यह दो घंटे के लिए ओपन सोर्स रहा है, और Github पर पहले से ही 2.7k+ स्टार हैं:…

अवर्गीकृत

पेपर-DeepSeek-R1: सुदृढीकरण सीखने के माध्यम से एलएलएम में तर्क क्षमता को प्रोत्साहित करना

द्वारा1TP7टेर 29 जनवरी, 202529 जनवरी, 2025

सार यह पेपर DeepSeek के प्रथम पीढ़ी के तर्क मॉडल प्रस्तुत करता है: DeepSeek-R1-Zero और DeepSeek-R1। DeepSeek-R1-Zero, बिना पर्यवेक्षित फ़ाइन-ट्यूनिंग (SFT) के बड़े पैमाने पर सुदृढीकरण सीखने (RL) के माध्यम से प्रशिक्षित, उल्लेखनीय तर्क क्षमताओं को प्रदर्शित करता है। RL के माध्यम से, यह स्वाभाविक रूप से शक्तिशाली तर्क व्यवहार विकसित करता है। हालाँकि, यह खराब पठनीयता और भाषा मिश्रण जैसी चुनौतियों का सामना करता है। इन मुद्दों को संबोधित करने और तर्क प्रदर्शन को बढ़ाने के लिए, DeepSeek-R1 विकसित किया गया था,…

अवर्गीकृत

DeepSeek जैसे बड़े भाषा मॉडल प्रबंधन कलाकृतियाँ: चेरी स्टूडियो, चैटबॉक्स, एनीथिंगएलएलएम, आपका दक्षता त्वरक कौन है?

द्वाराzddeepseeker फ़रवरी 11, 2025फ़रवरी 11, 2025

बहुत से लोगों ने पहले ही डीपसीक लार्ज लैंग्वेज मॉडल को स्थानीय स्तर पर तैनात और उपयोग करना शुरू कर दिया है, चैटबॉक्स को विज़ुअलाइज़ेशन टूल के रूप में उपयोग कर रहे हैं। यह लेख दो अन्य AI लार्ज लैंग्वेज मॉडल प्रबंधन और विज़ुअलाइज़ेशन कलाकृतियों को पेश करना जारी रखेगा, और AI लार्ज लैंग्वेज मॉडल को अधिक कुशलता से उपयोग करने में आपकी मदद करने के लिए तीनों की विस्तार से तुलना करेगा। 2025 में,…

अवर्गीकृत

ओपनएआई के नए जारी किए गए o3-mini और DeepSeek R1 की व्यापक तुलना

द्वाराzddeepseeker 1 फरवरी, 20251 फरवरी, 2025

ओपनएआई ने अपना नवीनतम अनुमान मॉडल, o3-mini जारी किया है, जो विज्ञान, गणित और प्रोग्रामिंग जैसे क्षेत्रों के लिए अनुकूलित है, जो तेज़ प्रतिक्रिया, उच्च सटीकता और कम लागत प्रदान करता है। अपने पूर्ववर्ती o1-mini की तुलना में, o3-mini ने अपनी अनुमान क्षमताओं में काफी सुधार किया है, खासकर जटिल समस्याओं को हल करने में। परीक्षक 56% द्वारा o3-mini के उत्तरों को पसंद करते हैं, और त्रुटि दर…

अवर्गीकृत

DeepSeek 1 के पीछे का रहस्य | DeepSeekMath और GRPO विवरण

द्वाराzddeepseeker फरवरी 9, 2025फरवरी 9, 2025

आज मैं DeepSeek से एक लेख साझा करना चाहूँगा, जिसका शीर्षक है DeepSeekMath: ओपन लैंग्वेज मॉडल में गणितीय तर्क की सीमाओं को आगे बढ़ाना। यह लेख DeepSeekMath 7B का परिचय देता है, जो 120B गणित-संबंधित टोकन, प्राकृतिक भाषा और कोड डेटा के संग्रह के आधार पर DeepSeek-Coder-Base-v1.5 7B पर पूर्व-प्रशिक्षित है। मॉडल ने प्रतिस्पर्धी-स्तर में 51.7% का आश्चर्यजनक स्कोर हासिल किया…

डेटा क्यूरेशन

सत्यापन

प्रशिक्षण

मूल्यांकन

इसी तरह की पोस्ट

प्रातिक्रिया दे जवाब रद्द करें