32B अनुमान मॉडल केवल 1/8 डेटा का उपयोग करता है और समान आकार के DeepSeek-R1 के साथ जुड़ा हुआ है!
अभी हाल ही में, स्टैनफोर्ड, यूसी बर्कले और वाशिंगटन विश्वविद्यालय जैसे संस्थानों ने संयुक्त रूप से एक SOTA-स्तरीय अनुमान मॉडल जारी किया है, ओपनथिंकर-32बी, और 114k तक का प्रशिक्षण डेटा भी ओपन-सोर्स किया है।

ओपनथिंकर गले लगाने वाला चेहरा:
टीम डिस्कवरी: DeepSeek-R1 सत्यापित एनोटेशन (R1 आसवन पर आधारित) के साथ बड़े पैमाने पर उच्च गुणवत्ता वाले डेटासेट का उपयोग करके, एक SOTA अनुमान मॉडल को प्रशिक्षित किया जा सकता है।
विशिष्ट विधि डेटा को मापना, अनुमान प्रक्रिया को सत्यापित करना, और मॉडल को मापना है।
परिणामस्वरूप ओपनथिंकर-32बी ने गणित, कोडिंग और विज्ञान में कई बेंचमार्क परीक्षणों में ली फी-फी के एस1 और एस1.1 मॉडल से बेहतर प्रदर्शन किया, और आर1-डिस्टिल-32बी के करीब था।
यह उल्लेखनीय है कि R1-Distill-32B की तुलना में, जिसमें 800k डेटा (600k अनुमान नमूनों सहित) का उपयोग किया गया था, OpenThinker-32B ने लगभग समान उत्कृष्ट परिणाम प्राप्त करने के लिए केवल 114k डेटा का उपयोग किया।

इसके अलावा, ओपनथिंकर-32 ने सभी मॉडल वेट, डेटासेट, डेटा जनरेशन कोड और प्रशिक्षण कोड भी सार्वजनिक कर दिया!

डेटा क्यूरेशन
शोधकर्ताओं ने उसी OpenThoughts-114k डेटासेट का उपयोग करके OpenThinker-32B को प्रशिक्षित किया, जिस प्रकार उन्होंने पहले OpenThinker-7B को प्रशिक्षित किया था।
उन्होंने DeepSeek-R1 मॉडल का उपयोग करके 173,000 प्रश्नों के सावधानीपूर्वक चयनित सेट के लिए तर्क प्रक्रियाओं और उत्तर प्रयासों को एकत्र किया। इस कच्चे डेटा को फिर ओपनथॉट्स-अनवेरिफाइड-173k डेटासेट के रूप में प्रकाशित किया गया।
प्रक्रिया का अंतिम चरण, यदि तर्क प्रक्रिया सत्यापन में असफल हो जाती है तो संबंधित डेटा नमूनों को फ़िल्टर करना है।
निम्नलिखित चित्र संपूर्ण प्रक्रिया को दृश्यात्मक रूप से प्रदर्शित करता है।
शोध टीम सबसे पहले स्रोत डेटा या प्रश्न संकेत दर्ज करती है, जो विभिन्न क्षेत्रों और प्लेटफार्मों से आ सकते हैं, जैसे कि BAAI/TACO, डीपमाइंड, पायथन सबमिशन, आदि, जो कोड, पहेलियाँ, विज्ञान और गणित जैसे विभिन्न पहलुओं को कवर करते हैं।
इन विविध इनपुट को फिर कोर प्रोसेसिंग मॉड्यूल, DeepSeek-R1 में भेजा जाता है, जहाँ डेटा का विश्लेषण और प्रसंस्करण किया जाता है। प्रश्नों को तीन श्रेणियों में विभाजित किया गया है: विज्ञान प्रश्न, गणित और पहेलियाँ, और कोड।
कुछ परिणामों को सत्यापन की आवश्यकता नहीं होती है और वे सरल विश्लेषण या प्रत्यक्ष आउटपुट हो सकते हैं। कुछ सामग्री के लिए जिसे गहन सत्यापन की आवश्यकता होती है, उसे GT (ग्राउंड ट्रुथ) के बराबर आंकने के लिए एक बड़े भाषा मॉडल (LLM) का उपयोग किया जाता है। यदि यह कोड है, तो कोड निष्पादित किया जाता है और इसकी शुद्धता और प्रभावशीलता सुनिश्चित करने के लिए यूनिट परीक्षण किए जाते हैं।
अंततः, विभिन्न दिशाओं से प्राप्त परिणामों को मिलाकर खुले दिमाग वाली सोच और अधिक व्यापक समाधान उत्पन्न किया जा सकता है।

शोध दल ने अंतिम OpenThoughts-114k डेटासेट को "मेटाडेटा" नामक कॉन्फ़िगरेशन के साथ अपडेट किया है जिसमें डेटासेट बनाने के लिए उपयोग किए गए कुछ अतिरिक्त कॉलम शामिल हैं:
- संकट
- ग्राउंड_ट्रुथ_सॉल्यूशन
- test_cases (केवल कोड)
- स्टार्टर_कोड (केवल कोड)
- DeepSeek_तर्क
- DeepSeek_समाधान
- कार्यक्षेत्र
- स्रोत
ये अतिरिक्त मेटाडेटा नए परिदृश्यों में इस डेटासेट का उपयोग करना आसान बना देंगे, जैसे डेटा फ़िल्टरिंग, डोमेन स्विचिंग, सत्यापन जांच और अनुमान प्रक्रिया टेम्पलेट को बदलना।
ये अतिरिक्त मेटाडेटा इस डेटासेट का उपयोग करना आसान बना देंगे, और यह कोड की सिर्फ एक पंक्ति के साथ किया जा सकता है, जैसे फ़िल्टरिंग, डोमेन बदलना, सत्यापन की जांच करना और अनुमान ट्रैकिंग टेम्पलेट को बदलना।
load_dataset("open-thoughts/OpenThoughts-114k", "मेटाडेटा", split="ट्रेन")
शोध दल का कहना है कि वे समुदाय द्वारा इन प्रश्नों और मानक उत्तरों का लाभ उठाकर ओपनथिंकर मॉडल पर सुदृढीकरण सीखने (आरएल) पर शोध करने के लिए उत्सुक हैं। डीपस्केलआर ने पहले ही प्रदर्शित कर दिया है कि यह दृष्टिकोण विशेष रूप से छोटे पैमाने पर अच्छी तरह से काम करता है।
सत्यापन
अंतिम ओपनथॉट्स-114k डेटासेट पर पहुंचने के लिए, अनुसंधान टीम ने उत्तरों को सत्यापित किया और गलत प्रतिक्रियाओं को हटा दिया।
जैसा कि नीचे दी गई तालिका में दिखाया गया है, सत्यापन में पास न होने वाले अनुमानों को बनाए रखने से प्रदर्शन पर असर पड़ सकता है, हालांकि असत्यापित मॉडल अभी भी अन्य 32B अनुमान मॉडलों की तुलना में अच्छा प्रदर्शन करता है।
सत्यापन की भूमिका प्रशिक्षण प्रॉम्प्ट सेट की विविधता और आकार का विस्तार करते हुए R1 एनोटेशन की गुणवत्ता को बनाए रखना है। दूसरी ओर, असत्यापित डेटा को अधिक आसानी से विस्तारित किया जा सकता है और इसलिए यह आगे की खोज के लायक भी है।

कोड समस्याओं के लिए, हम मौजूदा परीक्षण मामलों के विरुद्ध उत्तर प्रयासों का सत्यापन करके अनुमान प्रक्रिया का सत्यापन पूरा करते हैं।
कोड निष्पादन के दौरान आने वाली चुनौतियों से प्रेरित होकर, हमने क्यूरेटर में एक कोड निष्पादन ढांचा लागू किया है जो उपयोगकर्ताओं को बड़े पैमाने पर, सुरक्षित रूप से कोड निष्पादित करने और अपेक्षित आउटपुट के विरुद्ध इसे सत्यापित करने में सक्षम बनाता है।
गणितीय समस्याओं के लिए, अनुसंधान दल ने सत्यापन के लिए एलएलएम (लार्ज लैंग्वेज मॉडल) जज का उपयोग किया, जो मानक उत्तर और DeepSeek-R1 समाधान प्रयास दोनों को प्राप्त करता है।
यह पाया गया कि अधिक कठोर पार्सिंग इंजन (गणित-सत्यापन) के स्थान पर डेटा उत्पादन के लिए एलएलएम मूल्यांकनकर्ता का उपयोग करने से उच्च प्रभावी डेटा दर प्राप्त हुई और बेहतर प्रदर्शन के साथ डाउनस्ट्रीम मॉडलों के प्रशिक्षण की अनुमति मिली।

प्रशिक्षण
शोध दल ने 16k की संदर्भ लंबाई वाले OpenThoughts-114k डेटासेट पर Qwen2.5-32B-Instruct को तीन बार फाइन-ट्यून करने के लिए LLaMa-Factory का उपयोग किया। संपूर्ण प्रशिक्षण कॉन्फ़िगरेशन GitHub पर पाया जा सकता है।
ओपनथिंकर-32बी को AWS सेजमेकर क्लस्टर पर चार 8xH100 P5 नोड्स का उपयोग करके 90 घंटों तक प्रशिक्षित किया गया, जो कुल 2,880 H100 घंटों का था।
इस बीच, ओपनथिंकर-32बी-अनवेरिफाइड ने लियोनार्डो सुपरकंप्यूटर पर 96 4xA100 नोड्स (प्रति GPU 64GB) का उपयोग करते हुए 30 घंटे तक प्रशिक्षण लिया, जिससे 11,520 A100 घंटे का संचयन हुआ।
मूल्यांकन
अनुसंधान टीम ने सभी मॉडलों के मूल्यांकन के लिए ओपन सोर्स मूल्यांकन लाइब्रेरी इवलकेमी का उपयोग किया।
AIME24 और AIME25 के लिए, उन्होंने पाँच रन के परिणामों का औसत निकालकर सटीकता की गणना की। मूल्यांकन कॉन्फ़िगरेशन ने 0.7 के तापमान पैरामीटर का उपयोग किया, मॉडल प्रतिक्रिया को 32,768 टोकन तक सीमित किया, कोई अतिरिक्त सिस्टम या उपयोगकर्ता संकेत शब्द नहीं जोड़ा, और किसी विशेष डिकोडिंग रणनीति (जैसे बजट फोर्सिंग) का उपयोग नहीं किया।
जब ओपनथॉट्स परियोजना शुरू की गई थी, तो उन्होंने एक ऐसा ओपन डेटा मॉडल बनाने का लक्ष्य रखा था जिसका प्रदर्शन DeepSeek-R1-Distill-Qwen-32B से मेल खा सके।
अब यह अंतर लगभग समाप्त हो गया है।
अंत में, अनुसंधान दल पिछले कुछ सप्ताहों में समुदाय द्वारा ओपन डेटा अनुमान मॉडल के निर्माण में की गई तीव्र प्रगति से उत्साहित है, तथा एक-दूसरे की अंतर्दृष्टि के आधार पर आगे बढ़ने की आशा करता है।
ओपनथिंकर-32बी का ओपन सोर्स रिलीज यह दर्शाता है कि डेटा, सत्यापन और मॉडल आकार के बीच तालमेल अनुमान क्षमताओं को बेहतर बनाने के लिए महत्वपूर्ण हैं।
यह परिणाम न केवल ओपन सोर्स अनुमान मॉडल के विकास को बढ़ावा देता है, बल्कि संपूर्ण AI समुदाय के लिए मूल्यवान संसाधन और प्रेरणा भी प्रदान करता है।