३२B अनुमान मोडेलले डेटाको १/८ भाग मात्र प्रयोग गर्दछ र उही आकारको १TP8T-R1 सँग बाँधिएको छ!
भर्खरै, स्ट्यानफोर्ड, युसी बर्कले र वाशिंगटन विश्वविद्यालय जस्ता संस्थाहरूले संयुक्त रूपमा SOTA-स्तरको अनुमान मोडेल जारी गरेका छन्, ओपनथिंकर-३२बी, र ११४ हजार सम्मको तालिम डेटा पनि खुला स्रोतमा राखेको छ।

ओपनथिङ्कर अँगालो हाल्ने अनुहार:
टोली खोज: DeepSeek-R1 प्रमाणित एनोटेसनहरू (R1 आसवनमा आधारित) भएको ठूलो स्तरको उच्च-गुणस्तरको डेटासेट प्रयोग गरेर, SOTA अनुमान मोडेललाई प्रशिक्षित गर्न सकिन्छ।
विशिष्ट विधि भनेको डेटा मापन गर्नु, अनुमान प्रक्रिया प्रमाणित गर्नु र मोडेल मापन गर्नु हो।
परिणामस्वरूप ओपनथिंकर-३२बी ले गणित, कोडिङ र विज्ञानमा धेरै बेन्चमार्क परीक्षणहरूमा लि फेई-फेईको s1 र s1.1 मोडेलहरूलाई पछाडि पार्यो, र R1-डिस्टिल-32B को नजिक थियो।
यो उल्लेखनीय छ कि R1-Distill-32B को तुलनामा, जसले 800k डेटा (600k अनुमान नमूनाहरू सहित) प्रयोग गर्यो, OpenThinker-32B ले लगभग उस्तै उत्कृष्ट परिणामहरू प्राप्त गर्न केवल 114k डेटा प्रयोग गर्यो।

यसको अतिरिक्त, OpenThinker-32 ले सबै मोडेल तौल, डेटासेट, डेटा उत्पादन कोड, र प्रशिक्षण कोड पनि सार्वजनिक गर्यो!

डेटा क्युरेसन
अनुसन्धानकर्ताहरूले पहिले OpenThinker-7B लाई तालिम दिएका जस्तै OpenThoughts-114k डेटासेट प्रयोग गरेर OpenThinker-32B लाई तालिम दिए।
तिनीहरूले १TP8T-R1 मोडेल प्रयोग गरेर तर्क प्रक्रियाहरू सङ्कलन गरे र १७३,००० प्रश्नहरूको सावधानीपूर्वक चयन गरिएको सेटको लागि प्रयासहरूको जवाफ दिए। यो कच्चा डेटा त्यसपछि OpenThoughts-Unverifyed-173k डेटासेटको रूपमा प्रकाशित भयो।
प्रक्रियाको अन्तिम चरण भनेको तर्क प्रक्रिया प्रमाणीकरण पास गर्न असफल भएमा सम्बन्धित डेटा नमूनाहरूलाई फिल्टर गर्नु हो।
निम्न चित्रले सम्पूर्ण प्रक्रियालाई दृश्यात्मक रूपमा देखाउँछ।
अनुसन्धान टोलीले पहिले स्रोत डेटा वा प्रश्न प्रम्प्टहरू प्रविष्ट गर्दछ, जुन विभिन्न क्षेत्रहरू र प्लेटफर्महरू जस्तै BAAI/TACO, DeepMind, Python सबमिशनहरू, आदिबाट आउन सक्छ, जसले कोड, पजलहरू, विज्ञान र गणित जस्ता विभिन्न पक्षहरूलाई समेट्छ।
यी विविध इनपुटहरू त्यसपछि कोर प्रशोधन मोड्युल, DeepSeek-R1 मा पठाइन्छ, जहाँ डेटा विश्लेषण र प्रशोधन गरिन्छ। प्रश्नहरूलाई तीन वर्गमा विभाजन गरिएको छ: विज्ञान प्रश्नहरू, गणित र पजलहरू, र कोड।
केही नतिजाहरूलाई प्रमाणीकरण आवश्यक पर्दैन र यो साधारण विश्लेषण वा प्रत्यक्ष आउटपुट हुन सक्छ। गहन प्रमाणीकरण आवश्यक पर्ने केही सामग्रीको लागि, GT (ग्राउन्ड ट्रुथ) सँग तुलना गर्न मिल्ने तरिकाले यसको न्याय गर्न ठूलो भाषा मोडेल (LLM) प्रयोग गरिन्छ। यदि यो कोड हो भने, कोड कार्यान्वयन गरिन्छ र यसको शुद्धता र प्रभावकारिता सुनिश्चित गर्न एकाइ परीक्षणहरू गरिन्छ।
अन्तमा, विभिन्न दिशाहरूबाट प्राप्त नतिजाहरूलाई खुला विचारधारा र थप व्यापक समाधानहरू उत्पन्न गर्न संयोजन गर्न सकिन्छ।

अनुसन्धान टोलीले अन्तिम OpenThoughts-114k डेटासेटलाई "मेटाडेटा" भनिने कन्फिगरेसनको साथ अद्यावधिक गरेको छ जसमा डेटासेट निर्माण गर्न प्रयोग गरिने केही अतिरिक्त स्तम्भहरू छन्:
- समस्या
- जग्गा_सत्य_समाधान
- test_cases (कोड मात्र)
- स्टार्टर_कोड (कोड मात्र)
- १TP8T_reasoning
- १TP8T_समाधान
- डोमेन
- स्रोत
यी अतिरिक्त मेटाडेटाले डेटा फिल्टरिङ, डोमेन स्विचिङ, प्रमाणिकरण जाँच, र अनुमान प्रक्रिया टेम्प्लेट परिवर्तन गर्ने जस्ता नयाँ परिदृश्यहरूमा यो डेटासेट प्रयोग गर्न सजिलो बनाउनेछ।
यी अतिरिक्त मेटाडेटाले यो डेटासेट प्रयोग गर्न सजिलो बनाउनेछ, र यो केवल एक लाइन कोडको साथ गर्न सकिन्छ, जस्तै फिल्टर गर्ने, डोमेन परिवर्तन गर्ने, प्रमाणीकरण जाँच गर्ने, र अनुमान ट्र्याकिङ टेम्प्लेट परिवर्तन गर्ने।
लोड_डेटासेट("खुला-विचारहरू/ओपनथट्स-११४के", "मेटाडेटा", स्प्लिट="ट्रेन")
अनुसन्धान टोलीले समुदायले OpenThinker मोडेलमा सुदृढीकरण सिकाइ (RL) मा अनुसन्धानको लागि यी प्रश्नहरू र मानक उत्तरहरूको लाभ उठाएको हेर्न तत्पर रहेको बताएको छ। DeepScaleR ले पहिले नै यो दृष्टिकोण विशेष गरी साना स्केलहरूमा राम्रोसँग काम गर्छ भनेर प्रदर्शन गरिसकेको छ।
प्रमाणीकरण
अन्तिम OpenThoughts-114k डेटासेटमा पुग्न, अनुसन्धान टोलीले उत्तरहरू प्रमाणित गर्यो र गलत प्रतिक्रियाहरू हटायो।
तलको तालिकामा देखाइएझैं, प्रमाणीकरण पास नगर्ने अनुमानहरूलाई कायम राख्नाले कार्यसम्पादनमा हानि पुर्याउन सक्छ, यद्यपि प्रमाणित नगरिएको मोडेलले अझै पनि अन्य 32B अनुमान मोडेलहरूको तुलनामा राम्रो प्रदर्शन गर्छ।
प्रमाणीकरणको भूमिका भनेको तालिम प्रम्प्ट सेटको विविधता र आकार विस्तार गर्दै R1 एनोटेसनको गुणस्तर कायम राख्नु हो। अर्कोतर्फ, अप्रमाणित डेटालाई अझ सजिलै विस्तार गर्न सकिन्छ र त्यसैले थप अन्वेषण गर्न पनि लायक छ।

कोड समस्याहरूको लागि, हामी अवस्थित परीक्षण केसहरू विरुद्ध उत्तर प्रयासहरू प्रमाणित गरेर अनुमान प्रक्रियाको प्रमाणीकरण पूरा गर्छौं।
कोड कार्यान्वयनको क्रममा सामना गर्ने चुनौतीहरूबाट प्रेरित भएर, हामीले क्युरेटरमा कोड कार्यान्वयन ढाँचा लागू गर्यौं जसले प्रयोगकर्ताहरूलाई स्केलमा, सुरक्षित रूपमा कोड कार्यान्वयन गर्न र अपेक्षित आउटपुट विरुद्ध प्रमाणित गर्न सक्षम बनाउँछ।
गणितीय समस्याहरूको लागि, अनुसन्धान टोलीले प्रमाणीकरणको लागि LLM (ठूलो भाषा मोडेल) न्यायाधीश प्रयोग गर्यो, जसले मानक उत्तर र DeepSeek-R1 समाधान प्रयास दुवै प्राप्त गर्दछ।
थप कडा पार्सिङ इन्जिन (गणित-भेरिफाइ) को सट्टा डेटा उत्पादनको लागि LLM मूल्याङ्कनकर्ता प्रयोग गर्नाले उच्च प्रभावकारी डेटा दर प्राप्त भएको र राम्रो प्रदर्शनका साथ डाउनस्ट्रीम मोडेलहरूको प्रशिक्षणको लागि अनुमति दिइएको पाइयो।

तालिम
अनुसन्धान टोलीले १६k को सन्दर्भ लम्बाइ भएको OpenThoughts-११४k डेटासेटमा Qwen2.5-32B-Instruct लाई तीन पटक फाइन-ट्यून गर्न LLaMa-Factory प्रयोग गर्यो। पूर्ण प्रशिक्षण कन्फिगरेसन GitHub मा पाउन सकिन्छ।
OpenThinker-32B लाई AWS SageMaker क्लस्टरमा चार 8xH100 P5 नोडहरू प्रयोग गरेर 90 घण्टा तालिम दिइएको थियो, कुल 2,880 H100-घण्टाको लागि।
यसैबीच, OpenThinker-32B-Unverify ले लियोनार्डो सुपर कम्प्युटरमा ९६ ४xA१०० नोडहरू (प्रति GPU ६४GB) प्रयोग गरेर ३० घण्टा तालिम दियो, जसमा ११,५२० A१०० घण्टा जम्मा भयो।
मूल्याङ्कन
अनुसन्धान टोलीले सबै मोडेलहरूको मूल्याङ्कन गर्न खुला स्रोत मूल्याङ्कन पुस्तकालय इभल्केमी प्रयोग गर्यो।
AIME24 र AIME25 को लागि, तिनीहरूले पाँच रनको नतिजाको औसत निकालेर शुद्धता गणना गरे। मूल्याङ्कन कन्फिगरेसनले ०.७ को तापक्रम प्यारामिटर प्रयोग गर्यो, मोडेल प्रतिक्रियालाई ३२,७६८ टोकनहरूमा सीमित गर्यो, कुनै अतिरिक्त प्रणाली वा प्रयोगकर्ता प्रम्प्ट शब्दहरू थपेन, र कुनै विशेष डिकोडिङ रणनीतिहरू (जस्तै बजेट फोर्सिङ) प्रयोग गरेन।
जब ओपनथट्स परियोजना सुरु भयो, तिनीहरूले DeepSeek-R1-Distill-Qwen-32B सँग मेल खाने प्रदर्शन भएको खुला डेटा मोडेल सिर्जना गर्ने लक्ष्य राखे।
अब त्यो खाडल लगभग मेटिएको छ।
अन्तमा, अनुसन्धान टोली विगत केही हप्ताहरूमा खुला डेटा अनुमान मोडेलहरू निर्माणमा समुदायले गरेको द्रुत प्रगतिबाट उत्साहित छ, र एकअर्काको अन्तर्दृष्टिको आधारमा अगाडि बढ्न तत्पर छ।
OpenThinker-32B को खुला स्रोत रिलीजले डेटा, प्रमाणीकरण, र मोडेल आकार बीचको तालमेल अनुमान क्षमताहरू सुधार गर्न महत्वपूर्ण रहेको देखाउँछ।
यो नतिजाले खुला स्रोत अनुमान मोडेलहरूको विकासलाई मात्र बढावा दिँदैन, तर सम्पूर्ण एआई समुदायको लागि बहुमूल्य स्रोतहरू र प्रेरणा पनि प्रदान गर्दछ।