यो DeepSeek-R1-32B को नजिक छ र Fei-Fei Li को s1 लाई क्रस गर्छ! UC बर्कले र अन्य खुला स्रोत नयाँ SOTA अनुमान मोडेलहरू

३२B अनुमान मोडेलले डेटाको १/८ भाग मात्र प्रयोग गर्दछ र उही आकारको १TP8T-R1 सँग बाँधिएको छ!

भर्खरै, स्ट्यानफोर्ड, युसी बर्कले र वाशिंगटन विश्वविद्यालय जस्ता संस्थाहरूले संयुक्त रूपमा SOTA-स्तरको अनुमान मोडेल जारी गरेका छन्, ओपनथिंकर-३२बी, र ११४ हजार सम्मको तालिम डेटा पनि खुला स्रोतमा राखेको छ।

ओपनथिंकर परियोजनाको गृहपृष्ठ:

ओपनथिङ्कर अँगालो हाल्ने अनुहार:

खुला विचार डेटासेट:

टोली खोज: DeepSeek-R1 प्रमाणित एनोटेसनहरू (R1 आसवनमा आधारित) भएको ठूलो स्तरको उच्च-गुणस्तरको डेटासेट प्रयोग गरेर, SOTA अनुमान मोडेललाई प्रशिक्षित गर्न सकिन्छ।

विशिष्ट विधि भनेको डेटा मापन गर्नु, अनुमान प्रक्रिया प्रमाणित गर्नु र मोडेल मापन गर्नु हो।

परिणामस्वरूप ओपनथिंकर-३२बी ले गणित, कोडिङ र विज्ञानमा धेरै बेन्चमार्क परीक्षणहरूमा लि फेई-फेईको s1 र s1.1 मोडेलहरूलाई पछाडि पार्यो, र R1-डिस्टिल-32B को नजिक थियो।

यो उल्लेखनीय छ कि R1-Distill-32B को तुलनामा, जसले 800k डेटा (600k अनुमान नमूनाहरू सहित) प्रयोग गर्‍यो, OpenThinker-32B ले लगभग उस्तै उत्कृष्ट परिणामहरू प्राप्त गर्न केवल 114k डेटा प्रयोग गर्‍यो।

यसको अतिरिक्त, OpenThinker-32 ले सबै मोडेल तौल, डेटासेट, डेटा उत्पादन कोड, र प्रशिक्षण कोड पनि सार्वजनिक गर्‍यो!

सामग्रीको तालिका

डेटा क्युरेसन

अनुसन्धानकर्ताहरूले पहिले OpenThinker-7B लाई तालिम दिएका जस्तै OpenThoughts-114k डेटासेट प्रयोग गरेर OpenThinker-32B लाई तालिम दिए।

तिनीहरूले १TP8T-R1 मोडेल प्रयोग गरेर तर्क प्रक्रियाहरू सङ्कलन गरे र १७३,००० प्रश्नहरूको सावधानीपूर्वक चयन गरिएको सेटको लागि प्रयासहरूको जवाफ दिए। यो कच्चा डेटा त्यसपछि OpenThoughts-Unverifyed-173k डेटासेटको रूपमा प्रकाशित भयो।

प्रक्रियाको अन्तिम चरण भनेको तर्क प्रक्रिया प्रमाणीकरण पास गर्न असफल भएमा सम्बन्धित डेटा नमूनाहरूलाई फिल्टर गर्नु हो।

निम्न चित्रले सम्पूर्ण प्रक्रियालाई दृश्यात्मक रूपमा देखाउँछ।

अनुसन्धान टोलीले पहिले स्रोत डेटा वा प्रश्न प्रम्प्टहरू प्रविष्ट गर्दछ, जुन विभिन्न क्षेत्रहरू र प्लेटफर्महरू जस्तै BAAI/TACO, DeepMind, Python सबमिशनहरू, आदिबाट आउन सक्छ, जसले कोड, पजलहरू, विज्ञान र गणित जस्ता विभिन्न पक्षहरूलाई समेट्छ।

यी विविध इनपुटहरू त्यसपछि कोर प्रशोधन मोड्युल, DeepSeek-R1 मा पठाइन्छ, जहाँ डेटा विश्लेषण र प्रशोधन गरिन्छ। प्रश्नहरूलाई तीन वर्गमा विभाजन गरिएको छ: विज्ञान प्रश्नहरू, गणित र पजलहरू, र कोड।

केही नतिजाहरूलाई प्रमाणीकरण आवश्यक पर्दैन र यो साधारण विश्लेषण वा प्रत्यक्ष आउटपुट हुन सक्छ। गहन प्रमाणीकरण आवश्यक पर्ने केही सामग्रीको लागि, GT (ग्राउन्ड ट्रुथ) सँग तुलना गर्न मिल्ने तरिकाले यसको न्याय गर्न ठूलो भाषा मोडेल (LLM) प्रयोग गरिन्छ। यदि यो कोड हो भने, कोड कार्यान्वयन गरिन्छ र यसको शुद्धता र प्रभावकारिता सुनिश्चित गर्न एकाइ परीक्षणहरू गरिन्छ।

अन्तमा, विभिन्न दिशाहरूबाट प्राप्त नतिजाहरूलाई खुला विचारधारा र थप व्यापक समाधानहरू उत्पन्न गर्न संयोजन गर्न सकिन्छ।

अनुसन्धान टोलीले अन्तिम OpenThoughts-114k डेटासेटलाई "मेटाडेटा" भनिने कन्फिगरेसनको साथ अद्यावधिक गरेको छ जसमा डेटासेट निर्माण गर्न प्रयोग गरिने केही अतिरिक्त स्तम्भहरू छन्:

समस्या
जग्गा_सत्य_समाधान
test_cases (कोड मात्र)
स्टार्टर_कोड (कोड मात्र)
१TP8T_reasoning
१TP8T_समाधान
डोमेन
स्रोत

यी अतिरिक्त मेटाडेटाले डेटा फिल्टरिङ, डोमेन स्विचिङ, प्रमाणिकरण जाँच, र अनुमान प्रक्रिया टेम्प्लेट परिवर्तन गर्ने जस्ता नयाँ परिदृश्यहरूमा यो डेटासेट प्रयोग गर्न सजिलो बनाउनेछ।

यी अतिरिक्त मेटाडेटाले यो डेटासेट प्रयोग गर्न सजिलो बनाउनेछ, र यो केवल एक लाइन कोडको साथ गर्न सकिन्छ, जस्तै फिल्टर गर्ने, डोमेन परिवर्तन गर्ने, प्रमाणीकरण जाँच गर्ने, र अनुमान ट्र्याकिङ टेम्प्लेट परिवर्तन गर्ने।

लोड_डेटासेट("खुला-विचारहरू/ओपनथट्स-११४के", "मेटाडेटा", स्प्लिट="ट्रेन")

अनुसन्धान टोलीले समुदायले OpenThinker मोडेलमा सुदृढीकरण सिकाइ (RL) मा अनुसन्धानको लागि यी प्रश्नहरू र मानक उत्तरहरूको लाभ उठाएको हेर्न तत्पर रहेको बताएको छ। DeepScaleR ले पहिले नै यो दृष्टिकोण विशेष गरी साना स्केलहरूमा राम्रोसँग काम गर्छ भनेर प्रदर्शन गरिसकेको छ।

प्रमाणीकरण

अन्तिम OpenThoughts-114k डेटासेटमा पुग्न, अनुसन्धान टोलीले उत्तरहरू प्रमाणित गर्‍यो र गलत प्रतिक्रियाहरू हटायो।

तलको तालिकामा देखाइएझैं, प्रमाणीकरण पास नगर्ने अनुमानहरूलाई कायम राख्नाले कार्यसम्पादनमा हानि पुर्‍याउन सक्छ, यद्यपि प्रमाणित नगरिएको मोडेलले अझै पनि अन्य 32B अनुमान मोडेलहरूको तुलनामा राम्रो प्रदर्शन गर्छ।

प्रमाणीकरणको भूमिका भनेको तालिम प्रम्प्ट सेटको विविधता र आकार विस्तार गर्दै R1 एनोटेसनको गुणस्तर कायम राख्नु हो। अर्कोतर्फ, अप्रमाणित डेटालाई अझ सजिलै विस्तार गर्न सकिन्छ र त्यसैले थप अन्वेषण गर्न पनि लायक छ।

कोड समस्याहरूको लागि, हामी अवस्थित परीक्षण केसहरू विरुद्ध उत्तर प्रयासहरू प्रमाणित गरेर अनुमान प्रक्रियाको प्रमाणीकरण पूरा गर्छौं।

कोड कार्यान्वयनको क्रममा सामना गर्ने चुनौतीहरूबाट प्रेरित भएर, हामीले क्युरेटरमा कोड कार्यान्वयन ढाँचा लागू गर्यौं जसले प्रयोगकर्ताहरूलाई स्केलमा, सुरक्षित रूपमा कोड कार्यान्वयन गर्न र अपेक्षित आउटपुट विरुद्ध प्रमाणित गर्न सक्षम बनाउँछ।

गणितीय समस्याहरूको लागि, अनुसन्धान टोलीले प्रमाणीकरणको लागि LLM (ठूलो भाषा मोडेल) न्यायाधीश प्रयोग गर्‍यो, जसले मानक उत्तर र DeepSeek-R1 समाधान प्रयास दुवै प्राप्त गर्दछ।

थप कडा पार्सिङ इन्जिन (गणित-भेरिफाइ) को सट्टा डेटा उत्पादनको लागि LLM मूल्याङ्कनकर्ता प्रयोग गर्नाले उच्च प्रभावकारी डेटा दर प्राप्त भएको र राम्रो प्रदर्शनका साथ डाउनस्ट्रीम मोडेलहरूको प्रशिक्षणको लागि अनुमति दिइएको पाइयो।

तालिम

अनुसन्धान टोलीले १६k को सन्दर्भ लम्बाइ भएको OpenThoughts-११४k डेटासेटमा Qwen2.5-32B-Instruct लाई तीन पटक फाइन-ट्यून गर्न LLaMa-Factory प्रयोग गर्‍यो। पूर्ण प्रशिक्षण कन्फिगरेसन GitHub मा पाउन सकिन्छ।

OpenThinker-32B लाई AWS SageMaker क्लस्टरमा चार 8xH100 P5 नोडहरू प्रयोग गरेर 90 घण्टा तालिम दिइएको थियो, कुल 2,880 H100-घण्टाको लागि।

यसैबीच, OpenThinker-32B-Unverify ले लियोनार्डो सुपर कम्प्युटरमा ९६ ४xA१०० नोडहरू (प्रति GPU ६४GB) प्रयोग गरेर ३० घण्टा तालिम दियो, जसमा ११,५२० A१०० घण्टा जम्मा भयो।

मूल्याङ्कन

अनुसन्धान टोलीले सबै मोडेलहरूको मूल्याङ्कन गर्न खुला स्रोत मूल्याङ्कन पुस्तकालय इभल्केमी प्रयोग गर्‍यो।

AIME24 र AIME25 को लागि, तिनीहरूले पाँच रनको नतिजाको औसत निकालेर शुद्धता गणना गरे। मूल्याङ्कन कन्फिगरेसनले ०.७ को तापक्रम प्यारामिटर प्रयोग गर्‍यो, मोडेल प्रतिक्रियालाई ३२,७६८ टोकनहरूमा सीमित गर्‍यो, कुनै अतिरिक्त प्रणाली वा प्रयोगकर्ता प्रम्प्ट शब्दहरू थपेन, र कुनै विशेष डिकोडिङ रणनीतिहरू (जस्तै बजेट फोर्सिङ) प्रयोग गरेन।

जब ओपनथट्स परियोजना सुरु भयो, तिनीहरूले DeepSeek-R1-Distill-Qwen-32B सँग मेल खाने प्रदर्शन भएको खुला डेटा मोडेल सिर्जना गर्ने लक्ष्य राखे।

अब त्यो खाडल लगभग मेटिएको छ।

अन्तमा, अनुसन्धान टोली विगत केही हप्ताहरूमा खुला डेटा अनुमान मोडेलहरू निर्माणमा समुदायले गरेको द्रुत प्रगतिबाट उत्साहित छ, र एकअर्काको अन्तर्दृष्टिको आधारमा अगाडि बढ्न तत्पर छ।

OpenThinker-32B को खुला स्रोत रिलीजले डेटा, प्रमाणीकरण, र मोडेल आकार बीचको तालमेल अनुमान क्षमताहरू सुधार गर्न महत्वपूर्ण रहेको देखाउँछ।

यो नतिजाले खुला स्रोत अनुमान मोडेलहरूको विकासलाई मात्र बढावा दिँदैन, तर सम्पूर्ण एआई समुदायको लागि बहुमूल्य स्रोतहरू र प्रेरणा पनि प्रदान गर्दछ।

अवर्गीकृत

२७ वर्षीय सीईओसँग a16z संवाद: एआई एजेन्टको ठूलो लाभ प्रभाव छ, र दीर्घकालीन मूल्य निर्धारण श्रम लागतसँग जोडिएको हुनेछ।

द्वाराzddeepseeker फेब्रुअरी ८, २०२५फेब्रुअरी ८, २०२५

हाइलाइटहरू एआई एजेन्टले ग्राहकको अनुभवलाई पुन: आकार दिन्छ जेसी झाङ: एजेन्ट वास्तवमा कसरी निर्माण गरिन्छ? हाम्रो विचार यो छ कि समयसँगै, यो प्राकृतिक भाषा-आधारित एजेन्ट जस्तै हुँदै जानेछ किनभने ठूला भाषा मोडेलहरू (LLMs) लाई यसरी नै तालिम दिइन्छ। लामो अवधिमा, यदि तपाईंसँग एक सुपर बुद्धिमान एजेन्ट छ भने ...

अवर्गीकृत

गुगलको कम लागतको मोडेल, जेमिनी २.० शृङ्खला, आक्रमण गर्दैछ: ठूला मोडेलहरूमा लागत-प्रभावकारिताको लागि लडाईं तीव्र हुँदैछ।

द्वाराzddeepseeker फेब्रुअरी ८, २०२५फेब्रुअरी ८, २०२५

ठूला एआई मोडेलहरू प्रयोग गर्ने उच्च लागत धेरै एआई अनुप्रयोगहरू अझै कार्यान्वयन र प्रवर्द्धन नगर्नुको प्रमुख कारण हो। चरम प्रदर्शन छनौट गर्नु भनेको ठूलो कम्प्युटिङ पावर लागत हो, जसले गर्दा उच्च उपयोग लागतहरू हुन्छन् जुन सामान्य प्रयोगकर्ताहरूले स्वीकार गर्न सक्दैनन्। ठूला एआई मोडेलहरूको लागि प्रतिस्पर्धा धुवाँ बिनाको युद्ध जस्तै हो। पछि…

अवर्गीकृत

पेपर-DeepSeek-R1: सुदृढीकरण शिक्षा मार्फत LLM मा तर्क क्षमतालाई प्रोत्साहन गर्दै

द्वारा1TP7 टेर जनवरी २९, २०२५जनवरी २९, २०२५

सार यो पेपरले DeepSeek को पहिलो पुस्ताको तर्क मोडेलहरू प्रस्तुत गर्दछ: DeepSeek-R1-Zero र DeepSeek-R1। DeepSeek-R1-Zero, सुपरिवेक्षण गरिएको फाइन-ट्युनिङ (SFT) बिना ठूलो-स्तरीय सुदृढीकरण शिक्षा (RL) मार्फत प्रशिक्षित, उल्लेखनीय तर्क क्षमताहरू प्रदर्शन गर्दछ। RL मार्फत, यसले स्वाभाविक रूपमा शक्तिशाली तर्क व्यवहार विकास गर्दछ। यद्यपि, यसले कमजोर पठनीयता र भाषा मिश्रण जस्ता चुनौतीहरूको सामना गर्दछ। यी मुद्दाहरूलाई सम्बोधन गर्न र तर्क प्रदर्शन बढाउन, DeepSeek-R1 विकसित गरिएको थियो,…

अवर्गीकृत

सय अर्ब डलर लगानीसहित ले च्याट शीर्ष स्थानमा छ। अमेरिका र चीन पछि, के यो तेस्रो एआई पावर हो?

द्वाराzddeepseeker फेब्रुअरी ११, २०२५फेब्रुअरी ११, २०२५

फेब्रुअरी ९ मा, फ्रान्सेली राष्ट्रपति इमानुएल म्याक्रोनले घोषणा गरे कि फ्रान्सले आगामी केही वर्षहरूमा एआईको क्षेत्रमा १०९ अर्ब युरो (११३ अर्ब अमेरिकी डलर) लगानी गर्नेछ। यो लगानी फ्रान्समा एआई पार्क निर्माण गर्न, पूर्वाधार सुधार गर्न र स्थानीय एआई स्टार्ट-अपहरूमा लगानी गर्न प्रयोग गरिनेछ। यसैबीच, मिस्ट्रल, एक फ्रान्सेली स्टार्टअप,…

अवर्गीकृत

DeepSeek-R1 प्रविधिको खुलासा: पेपरका मुख्य सिद्धान्तहरू तोडिएका छन् र सफलतापूर्वक मोडेल प्रदर्शनको कुञ्जी प्रकट गरिएको छ।

द्वाराzddeepseeker फेब्रुअरी ९, २०२५फेब्रुअरी ९, २०२५

आज हामी DeepSeek R1 साझा गर्नेछौं, शीर्षक: DeepSeek-R1: सुदृढीकरण सिकाइ मार्फत LLM मा तर्क क्षमतालाई प्रोत्साहन: सुदृढीकरण सिकाइ मार्फत LLM को तर्क क्षमतालाई प्रोत्साहन। यो पेपरले DeepSeek को पहिलो पुस्ताको तर्क मोडेलहरू, DeepSeek-R1-शून्य र DeepSeek-R1 लाई परिचय गराउँछ। DeepSeek-R1-शून्य मोडेललाई प्रारम्भिक चरणको रूपमा पर्यवेक्षित फाइन-ट्युनिङ (SFT) बिना ठूलो मात्रामा सुदृढीकरण सिकाइ (RL) मार्फत प्रशिक्षित गरिएको थियो,…

अवर्गीकृत

Qwen2.5-max vs DeepSeek R1: मोडेलहरूको गहिरो तुलना: अनुप्रयोग परिदृश्यहरूको पूर्ण विश्लेषण

द्वाराzddeepseeker फेब्रुअरी १४, २०२५फेब्रुअरी १४, २०२५

परिचय आज, ठूला भाषा मोडेलहरू (LLMs) ले महत्त्वपूर्ण भूमिका खेल्छन्। २०२५ को सुरुमा, AI को लागि प्रतिस्पर्धा तीव्र हुँदै जाँदा, Alibaba ले नयाँ Qwen2.5-max AI मोडेल लन्च गर्‍यो, र चीनको हांग्जोको कम्पनी DeepSeek ले R1 मोडेल लन्च गर्‍यो, जसले LLM प्रविधिको शिखर प्रतिनिधित्व गर्दछ। Deepseek R1 एक खुला स्रोत AI मोडेल हो जसले आकर्षित गरेको छ...

डेटा क्युरेसन

प्रमाणीकरण

तालिम

मूल्याङ्कन

समान पोस्टहरू

जवाफ लेख्नुहोस् जवाफ रद्द गर्नुहोस्

जवाफ लेख्नुहोस्