पेपर-१TP8T-R1: सुदृढीकरण सिकाइ मार्फत LLM मा तर्क क्षमतालाई प्रोत्साहन

सामग्रीको तालिका

सार

यस पेपरले DeepSeek को पहिलो पुस्ताको तर्क मोडेलहरू प्रस्तुत गर्दछ: DeepSeek-R1-शून्य र DeepSeek-R1। DeepSeek-R1-शून्य, सुपरिवेक्षित फाइन-ट्युनिङ (SFT) बिना ठूलो-स्तरीय सुदृढीकरण सिकाइ (RL) मार्फत प्रशिक्षित, उल्लेखनीय तर्क क्षमताहरू प्रदर्शन गर्दछ। RL मार्फत, यसले स्वाभाविक रूपमा शक्तिशाली तर्क व्यवहारहरू विकास गर्दछ। यद्यपि, यसले कमजोर पठनीयता र भाषा मिश्रण जस्ता चुनौतीहरूको सामना गर्दछ। यी समस्याहरूलाई सम्बोधन गर्न र तर्क प्रदर्शन बढाउन, DeepSeek-R1 विकसित गरिएको थियो, RL भन्दा पहिले बहु-चरण प्रशिक्षण र कोल्ड-स्टार्ट डेटा समावेश गर्दै। DeepSeek-R1 ले तर्क कार्यहरूमा OpenAI-o1-1217 सँग तुलना गर्न सकिने प्रदर्शन प्राप्त गर्दछ। अनुसन्धानलाई समर्थन गर्न, DeepSeek ले Qwen र Llama मा आधारित DeepSeek-R1 बाट डिस्टिल्ड गरिएका मोडेलहरू र छवटा घन मोडेलहरू (1.5B, 7B, 8B, 14B, 32B, 70B) दुवैलाई खुला स्रोतहरू प्रदान गर्दछ।

प्रमुख योगदानहरू

पोस्ट-ट्रेनिंग: ठूलो-स्तरीय सुदृढीकरण शिक्षा

SFT बिना आधार मोडेलमा RL लाई सफलतापूर्वक लागू गरियो
विकसित DeepSeek-R1-Zero, आत्म-प्रमाणीकरण र प्रतिबिम्ब जस्ता क्षमताहरू प्रदर्शन गर्दै
तर्क क्षमताहरू RL मार्फत विशुद्ध रूपमा प्रोत्साहन गर्न सकिन्छ भनेर प्रमाणित गर्ने पहिलो खुला अनुसन्धान
दुई RL चरण र दुई SFT चरणहरू सहित DeepSeek-R1 को लागि पाइपलाइन प्रस्तुत गरियो

आसवन: साना मोडेलहरूलाई सशक्तिकरण गर्दै

ठूला मोडेलहरूबाट तर्क ढाँचाहरूलाई प्रभावकारी रूपमा सानाहरूमा डिस्टिल गर्न सकिन्छ भनेर प्रदर्शन गरियो
खुला स्रोत DeepSeek-R1 र यसको API अनुसन्धान समुदायलाई फाइदा पुर्‍याउन
असाधारण बेन्चमार्क प्रदर्शन देखाउँदै धेरै घना मोडेलहरू राम्रो-ट्यून गरियो
डिस्टिल्ड मोडेलहरूले अघिल्लो ओपन-सोर्स मोडेलहरूलाई उल्लेखनीय रूपमा उत्कृष्ट प्रदर्शन गर्दछ

मूल्याङ्कन परिणामहरू

तर्क कार्यहरू

DeepSeek-R1 ले AIME 2024 मा 79.8% Pass@1 हासिल गर्छ, OpenAI-o1-1217 लाई उछिनेर
MATH-500 मा 97.3% स्कोर, OpenAI-o1-1217 सँग बराबरी प्रदर्शन गर्दै
Codeforces मा 2,029 Elo रेटिंगको साथ कोड प्रतिस्पर्धा कार्यहरूमा विशेषज्ञ-स्तर प्रदर्शन

ज्ञान कार्यहरू

MMLU (90.8%), MMLU-Pro (84.0%), र GPQA डायमन्ड (71.5%) मा उत्कृष्ट परिणामहरू
शैक्षिक कार्यहरूमा अन्य बन्द-स्रोत मोडेलहरू पार गर्दछ
SimpleQA जस्ता तथ्यात्मक बेन्चमार्कहरूमा बलियो प्रदर्शन

सामान्य क्षमताहरू

रचनात्मक लेखन, प्रश्न उत्तर, सम्पादन, र सारांशमा उत्कृष्टता
AlpacaEval 2.0 मा 87.6% र ArenaHard मा 92.3% जीत-दर
लामो-सन्दर्भ बुझ्ने कार्यहरूमा बलियो प्रदर्शन।

भविष्यको काम

टोलीले ध्यान केन्द्रित गर्ने योजना बनाएको छ:

प्रकार्य कल र जटिल भूमिका खेल्ने क्षेत्रहरूमा सामान्य क्षमताहरू बढाउँदै
भाषा मिश्रण समस्याहरू सम्बोधन गर्दै
प्रम्प्टिङ इन्जिनियरिङ सुधार
सफ्टवेयर ईन्जिनियरिङ् कार्यहरूमा प्रदर्शन बढाउँदै

निष्कर्ष

DeepSeek-R1 ले सुदृढीकरण सिकाइ मार्फत AI तर्क क्षमताहरूमा महत्त्वपूर्ण प्रगति प्रतिनिधित्व गर्दछ। दुबै मुख्य मोडेल र यसको डिस्टिल्ड संस्करणहरूको सफलताले थप सक्षम एआई प्रणालीहरू विकास गर्नको लागि यस दृष्टिकोणको सम्भावना देखाउँदछ। यी मोडेलहरूको खुला स्रोत रिलीजले क्षेत्रमा थप अनुसन्धान र विकासमा योगदान पुर्‍याउनेछ।

DeepSeek_R1 डाउनलोड गर्नुहोस्

अवर्गीकृत

ब्रेकिङ न्यूज! DeepSeek अनुसन्धानकर्ताले अनलाइन खुलासा गरे: R1 तालिममा दुई देखि तीन हप्ता मात्र लाग्यो, र चिनियाँ नयाँ वर्षको बिदामा R1 शून्यको शक्तिशाली विकास अवलोकन गरिएको थियो।

द्वाराzddeepseeker फेब्रुअरी ४, २०२५फेब्रुअरी ४, २०२५

ब्रेकिङ न्युज! DeepSeek अनुसन्धानकर्ताले अनलाइन खुलासा गरे: R1 तालिममा दुई देखि तीन हप्ता मात्र लाग्यो, र चिनियाँ नयाँ वर्षको बिदामा R1 शून्यको शक्तिशाली विकास अवलोकन गरिएको थियो। भर्खरै, हामीले याद गर्यौं कि DeepSeek अनुसन्धानकर्ता दया गुओले DeepSeek R1 र कम्पनीको भविष्यको योजनाहरूको बारेमा नेटिजनहरूको प्रश्नहरूको जवाफ दिए। हामी केवल भन्न सक्छौं ...

अवर्गीकृत

जेमिनी २.० ले चार्टमा प्रभुत्व जमाउँछ, जबकि १TP८T V३ ले यसको मूल्यमा रोमाञ्चकता ल्याउँछ, र एक नयाँ लागत-प्रभावी च्याम्पियनको जन्म हुन्छ!

द्वाराzddeepseeker फेब्रुअरी ८, २०२५फेब्रुअरी ८, २०२५

गुगल जेमिनी २.० परिवार अन्ततः पूरा भयो! यो रिलिज हुने बित्तिकै चार्टमा प्रभुत्व जमाउँछ। डिपसिक, क्वेन र ओ३ को खोजी र नाकाबन्दीका बीचमा, गुगलले आज बिहान एकै पटक तीन मोडेलहरू रिलिज गर्‍यो: जेमिनी २.० प्रो, जेमिनी २.० फ्ल्यास र जेमिनी २.० फ्ल्यास-लाइट। ठूलो मोडेल LMSYS रैंकिंगमा, जेमिनी…

अवर्गीकृत

क्याथी वुड: DeepSeek ले लागत घटाउने प्रक्रियालाई तीव्र बनाइरहेको छ; महामन्दीसँग तुलना गर्न सकिने चरम केन्द्रित बजार संरचना परिवर्तन हुनेछ।

द्वाराzddeepseeker फेब्रुअरी ८, २०२५फेब्रुअरी ८, २०२५

हाइलाइटहरू DeepSeek सँगको प्रतिस्पर्धा अमेरिकाको लागि राम्रो छ क्याथी वुड: मलाई लाग्छ यसले नवप्रवर्तनको लागत नाटकीय रूपमा घट्दै गएको देखाउँछ, र यो प्रवृत्ति पहिले नै सुरु भइसकेको छ। उदाहरणका लागि, DeepSeek अघि, कृत्रिम बुद्धिमत्ता प्रशिक्षणको लागत प्रति वर्ष 75% ले घटेको थियो, र अनुमानको लागत पनि 85% ले घटेको थियो ...

अवर्गीकृत

FlashMLA भनेको के हो? AI डिकोडिङ कर्नेलहरूमा यसको प्रभावको लागि एक विस्तृत गाइड

द्वारा1TP7 टेर फेब्रुअरी २४, २०२५फेब्रुअरी २४, २०२५

FlashMLA ले कृत्रिम बुद्धिमत्ताको संसारमा, विशेष गरी ठूला भाषा मोडेलहरू (LLMs) को क्षेत्रमा द्रुत रूपमा ध्यान आकर्षित गरेको छ। DeepSeek द्वारा विकसित यो नवीन उपकरणले Hopper GPU हरूको लागि डिजाइन गरिएको एक अनुकूलित डिकोडिङ कर्नेलको रूपमा काम गर्दछ - उच्च-प्रदर्शन चिपहरू जुन सामान्यतया AI गणनाहरूमा प्रयोग गरिन्छ। FlashMLA ले चर-लम्बाइ अनुक्रमहरूको कुशल प्रशोधनमा केन्द्रित छ, यसलाई विशेष रूपमा राम्रोसँग उपयुक्त बनाउँछ...

अवर्गीकृत

पहिलो प्रक्षेपण! SiliconFlow X Huawei Cloud ले Ascend Cloud मा आधारित DeepSeek R1 र V3 इन्फरेन्सन सेवाहरू संयुक्त रूपमा सुरू गर्यो!

द्वाराzddeepseeker फेब्रुअरी १, २०२५फेब्रुअरी १, २०२५

DeepSeek-R1 र DeepSeek-V3 ले तिनीहरूको खुला स्रोत प्रक्षेपण पछि विश्वव्यापी सनसनी पैदा गरेको छ। तिनीहरू सबै मानवताका लागि DeepSeek टोलीबाट उपहार हुन्, र हामी तिनीहरूको सफलताको लागि ईमानदारीपूर्वक खुसी छौं। सिलिकन मोबिलिटी र हुवावे क्लाउड टोलीहरूले दिनको कडा परिश्रम पछि, आज हामी चिनियाँ प्रयोगकर्ताहरूलाई पनि चिनियाँ…

अवर्गीकृत

DeepSeek R1 रचनात्मक लेखन परीक्षणमा पहिलो आयो, र o3 mini o1 mini भन्दा पनि खराब थियो!

द्वाराzddeepseeker फेब्रुअरी ३, २०२५फेब्रुअरी ३, २०२५

DeepSeek R1 ले क्रिएटिभ लघुकथा लेखन बेन्चमार्क परीक्षणमा च्याम्पियनशिप जित्यो, अघिल्लो प्रभावशाली खेलाडी क्लाउड 3.5 सनेटलाई सफलतापूर्वक पार गर्दै! बेन्चमार्क परीक्षण शोधकर्ता लेच माजुर द्वारा डिजाइन गरिएको बेन्चमार्क परीक्षण तपाईंको औसत लेखन प्रतिस्पर्धा होइन। प्रत्येक एआई मोडेलले 500 छोटो कथाहरू पूरा गर्न आवश्यक थियो, र प्रत्येक कथाले चलाखीपूर्वक समावेश गर्नुपर्थ्यो...

पेपर-DeepSeek-R1: सुदृढीकरण शिक्षा मार्फत LLM मा तर्क क्षमतालाई प्रोत्साहन गर्दै

सार

प्रमुख योगदानहरू