सार

यस पेपरले DeepSeek को पहिलो पुस्ताको तर्क मोडेलहरू प्रस्तुत गर्दछ: DeepSeek-R1-शून्य र DeepSeek-R1। DeepSeek-R1-शून्य, सुपरिवेक्षित फाइन-ट्युनिङ (SFT) बिना ठूलो-स्तरीय सुदृढीकरण सिकाइ (RL) मार्फत प्रशिक्षित, उल्लेखनीय तर्क क्षमताहरू प्रदर्शन गर्दछ। RL मार्फत, यसले स्वाभाविक रूपमा शक्तिशाली तर्क व्यवहारहरू विकास गर्दछ। यद्यपि, यसले कमजोर पठनीयता र भाषा मिश्रण जस्ता चुनौतीहरूको सामना गर्दछ। यी समस्याहरूलाई सम्बोधन गर्न र तर्क प्रदर्शन बढाउन, DeepSeek-R1 विकसित गरिएको थियो, RL भन्दा पहिले बहु-चरण प्रशिक्षण र कोल्ड-स्टार्ट डेटा समावेश गर्दै। DeepSeek-R1 ले तर्क कार्यहरूमा OpenAI-o1-1217 सँग तुलना गर्न सकिने प्रदर्शन प्राप्त गर्दछ। अनुसन्धानलाई समर्थन गर्न, DeepSeek ले Qwen र Llama मा आधारित DeepSeek-R1 बाट डिस्टिल्ड गरिएका मोडेलहरू र छवटा घन मोडेलहरू (1.5B, 7B, 8B, 14B, 32B, 70B) दुवैलाई खुला स्रोतहरू प्रदान गर्दछ।

प्रमुख योगदानहरू

पोस्ट-ट्रेनिंग: ठूलो-स्तरीय सुदृढीकरण शिक्षा

  • SFT बिना आधार मोडेलमा RL लाई सफलतापूर्वक लागू गरियो
  • विकसित DeepSeek-R1-Zero, आत्म-प्रमाणीकरण र प्रतिबिम्ब जस्ता क्षमताहरू प्रदर्शन गर्दै
  • तर्क क्षमताहरू RL मार्फत विशुद्ध रूपमा प्रोत्साहन गर्न सकिन्छ भनेर प्रमाणित गर्ने पहिलो खुला अनुसन्धान
  • दुई RL चरण र दुई SFT चरणहरू सहित DeepSeek-R1 को लागि पाइपलाइन प्रस्तुत गरियो

आसवन: साना मोडेलहरूलाई सशक्तिकरण गर्दै

  • ठूला मोडेलहरूबाट तर्क ढाँचाहरूलाई प्रभावकारी रूपमा सानाहरूमा डिस्टिल गर्न सकिन्छ भनेर प्रदर्शन गरियो
  • खुला स्रोत DeepSeek-R1 र यसको API अनुसन्धान समुदायलाई फाइदा पुर्‍याउन
  • असाधारण बेन्चमार्क प्रदर्शन देखाउँदै धेरै घना मोडेलहरू राम्रो-ट्यून गरियो
  • डिस्टिल्ड मोडेलहरूले अघिल्लो ओपन-सोर्स मोडेलहरूलाई उल्लेखनीय रूपमा उत्कृष्ट प्रदर्शन गर्दछ

मूल्याङ्कन परिणामहरू

तर्क कार्यहरू

  • DeepSeek-R1 ले AIME 2024 मा 79.8% Pass@1 हासिल गर्छ, OpenAI-o1-1217 लाई उछिनेर
  • MATH-500 मा 97.3% स्कोर, OpenAI-o1-1217 सँग बराबरी प्रदर्शन गर्दै
  • Codeforces मा 2,029 Elo रेटिंगको साथ कोड प्रतिस्पर्धा कार्यहरूमा विशेषज्ञ-स्तर प्रदर्शन

ज्ञान कार्यहरू

  • MMLU (90.8%), MMLU-Pro (84.0%), र GPQA डायमन्ड (71.5%) मा उत्कृष्ट परिणामहरू
  • शैक्षिक कार्यहरूमा अन्य बन्द-स्रोत मोडेलहरू पार गर्दछ
  • SimpleQA जस्ता तथ्यात्मक बेन्चमार्कहरूमा बलियो प्रदर्शन

सामान्य क्षमताहरू

  • रचनात्मक लेखन, प्रश्न उत्तर, सम्पादन, र सारांशमा उत्कृष्टता
  • AlpacaEval 2.0 मा 87.6% र ArenaHard मा 92.3% जीत-दर
  • लामो-सन्दर्भ बुझ्ने कार्यहरूमा बलियो प्रदर्शन।

भविष्यको काम

टोलीले ध्यान केन्द्रित गर्ने योजना बनाएको छ:

  1. प्रकार्य कल र जटिल भूमिका खेल्ने क्षेत्रहरूमा सामान्य क्षमताहरू बढाउँदै
  2. भाषा मिश्रण समस्याहरू सम्बोधन गर्दै
  3. प्रम्प्टिङ इन्जिनियरिङ सुधार
  4. सफ्टवेयर ईन्जिनियरिङ् कार्यहरूमा प्रदर्शन बढाउँदै

निष्कर्ष

DeepSeek-R1 ले सुदृढीकरण सिकाइ मार्फत AI तर्क क्षमताहरूमा महत्त्वपूर्ण प्रगति प्रतिनिधित्व गर्दछ। दुबै मुख्य मोडेल र यसको डिस्टिल्ड संस्करणहरूको सफलताले थप सक्षम एआई प्रणालीहरू विकास गर्नको लागि यस दृष्टिकोणको सम्भावना देखाउँदछ। यी मोडेलहरूको खुला स्रोत रिलीजले क्षेत्रमा थप अनुसन्धान र विकासमा योगदान पुर्‍याउनेछ।

समान पोस्टहरू

जवाफ लेख्नुहोस्

तपाईँको इमेल ठेगाना प्रकाशित गरिने छैन। अनिवार्य फिल्डहरूमा * चिन्ह लगाइएको छ