वर्गीकृत नगरिएको

DeepSeek 1 पछाडिको रहस्य | DeepSeekMath र GRPO विवरणहरू

द्वाराzddeepseeker फेब्रुअरी ९, २०२५फेब्रुअरी ९, २०२५

आज म DeepSeek बाट एउटा लेख साझा गर्न चाहन्छु, जसको शीर्षक हो DeepSeekMath: खुला भाषा मोडेलहरूमा गणितीय तर्कको सीमाहरू धकेल्दै। यो लेखले DeepSeekMath 7B लाई परिचय गराउँछ, जुन DeepSeek-Coder-Base-v1.5 7B मा पूर्व-प्रशिक्षित छ जुन 120B गणित-सम्बन्धित टोकनहरू, प्राकृतिक भाषा र कोड डेटाको संग्रहमा आधारित छ। मोडेलले प्रतिस्पर्धात्मक-स्तरमा 51.7% को आश्चर्यजनक स्कोर हासिल गर्यो...

अवर्गीकृत

DeepSeek-R1 प्रविधिको खुलासा: पेपरका मुख्य सिद्धान्तहरू तोडिएका छन् र सफलतापूर्वक मोडेल प्रदर्शनको कुञ्जी प्रकट गरिएको छ।

द्वाराzddeepseeker फेब्रुअरी ९, २०२५फेब्रुअरी ९, २०२५

आज हामी DeepSeek R1 साझा गर्नेछौं, शीर्षक: DeepSeek-R1: सुदृढीकरण सिकाइ मार्फत LLM मा तर्क क्षमतालाई प्रोत्साहन: सुदृढीकरण सिकाइ मार्फत LLM को तर्क क्षमतालाई प्रोत्साहन। यो पेपरले DeepSeek को पहिलो पुस्ताको तर्क मोडेलहरू, DeepSeek-R1-शून्य र DeepSeek-R1 लाई परिचय गराउँछ। DeepSeek-R1-शून्य मोडेललाई प्रारम्भिक चरणको रूपमा पर्यवेक्षित फाइन-ट्युनिङ (SFT) बिना ठूलो मात्रामा सुदृढीकरण सिकाइ (RL) मार्फत प्रशिक्षित गरिएको थियो,…

अवर्गीकृत

DeepSeek R1 पेपर व्याख्या र मुख्य प्राविधिक बुँदाहरू

द्वाराzddeepseeker फेब्रुअरी ९, २०२५फेब्रुअरी ९, २०२५

१ पृष्ठभूमि वसन्त महोत्सवको समयमा, १TP५T ले फेरि एक पटक व्यापक ध्यान आकर्षित गर्‍यो, र हामीले पहिले लेखेको १TP८T V३ व्याख्या लेख पनि पुन: प्रसारित भयो र धेरै छलफल गरियो। यद्यपि १TP५T को धेरै विश्लेषण र पुनरुत्पादनहरू भएका छन्, यहाँ हामीले केही सम्बन्धित पठन नोटहरू संकलन गर्ने निर्णय गरेका छौं। हामी तीन प्रयोग गर्नेछौं...