DeepSeek-R1 प्रविधिको खुलासा: पेपरका मुख्य सिद्धान्तहरू तोडिएका छन् र सफलतापूर्वक मोडेल प्रदर्शनको कुञ्जी प्रकट गरिएको छ।
आज हामी DeepSeek R1 साझा गर्नेछौं, शीर्षक: DeepSeek-R1: सुदृढीकरण सिकाइ मार्फत LLM मा तर्क क्षमतालाई प्रोत्साहन: सुदृढीकरण सिकाइ मार्फत LLM को तर्क क्षमतालाई प्रोत्साहन। यो पेपरले DeepSeek को पहिलो पुस्ताको तर्क मोडेलहरू, DeepSeek-R1-शून्य र DeepSeek-R1 लाई परिचय गराउँछ। DeepSeek-R1-शून्य मोडेललाई प्रारम्भिक चरणको रूपमा पर्यवेक्षित फाइन-ट्युनिङ (SFT) बिना ठूलो मात्रामा सुदृढीकरण सिकाइ (RL) मार्फत प्रशिक्षित गरिएको थियो,…