DeepSeek-R1 प्रौद्योगिकी का खुलासा: शोधपत्र के मूल सिद्धांतों को तोड़ा गया और सफल मॉडल प्रदर्शन की कुंजी का खुलासा किया गया
आज हम DeepSeek R1, शीर्षक: DeepSeek-R1: सुदृढीकरण सीखने के माध्यम से LLM में तर्क क्षमता को प्रोत्साहित करना: सुदृढीकरण सीखने के माध्यम से LLM की तर्क क्षमता को प्रोत्साहित करना साझा करेंगे। यह पेपर DeepSeek के तर्क मॉडल की पहली पीढ़ी, DeepSeek-R1-Zero और DeepSeek-R1 का परिचय देता है। DeepSeek-R1-Zero मॉडल को प्रारंभिक चरण के रूप में पर्यवेक्षित फ़ाइन-ट्यूनिंग (SFT) के बिना बड़े पैमाने पर सुदृढीकरण सीखने (RL) के माध्यम से प्रशिक्षित किया गया था,…