पेपर-DeepSeek-R1: सुदृढीकरण सीखने के माध्यम से एलएलएम में तर्क क्षमता को प्रोत्साहित करना
सार यह पेपर DeepSeek के प्रथम पीढ़ी के तर्क मॉडल प्रस्तुत करता है: DeepSeek-R1-Zero और DeepSeek-R1। DeepSeek-R1-Zero, बिना पर्यवेक्षित फ़ाइन-ट्यूनिंग (SFT) के बड़े पैमाने पर सुदृढीकरण सीखने (RL) के माध्यम से प्रशिक्षित, उल्लेखनीय तर्क क्षमताओं को प्रदर्शित करता है। RL के माध्यम से, यह स्वाभाविक रूप से शक्तिशाली तर्क व्यवहार विकसित करता है। हालाँकि, यह खराब पठनीयता और भाषा मिश्रण जैसी चुनौतियों का सामना करता है। इन मुद्दों को संबोधित करने और तर्क प्रदर्शन को बढ़ाने के लिए, DeepSeek-R1 विकसित किया गया था,…