पेपर-DeepSeek-R1: सुदृढीकरण शिक्षा मार्फत LLM मा तर्क क्षमतालाई प्रोत्साहन गर्दै
सार यो पेपरले DeepSeek को पहिलो पुस्ताको तर्क मोडेलहरू प्रस्तुत गर्दछ: DeepSeek-R1-Zero र DeepSeek-R1। DeepSeek-R1-Zero, सुपरिवेक्षण गरिएको फाइन-ट्युनिङ (SFT) बिना ठूलो-स्तरीय सुदृढीकरण शिक्षा (RL) मार्फत प्रशिक्षित, उल्लेखनीय तर्क क्षमताहरू प्रदर्शन गर्दछ। RL मार्फत, यसले स्वाभाविक रूपमा शक्तिशाली तर्क व्यवहार विकास गर्दछ। यद्यपि, यसले कमजोर पठनीयता र भाषा मिश्रण जस्ता चुनौतीहरूको सामना गर्दछ। यी मुद्दाहरूलाई सम्बोधन गर्न र तर्क प्रदर्शन बढाउन, DeepSeek-R1 विकसित गरिएको थियो,…