बिना वर्गीकृत

DeepSeek 1 के पीछे का रहस्य | DeepSeekMath और GRPO विवरण

द्वाराzddeepseeker फरवरी 9, 2025फरवरी 9, 2025

आज मैं DeepSeek से एक लेख साझा करना चाहूँगा, जिसका शीर्षक है DeepSeekMath: ओपन लैंग्वेज मॉडल में गणितीय तर्क की सीमाओं को आगे बढ़ाना। यह लेख DeepSeekMath 7B का परिचय देता है, जो 120B गणित-संबंधित टोकन, प्राकृतिक भाषा और कोड डेटा के संग्रह के आधार पर DeepSeek-Coder-Base-v1.5 7B पर पूर्व-प्रशिक्षित है। मॉडल ने प्रतिस्पर्धी-स्तर में 51.7% का आश्चर्यजनक स्कोर हासिल किया…

अवर्गीकृत

DeepSeek-R1 प्रौद्योगिकी का खुलासा: शोधपत्र के मूल सिद्धांतों को तोड़ा गया और सफल मॉडल प्रदर्शन की कुंजी का खुलासा किया गया

द्वाराzddeepseeker फरवरी 9, 2025फरवरी 9, 2025

आज हम DeepSeek R1, शीर्षक: DeepSeek-R1: सुदृढीकरण सीखने के माध्यम से LLM में तर्क क्षमता को प्रोत्साहित करना: सुदृढीकरण सीखने के माध्यम से LLM की तर्क क्षमता को प्रोत्साहित करना साझा करेंगे। यह पेपर DeepSeek के तर्क मॉडल की पहली पीढ़ी, DeepSeek-R1-Zero और DeepSeek-R1 का परिचय देता है। DeepSeek-R1-Zero मॉडल को प्रारंभिक चरण के रूप में पर्यवेक्षित फ़ाइन-ट्यूनिंग (SFT) के बिना बड़े पैमाने पर सुदृढीकरण सीखने (RL) के माध्यम से प्रशिक्षित किया गया था,…

अवर्गीकृत

DeepSeek R1 पेपर व्याख्या और मुख्य तकनीकी बिंदु

द्वाराzddeepseeker फरवरी 9, 2025फरवरी 9, 2025

1 पृष्ठभूमि वसंत महोत्सव के दौरान, DeepSeek R1 ने एक बार फिर व्यापक ध्यान आकर्षित किया, और यहां तक कि DeepSeek V3 व्याख्या लेख जिसे हमने पहले लिखा था, उसे भी पुनः प्रसारित किया गया और उस पर बहुत चर्चा हुई। हालाँकि DeepSeek R1 के कई विश्लेषण और पुनरुत्पादन हुए हैं, यहाँ हमने कुछ संगत पठन नोट्स संकलित करने का निर्णय लिया है। हम तीन…