الورقة رقم DeepSeek-R1: تحفيز القدرة على الاستدلال في الآليات المحلية للتعلم المعزز
ملخص تقدم هذه الورقة البحثية نماذج التفكير من الجيل الأول من DeepSeek: DeepSeek-R1-Zero وDeepSeek-R1. يُظهر نموذج DeepSeek-R1-Zero، الذي تم تدريبه من خلال التعلم المعزز واسع النطاق (RL) دون ضبط دقيق تحت الإشراف (SFT)، قدرات استدلالية رائعة. من خلال التعلم المعزز (RL)، يطور بشكل طبيعي سلوكيات تفكير قوية. ومع ذلك، فإنه يواجه تحديات مثل ضعف سهولة القراءة والخلط اللغوي. ولمعالجة هذه المشكلات وتحسين أداء الاستدلال، تم تطوير DeepSeek-R1...