غير مصنف - Deepseek R1

الورقة رقم DeepSeek-R1: تحفيز القدرة على الاستدلال في الآليات المحلية للتعلم المعزز

بواسطةdeepseeker يناير 29, 2025يناير 29, 2025

ملخص تقدم هذه الورقة البحثية نماذج التفكير من الجيل الأول من DeepSeek: DeepSeek-R1-Zero وDeepSeek-R1. يُظهر نموذج DeepSeek-R1-Zero، الذي تم تدريبه من خلال التعلم المعزز واسع النطاق (RL) دون ضبط دقيق تحت الإشراف (SFT)، قدرات استدلالية رائعة. من خلال التعلم المعزز (RL)، يطور بشكل طبيعي سلوكيات تفكير قوية. ومع ذلك، فإنه يواجه تحديات مثل ضعف سهولة القراءة والخلط اللغوي. ولمعالجة هذه المشكلات وتحسين أداء الاستدلال، تم تطوير DeepSeek-R1...