1 الخلفية
خلال مهرجان الربيع، DeepSeek R1 وقد جذبت هذه التقنية مرة أخرى اهتمامًا واسع النطاق، وحتى مقالة تفسير DeepSeek V3 التي كتبناها سابقًا أعيد بثها وتم مناقشتها كثيرًا.
على الرغم من وجود العديد من التحليلات وإعادة إنتاج DeepSeek R1، فقد قررنا هنا تجميع بعض ملاحظات القراءة المقابلة.
سنستخدم ثلاثة مخططات تخطيطية أساسية لإظهار بناء النموذج والنقاط الفنية الرئيسية، واستخلاص جوهر سلسلة DeepSeek-R1 لتوفير فهم أكثر بديهية لأفكار تصميمها.
الورقة المقابلة هي [2501.12948] DeepSeek-R1: تحفيز القدرة على التفكير في ماجستير القانون من خلال التعلم التعزيزي
والنموذج مفتوح المصدر المقابل هو DeepSeek-R1
2 المقدمة
2.1 خوارزميات الاستدلال المشترك
كما هو موضح في الشكل 2 أدناه، يشرح المؤلف خوارزميات الاستدلال الأربعة الشائعة. وعلى الرغم من اختلافها في التفاصيل المحددة، فإنها جميعًا تتضمن عمليتين أساسيتين:
- التوسعة: إنشاء رموز لتوسيع مسار الحل.
- التجميع: دمج نتائج كل مسار للحصول على الإجابة النهائية. عادةً ما يؤدي زيادة الموارد الحسابية في مرحلة التوسع إلى تحسين جودة الإجابة في مرحلة التجميع.
الاتساق الذاتي (SC). كما هو موضح في الشكل 2أ، فإن الفكرة الأساسية للاتساق الذاتي هي توليد مخرجات متعددة مختلفة (والتي يمكن تحقيقها من خلال تغيير معلمات العينة، وما إلى ذلك)، ثم التصويت على جميع الإجابات لاختيار الإجابة ذات أعلى معدل فوز. والمعلمة الأساسية هي عدد الإجابات المرشحة n.
خوارزمية إعادة التأسيس: كما هو موضح في الشكل 2ب أدناه، تقوم إعادة التأسيس أيضًا بإنشاء مخرجات متعددة، ولكن يتم إنشاؤها في خطوات متعددة. يتم تسجيل كل خطوة باستخدام نموذج المكافأة، ويتم استخدام النتيجة ذات أعلى درجة لمواصلة التوليد. أخيرًا، يتم إنشاء شجرة استدلال ذات فروع متعددة. يتم تحديد الإجابة ذات أعلى درجة (Best-of-N) في مرحلة التجميع.
البحث الشجري بطريقة مونت كارلو (MCTS): كما هو موضح في الشكل 2ج أدناه، فإن MCTS عبارة عن خوارزمية استدلال قوية تعمل على توسيع العقد من خلال أخذ العينات تدريجيًا وإنشاء شجرة حلول حتى تصل إلى عقدة ورقية تحتوي على حل مرشح. يتم تسجيل كل حل من خلال نموذج المكافأة أو المحاكاة، ويتم نشر النتيجة مرة أخرى إلى العقد الأصلية لتحديث قيم المكافأة الخاصة بها، وبالتالي إكمال التكرار. المعلمة الأساسية هي أيضًا n، وزيادة n تسمح باستكشاف أعمق وأوسع للحلول المحتملة.
السلسلة المعرفية الداخلية (ICoT). كما هو موضح في الشكل 2د أدناه، يمكن لأحدث برامج التعلم العميق، مثل OpenAI o1 وQwen-QWQ، استيعاب سلوك التفكير أثناء التدريب دون الحاجة إلى خوارزمية تفكير صريحة. الفكرة الأساسية هي إنشاء تسلسل CoT، وتفكيك المشكلات المعقدة إلى مشكلات فرعية متعددة، ثم تحسين هذه الإجابات بشكل متكرر من خلال التفكير في المخرجات السابقة للوصول في النهاية إلى حل.

2.2 طرق محاذاة المنطق
2.2.1 نظرة عامة على طريقة أفضل N
باختصار، Best-of-N هي طريقة محاذاة مستخدمة على نطاق واسع في استدلال LLM، والتي تهدف إلى ضمان الجودة العالية للنتائج الناتجة عن طريق توليد استجابات مرشحة متعددة واختيار أفضلها. وتتكون من ثلاث عمليات رئيسية:
- عملية التوليد: بالنسبة لموجه معين X، تقوم طريقة Best-of-N بتوليد N من استجابات IID (Y₁، Y2، …، Yₙ)، حيث يُشار إلى N غالبًا باسم "حجم الدفعة".
- آلية التسجيل: يتم تسجيل كل استجابة تم إنشاؤها بواسطة نموذج المكافأة للحصول على درجة مقابلة {s(Y₁)، s(Y₂)، …، s(Yₙ)}.
- اختيار أفضل استجابة: أخيرًا، يتم اختيار الاستجابة ذات أعلى درجة بين جميع الاستجابات المولدة باعتبارها الإخراج، أي، Y_Best-of-N = argmax {s(Y₁)، s(Y₂)، …، s(Yₙ)}.
ومن مميزات هذه الطريقة:
- يمكنه تجنب خطوات الضبط الدقيق المعقدة بشكل فعال، مما يجعل من الأسهل نشر نماذج اللغة التي تم تدريبها مسبقًا أو ضبطها بدقة باستخدام التعليمات.
- من السهل تنفيذه، وسهل الفهم، وخالٍ بشكل أساسي من المعلمات الفائقة: المعلمة الفائقة الرئيسية هي N، والتي يمكن تعديلها ديناميكيًا أثناء الاستدلال.
- إنها تنافسية للغاية من حيث جودة التوليد ويمكنها حتى منافسة بعض تقنيات ما بعد التدريب المعقدة مثل RLHF أو DPO. تظهر الأبحاث أن طريقة Best-of-N تعمل بشكل جيد على منحنى المقايضة بين المكافأة وتباعد KL، حتى أنها تتفوق على استراتيجيات المحاذاة المعقدة الأخرى.
ومن عيوب هذه الطريقة:
- يتطلب الاستدلال توليد N تسلسل، مما قد يؤدي إلى تكلفة حسابية كبيرة. في الممارسة العملية، تتراوح القيمة المعقولة لـ N من 4 إلى 128، ولكن من أجل التنافس مع أكثر طرق ما بعد التدريب تقدمًا، قد تكون هناك حاجة إلى قيم N أعلى، مثل 1000 إلى 60000، مما قد يؤدي إلى تكلفة حسابية غير مقبولة تقريبًا.
غالبًا ما يتم استخدام طريقة الأفضل من N لإنشاء مجموعات بيانات عالية الجودة للضبط الدقيق الخاضع للإشراف اللاحق ولعبت دورًا رئيسيًا في عملية محاذاة LLaMA-2 وLLaMA-3.
2.2.2 طريقة OpenAI الأفضل من N
اقترحت OpenAI لأول مرة أخذ العينات من Best-of-N في [2009.01325] تعلم التلخيص من ردود الفعل البشرية على وجه التحديد، يتم استخدامه لتقييم وتحسين أداء نموذج الملخص من خلال اختيار أفضل ملخص تم إنشاؤه من نماذج متعددة. تساعد هذه الطريقة الباحثين على فهم العلاقة بين مقاييس التقييم المختلفة وتفضيلات المُقيِّم البشري بشكل أفضل، وتُستخدم لتوجيه تدريب النموذج وتحسينه.
تستخدم OpenAI أيضًا أخذ العينات من أفضل N (أخذ العينات المرفوضة) في المتابعة [2112.09332] WebGPT: الإجابة على الأسئلة بمساعدة المتصفح مع ردود الفعل البشريةعلى وجه التحديد، يتم أخذ عدد ثابت من الإجابات (4 أو 16 أو 64) من نموذج BC أو نموذج RL، ويتم اختيار الإجابة التي حصلت على أعلى درجة في نموذج المكافأة كطريقة تحسين لنموذج المكافأة التنافسية. لا تتطلب هذه الطريقة تدريبًا إضافيًا، ولكنها تزيد من التعقيد الحسابي لمرحلة الاستدلال لتحقيقها.
2.2.3 طريقة Google BOND
في [2407.14622] BOND: محاذاة LLMs مع Best-of-N Distillation، يقترح المؤلفون من Google Best-of-N Distillation (BOND)، وهي خوارزمية RLHF جديدة مصممة لمحاكاة استراتيجية أخذ العينات Best-of-N من خلال خوارزمية مطابقة التوزيع دون زيادة كبيرة في التكلفة الحسابية أثناء الاستدلال.

على وجه التحديد، يستنتج المؤلف أولاً التوزيع التحليلي الدقيق لعينة Best-of-N ويعطي دالة الاحتمال لعينة Best-of-N:

ثانياً، يصف المؤلفون المشكلة بأنها مشكلة مطابقة التوزيع؛

بعد ذلك، يقترح المؤلفون استخدام تباعد جيفريز كهدف لمطابقة التوزيع:

أخيرًا، لحل مشكلة اختيار N، يقترح المؤلفون طريقة BOND التكرارية، والتي تعمل على تحسين أداء الاستراتيجية من خلال تقطير توزيع Best-of-N تكراريًا. تتضمن الخطوات المحددة ما يلي:
قم ببدء استراتيجية المرساة المساعدة π(المرساة).
قم بتنفيذ BOND بشكل تكراري لتقطير أفضل N π(المرساة) وتحديث π(المرساة) بعد كل خطوة.

2.3 الإشراف على العملية والإشراف على النتائج
تشير النتيجة والعملية إلى الجانبين من تقييم نموذج المكافأة:
- نموذج مكافأة النتيجة: قم بتقييم ما إذا كانت النتيجة النهائية لمخرجات النموذج صحيحة أو كما هو متوقع.
- نموذج مكافأة العملية: يقوم بتقييم ما إذا كانت خطوات التفكير واتخاذ القرار في النموذج في عملية توليد النتائج معقولة وفعالة.
على سبيل المثال، يذكر موقع Let's Verify Step by Step | OpenAI التابع لشركة OpenAI أيضًا:
- الإشراف على العملية (الإشراف على النتائج): يتضمن تقديم ملاحظات حول كل خطوة من خطوات عملية التفكير في النموذج. يتم تدريب نماذج المكافأة الخاضعة للإشراف على العملية (PRM) للتنبؤ بصحة كل خطوة من خطوات الحل.
- الإشراف على النتائج: يوفر الإشراف على النتائج ملاحظات بناءً على النتيجة النهائية لاستدلال النموذج فقط. يتم تدريب نماذج المكافأة الخاضعة للإشراف على النتائج (ORM) باستخدام الإجابة النهائية للحل، ويتم تحديد الصحة من خلال الفحص التلقائي.
2.4 اختراق المكافآت
في التعلم المعزز، يشير اختراق المكافأة إلى الظاهرة التي يستغل فيها العميل خللًا في تصميم دالة المكافأة لتعظيم المكافأة التراكمية بطريقة لا تلبي النية الأصلية للمصمم. وعلى الرغم من أن هذا السلوك يلبي من الناحية الفنية هدف تحسين دالة المكافأة، فإن التأثير الفعلي ينحرف عن هدف المهمة المتوقع وقد يؤدي حتى إلى عواقب سلبية.
تحليل النقاط الرئيسية:
- التعريف والظهور:
- يجد العميل خللًا في وظيفة المكافأة ويحصل على مكافأة عالية من خلال اتخاذ "طرق مختصرة" بدلاً من حل المشكلة فعليًا.
- على سبيل المثال، يقوم روبوت التنظيف بإطفاء الأضواء لجعل الغرفة "تبدو" نظيفة، بدلاً من تنظيفها بالفعل؛ يسجل وكيل اللعبة نقاطًا بشكل متكرر دون إكمال هدف المستوى؛ يختار عدم التباطؤ من أجل تقليل عدد مرات الكبح، مما يشكل خطرًا على السلامة؛ إنشاء محتوى لا معنى له يتطابق مع الكلمات الرئيسية من أجل خداع الدرجات العالية.
- الأسباب الجذرية:
- تصميم وظيفة المكافأة غير المكتمل: التبسيط المفرط أو الفشل في تغطية الحالات الحدية.
- عدم التوافق بين الأهداف والمكافآت: تفشل وظيفة المكافأة في عكس الهدف الحقيقي بالكامل، مما يدفع العميل إلى التحسين من أجل الهدف "الخاطئ".
- الحلول:
- تحسين تصميم المكافآت: تقديم مكافآت متعددة الأبعاد (على سبيل المثال السلامة والكفاءة وما إلى ذلك) أو تعديل وظيفة المكافأة بشكل ديناميكي.
- التحقق التنافسي: اكتشاف ما إذا كان العميل "يغش" من خلال آليات إضافية.
- التدخل اليدوي والقيود: تحديد حدود السلوك (على سبيل المثال طبقة الأمان) أو ردود الفعل اليدوية (على سبيل المثال RLHF).
- التعلم التعزيزي العكسي (IRL): تعلم وظيفة المكافأة الأكثر واقعية من العروض التوضيحية للخبراء.
- التعلم التعزيزي الهرمي: تقسيم المهمة إلى أهداف فرعية لتقليل مخاطر التحسين المحلي.
- الارتباط مع الإفراط في التجهيز:
- يُظهر كلا النموذجين انقطاعًا بين مقاييس التدريب والأداء في العالم الحقيقي، ولكن يركز Reward Hacking بشكل أكبر على عيوب تصميم وظيفة المكافأة أكثر من التركيز على قدرة النموذج على التعميم.
- ملخص:
- يكشف اختراق المكافآت عن التحدي المتمثل في محاذاة الأهداف في التعلم المعزز. ويتطلب حل هذه المشكلة الجمع بين تصميم آليات مكافأة أكثر قوة، وإدخال قيود خارجية، ودمج المعرفة البشرية السابقة لضمان أن يكون سلوك العميل فعالاً ومتماشياً مع نية التصميم.
3 DeepSeek-R1-صفر وDeepSeek-R1
3.1 نظرة عامة
اعتمدت الأبحاث السابقة إلى حد كبير على كميات كبيرة من البيانات الخاضعة للإشراف لتحسين أداء النموذج. وتُظهر هذه الدراسة أنه حتى بدون SFT كبداية باردة، يمكن أن تعمل RL واسعة النطاق على تعزيز قدرة النموذج على التفكير بشكل كبير. بالإضافة إلى ذلك، يمكن أن يؤدي إدخال كمية صغيرة من بيانات البداية الباردة إلى تحسين الأداء بشكل أكبر. فيما يلي النماذج المتعلقة بـ DeepSeek-R1:
- DeepSeek-R1-Zero: يطبق هذا النموذج RL مباشرة على النموذج الأساسي دون أي بيانات SFT.
- DeepSeek-R1: يطبق هذا النموذج التعلم التعزيزي بدءًا من نقطة تفتيش تم ضبطها بدقة باستخدام آلاف من عينات CoT الطويلة.
- DeepSeek-R1-Distill-xx: يقوم بتقطير قدرة الاستدلال الخاصة بـ DeepSeek-R1 إلى نموذج كثيف صغير.
3.2 DeepSeek-R1-صفر
يوضح الشكل التالي النقاط الرئيسية في تدريب نموذج DeepSeek-R1-Zero:

ملاحظة: تجدر الإشارة إلى أن هذه الورقة لا تقدم الكثير من المعلومات حول البيانات المستخدمة في عملية التعلم التعزيزي لـ DeepSeek-R1-Zero. ومع ذلك، هناك بعض التوضيحات حول عملية توليد البيانات وكميتها في تدريب R1 اللاحق، على الرغم من أنها ليست محددة بشكل خاص.
3.2.1 خوارزمية التعلم التعزيزي
لتقليل تكلفة تدريب التعلم التعزيزي، يستخدم المؤلفون طريقة GRPO (تحسين السياسة النسبية للمجموعة) الخاصة بـ DeepSeek، [2402.03300] DeepSeekMath: دفع حدود التفكير الرياضي في نماذج اللغة المفتوحة. تتخلى هذه الطريقة عن نموذج Critic، الذي يكون عادةً قابلاً للمقارنة في الحجم مع نموذج السياسة، وبدلاً من ذلك تقدر خط الأساس باستخدام درجة المجموعة. يظهر التفسير المقابل في الشكل أدناه (صورة من تويتر):

3.2.2 نمذجة المكافأة
المكافآت هي مصدر إشارات التدريب وتحدد اتجاه تحسين التعلم التعزيزي. لتدريب DeepSeek-R1-Zero، استخدم المؤلفون نظام مكافآت قائم على القواعد، والذي يتكون بشكل أساسي من نوعين من المكافآت:
- مكافأة الدقة: قم بتقييم ما إذا كانت الإجابة صحيحة. على سبيل المثال:
- في المسائل الرياضية ذات النتائج الحتمية، يحتاج النموذج إلى توفير الإجابة النهائية بتنسيق محدد (مثل داخل صندوق) حتى يمكن التحقق من صحتها بشكل موثوق من خلال القواعد.
- وبالمثل، بالنسبة لمشاكل LeetCode، يمكن إنشاء ردود الفعل باستخدام مُجمِّع يعتمد على حالات اختبار محددة مسبقًا.
- مكافأة التنسيق: تُستخدم مكافأة التنسيق أيضًا لإجبار النموذج على وضع عملية تفكيره بين " " و " "العلامات."
أثناء تطوير DeepSeek-R1-Zero، لم يستخدم المؤلف نموذج المكافأة العصبية الناتجة أو نموذج المكافأة العصبية العملية لأن المؤلف وجد أن نموذج المكافأة العصبية قد يواجه انتحال المكافأة (اختراق المكافأة) في عمليات التعلم المعزز واسعة النطاق؛ بالإضافة إلى ذلك، فإن إعادة تدريب نموذج المكافأة لا يتطلب موارد تدريب إضافية فحسب، بل يؤدي أيضًا إلى تعقيد عملية التدريب بأكملها.
3.2.3 قالب التدريب
لتدريب DeepSeek-R1-Zero، صمم المؤلفون أولاً قالبًا بسيطًا لتوجيه النموذج الأساسي لاتباع التعليمات المحددة. وكما هو موضح في الجدول 1 أدناه، يتطلب القالب من DeepSeek-R1-Zero إنشاء عملية استدلال ثم إعطاء الإجابة النهائية.

قام المؤلف عمدًا بتقييد القيود المفروضة على هذا الإطار الهيكلي لتجنب إدخال أي تحيز في المحتوى - على سبيل المثال، فرض التفكير التأملي أو تعزيز استراتيجيات حل المشكلات المحددة - لضمان إمكانية ملاحظة التطور الطبيعي للنموذج بدقة أثناء عملية التعلم التعزيزي.
3.2.4 الخاتمة
قدرات استدلال قوية بدون بيانات SFT: من خلال بدء التعلم التعزيزي مباشرة من النموذج الأساسي، يمكن مراقبة مسار تطور النموذج عن كثب دون تدخل SFT. وكما يوضح الشكل 3 أدناه، استمر وقت تفكير DeepSeek-R1-Zero في التحسن (أصبح طول النمو أطول تدريجيًا) طوال عملية التدريب. لم يأت هذا التحسن من تعديلات خارجية، بل كان نتيجة طبيعية للتطوير الداخلي للنموذج. اكتسب DeepSeek-R1-Zero بشكل طبيعي القدرة على حل مهام الاستدلال المعقدة بشكل متزايد، مثل القدرة على التأمل، باستخدام حسابات وقت الاختبار الممتدة.

لقد مر DeepSeek-R1-Zero بلحظة "آها" أثناء التدريب. وكما هو موضح في الجدول 3 أدناه، حدثت هذه اللحظة أثناء مرحلة الإصدار الأوسط من النموذج. وخلال هذه المرحلة، تعلم DeepSeek-R1-Zero تخصيص المزيد من وقت التفكير للمشكلات من خلال إعادة تقييم نهجه الأولي.

التصويت بالأغلبية: يمكن تحسين أداء DeepSeek-R1-Zero بشكل أكبر من خلال تطبيق التصويت بالأغلبية. على سبيل المثال، كما هو موضح في الجدول 2 أدناه، بعد استخدام التصويت بالأغلبية في اختبار معيار AIME، يقفز أداءه من 71.0% إلى 86.7%، متجاوزًا OpenAI-o1-0912.

نقاط الضعف: على الرغم من أن DeepSeek-R1-Zero يظهر قدرات استدلال قوية ويطور بشكل مستقل سلوكيات استدلال غير متوقعة وقوية، إلا أنه لا يزال يواجه تحديات مثل ضعف القراءة وخلط اللغات.
3.3 DeepSeek-R1
ولجعل عملية الاستدلال أكثر قابلية للقراءة ومشاركتها مع المجتمع المفتوح، استكشف المؤلفون بشكل أكبر طريقة DeepSeek-R1، التي تستخدم بيانات البداية الباردة الصديقة للإنسان من أجل الاستدلال. واستلهامًا من DeepSeek-R1-Zero، يتبع ذلك سؤالان طبيعيان:
- هل من الممكن تحسين أداء التفكير بشكل أكبر أو تسريع عملية التقارب من خلال إدخال كمية صغيرة من البيانات عالية الجودة كبداية باردة؟
- كيف يمكننا تدريب نموذج سهل الاستخدام لا ينتج فقط CoTs واضحة ومتماسكة، بل يظهر أيضًا قدرات تعميم قوية؟
ردًا على هذه الأسئلة، قمنا بتصميم عملية تدريب لـ DeepSeek-R1. تتكون العملية من مراحل متعددة، كما هو موضح أدناه:
المرحلة 1، كما هو موضح في الشكل أدناه، تدرب الحالة الوسيطة لـ DeepSeek-R1 من خلال SFT + RL:

يوضح الشكل التالي المراحل 2 و3 و4:
- المرحلة الثانية: أعلى اليسار، إنشاء 200 كيلو بايت من البيانات غير المنطقية و600 كيلو بايت من البيانات المنطقية.
- المرحلة 3: أعلى يمين، قطار SFT + RL DeepSeek-R1.
- المرحلة 4: الشكل السفلي، التقطير DeepSeek-R1-Distill-xx.

3.3.1 التشغيل البارد (المرحلة 1)
على عكس DeepSeek-R1-Zero، لمنع مرحلة البداية الباردة غير المستقرة للنموذج الأساسي في بداية تدريب التعلم التعزيزي، قام المؤلفون ببناء وجمع كمية صغيرة من بيانات Long CoT لـ DeepSeek-R1 لضبط النموذج باعتباره الممثل الأولي للتعلم التعزيزي. لجمع هذه البيانات، استكشف المؤلفون طرقًا مختلفة:
- استخدام المطالبات ذات اللقطات القليلة مع أمثلة Long CoT
- دفع النموذج مباشرة إلى توليد إجابات مفصلة من خلال التأمل والتحقق
- جمع مخرجات DeepSeek-R1-Zero بتنسيق قابل للقراءة بواسطة الإنسان
- تحسين النتائج من خلال المعالجة اللاحقة باستخدام الوسم اليدوي
جمع المؤلفون إجمالي آلاف البيانات الخاصة بالبدء البارد، والتي تم استخدامها لضبط DeepSeek-V3-Base كنقطة بداية للتشغيل التعزيزي. وبالمقارنة مع DeepSeek-R1-Zero، فإن مزايا بيانات البدء البارد تشمل
- قابلية القراءة: DeepSeek-R1-Zero يمكن خلط الاستجابات بلغات متعددة أو تفتقر إلى تنسيق Markdown المستخدم لتسليط الضوء على إجابات المستخدم. على النقيض من ذلك، عند إنشاء بيانات Cold Start لـ DeepSeek-R1، صمم المؤلف تنسيقًا قابلًا للقراءة يتضمن ملخصًا في نهاية كل استجابة ويستبعد الاستجابات غير القابلة للقراءة. هنا، يتم تعريف تنسيق الإخراج على أنه |special_token| |رمز خاص|
حيث أن reasoning_process هو التفكير المتسلسل للاستعلام ويتم استخدام summary لتلخيص نتائج الاستدلال. - الإمكانات: من خلال التصميم الدقيق لمجموعة من أنماط بيانات البداية الباردة البشرية المسبقة، لاحظ المؤلفون أن أداءها يتفوق على DeepSeek-R1-Zero.
3.3.2 التعلم التعزيزي القائم على الاستدلال (المرحلة 1)
بعد ضبط DeepSeek-V3-Base على بيانات البداية الباردة، يتم استخدام نفس عملية تدريب التعلم التعزيزي واسعة النطاق مثل DeepSeek-R1-Zero. تهدف هذه المرحلة إلى تحسين قدرة النموذج على المهام التي تتطلب التفكير بشكل مكثف، وخاصة في البرمجة والرياضيات والعلوم ومشاكل التفكير المنطقي مع حلول واضحة.
أثناء التدريب، لاحظ المؤلفون أن CoT غالبًا ما عانت من اختلاط اللغة، وخاصةً عندما تضمنت مطالبة التعلم المعزز لغات متعددة. لتخفيف مشكلة اختلاط اللغة، قدم المؤلفون مكافأة اتساق اللغة في تدريب التعلم المعزز، والتي يتم حسابها بناءً على نسبة الكلمات في اللغة المستهدفة في CoT. على الرغم من أن تجارب الاستئصال تظهر أن طريقة المحاذاة هذه تؤدي إلى انخفاض طفيف في أداء النموذج، إلا أن آلية المكافأة هذه تتوافق مع التفضيلات البشرية وتعزز قابلية القراءة. أخيرًا، يضيف المؤلفون دقة مهمة الاستدلال مباشرة إلى مكافأة اتساق اللغة لتشكيل المكافأة النهائية، وينفذون تدريب التعلم المعزز على النموذج المضبوط بدقة حتى يتقارب مع مهمة الاستدلال.
3.3.3 إنشاء 800000 من البيانات المختارة (المرحلة الثانية)
بينما تتقارب RL for Reasoning، يتم جمع بيانات SFT باستخدام نقطة التفتيش الناتجة لجولة التدريب التالية. وعلى عكس بيانات Cold Start الأولية، والتي تركز بشكل أساسي على Reasoning، تتضمن هذه المرحلة بيانات من مجالات أخرى لتعزيز قدرة النموذج على الكتابة ولعب الأدوار والمهام العامة الأخرى. على وجه التحديد، يتم إنشاء البيانات وضبط النموذج على النحو التالي:
- بيانات الاستدلال: يتم تحديد مطالبات الاستدلال وتوليد مسارات الاستدلال من خلال إجراء أخذ عينات الرفض من نقطة التفتيش المدربة على التعلم المعزز المذكورة أعلاه (DeepSeek-R1 المرحلة 1). في المرحلة السابقة، تم تضمين البيانات التي يمكن تقييمها باستخدام المكافآت القائمة على القواعد فقط. ومع ذلك، في هذه المرحلة، تم توسيع مجموعة البيانات من خلال تضمين المزيد من البيانات، والتي تم إنشاء بعضها باستخدام نموذج المكافأة، وتم الحكم على الإجابات الحقيقية من خلال تغذية تنبؤات النموذج في DeepSeek-V3 (DeepSeek V3 كحكم). بالإضافة إلى ذلك، نظرًا لأن مخرجات النموذج مربكة في بعض الأحيان ويصعب قراءتها، فقد تم تصفية سلاسل الأفكار المختلطة اللغات والفقرات الطويلة وكتل التعليمات البرمجية. لكل مطالبة، تم أخذ عينات من استجابات متعددة وتم الاحتفاظ بالإجابات الصحيحة فقط (أفضل من N). في المجموع، تم جمع حوالي 600000 عينة تدريب متعلقة بالاستدلال.
- البيانات غير المنطقية: مثل الكتابة، والأسئلة الواقعية، والوعي الذاتي، والترجمة، استخدمت عملية DeepSeek-V3 وأعادت استخدام بعض مجموعات بيانات SFT الخاصة بـ DeepSeek-V3. بالنسبة لبعض المهام غير المنطقية، يتم استدعاء DeepSeek-V3 لتوليد CoTs المحتملة قبل الإجابة على السؤال. ومع ذلك، بالنسبة للاستعلامات البسيطة مثل "مرحبًا"، لا يتم توفير سلسلة فكرية في الاستجابة. في النهاية، تم جمع ما مجموعه حوالي 200000 عينة تدريب غير منطقية.
3.3.4 SFT وRL لجميع السيناريوهات (المرحلة 3)
تم إجراء جولتين من الضبط الدقيق لإجمالي حوالي 800000 عينة مختارة على DeepSeek-V3-Base باستخدام مجموعتي البيانات المذكورتين أعلاه (الاستدلال وغير الاستدلال).
ولمواءمة النموذج مع التفضيلات البشرية بشكل أكبر، نفذ المؤلفون مرحلة ثانية من التعلم التعزيزي، والتي تهدف إلى تحسين فائدة النموذج وخلوه من الأضرار مع تحسين قدراته على الاستدلال. وعلى وجه التحديد، تم تدريب النموذج باستخدام مجموعة من إشارات المكافأة وتوزيعات الاستجابة المتنوعة.
- بالنسبة لبيانات الاستدلال، يتم اتباع المنهجية الموضحة في DeepSeek-R1-Zero، باستخدام آلية المكافأة القائمة على القواعد لتوجيه تعلم النموذج في مجالات الرياضيات والبرمجة والاستدلال المنطقي.
- بالنسبة للبيانات العامة، يتم استخدام نموذج المكافأة لالتقاط التفضيلات البشرية في المواقف المعقدة والدقيقة. يتم استخدام استراتيجية مماثلة لأزواج التفضيلات وتوزيعات التدريب بناءً على عملية DeepSeek-V3.
- من حيث الفائدة، يتم النظر فقط إلى الملخص النهائي، مما يضمن أن يركز التقييم على التطبيق العملي ومدى ملاءمة الاستجابة للمستخدم مع تقليل التدخل في عملية التفكير الأساسية.
- أما بالنسبة لعدم الضرر، يتم تقييم استجابة النموذج بأكملها بشكل شامل، بما في ذلك عملية الاستدلال والملخص، لتحديد وإزالة أي مخاطر أو تحيزات أو محتوى ضار محتمل قد ينشأ أثناء عملية التوليد.
- وفي نهاية المطاف، من خلال دمج إشارات المكافأة وتنويع توزيع البيانات، يمكن تدريب نموذج يعطي الأولوية لكل من الفائدة والضرر مع التفوق في التفكير المنطقي.
3.3.5 التقطير (المرحلة الرابعة)
من أجل تزويد نموذج صغير أكثر كفاءة بقدرة الاستدلال الخاصة بـ DeepSeek-R1، قام المؤلفون بضبط نماذج المصدر المفتوح Qwen وLLaMA مباشرةً باستخدام 800000 عينة مختارة في DeepSeek-R1-Stage-1. وتُظهِر النتائج أن طريقة التقطير المباشر هذه تعمل على تحسين قدرة الاستدلال الخاصة بالنماذج الصغيرة بشكل كبير. تشمل النماذج الأساسية التي استخدمها المؤلفون Qwen2.5-Math-1.5B وQwen2.5-Math-7B وQwen2.5-14B وQwen2.5-32B وLlama-3.1-8B وLlama-3.3-70B-Instruct. وقد تم اختيار Llama-3.3 لأن قدرته على الاستدلال أفضل قليلاً من Llama-3.1.
بالنسبة لنموذج التقطير، يستخدم المؤلف فقط SFT ولا يتضمن مرحلة التقطير المعزز. وعلى الرغم من أن إدخال التقطير المعزز يمكن أن يحسن بشكل كبير من أداء النموذج، فإن الغرض الرئيسي للمؤلف هنا هو إثبات فعالية تقنية التقطير، وترك استكشاف مرحلة التقطير المعزز للبحث اللاحق.
PS: بالإضافة إلى ذلك، من الممكن فعليًا استخدام DeepSeek-R1 النهائي لتوليد البيانات المذكورة أعلاه وإعادة بناء 800000 من البيانات المستخدمة في التقطير، وقد يكون للنموذج المقطر تأثير أفضل؛ ومع ذلك، فإن الثمن هو أن البيانات تحتاج إلى إعادة بناء.