اليوم سوف نشارك DeepSeek R1العنوان: DeepSeek-R1: تحفيز القدرة على التفكير في ماجستير القانون من خلال التعلم المعزز: تحفيز القدرة على التفكير في ماجستير القانون من خلال التعلم المعزز.

تقدم هذه الورقة الجيل الأول من نماذج الاستدلال DeepSeek، DeepSeek-R1-Zero و DeepSeek-R1تم تدريب نموذج DeepSeek-R1-Zero من خلال التعلم التعزيزي واسع النطاق (RL) دون ضبط دقيق خاضع للإشراف (SFT) كخطوة أولية، مما يوضح إمكانات التعلم التعزيزي والقدرات الاستدلالية المتفوقة إنه يجلب. من خلال التعلم التعزيزي، نشأ DeepSeek-R1-Zero بشكل طبيعي مع العديد من السلوكيات المنطقية القوية والمثيرة للاهتماملتحسين بعض المشكلات المتعلقة بـ R1-Zero (الارتباكات اللغوية، وتحسين القدرة على التعميم)، أصدروا DeepSeek-R1، الذي يجمع بين التدريب متعدد المراحل وضبط البيانات في البداية الباردة قبل التعلم التعزيزي. حقق DeepSeek-R1 أداءً مماثلاً في مهمة الاستدلال باستخدام OpenAI-01-1217. لدعم مجتمع البحث، لديهم DeepSeek-R1-Zero مفتوح المصدر، وDeepSeek-R1، وستة نماذج كثيفة (1.5B، و7B، و8B، و14B، و32B، و70B) مستمدة من DeepSeek-R1، والتي تعتمد على Qwen وLlama.

تتلخص خصائص الطريقة فيما يلي:

  1. يتم تطبيق التعلم التعزيزي مباشرة على النموذج الأساسي، دون الاعتماد على الضبط الدقيق الخاضع للإشراف (SFT) كخطوة أولية.
  2. تم تقديم عملية تطوير DeepSeek-R1، والتي يجمع بين مرحلتين من التعلم التعزيزي ومرحلتين من الضبط الدقيق الخاضع للإشراف لوضع الأساس لقدرات الاستدلال وعدم الاستدلال في النموذج.
  3. يتم تحسين أداء النماذج الصغيرة في مهام الاستدلال من خلال نقل أنماط الاستدلال للنماذج الكبيرة إلى النماذج الصغيرة من خلال تقنيات التقطير.

ملخص

تحفيز

  • لقد حققت نماذج اللغة الكبيرة الحالية (LLMs) تقدمًا كبيرًا في مهام الاستدلال، ولكنها لا تزال تواجه تحديات.
  • إمكانات نقية لم يتم استكشاف دور التعلم التعزيزي في تحسين قدرة التفكير لدى طلاب الماجستير في القانون بشكل كامل، خاصة دون الاعتماد على البيانات الخاضعة للإشراف.
  • النماذج التي تم تدريبها من خلال التعلم التعزيزي، مثل DeepSeek-R1-Zero، لديه مشاكل في قابلية القراءة وخلط اللغة (على سبيل المثال، التحدث بالصينية والإنجليزية معًا)، ويحتاج إلى مزيد من التحسين لتحسين سهولة الاستخدام.

طُرق

DeepSeek-R1-صفر: يستخدم DeepSeek-V3-Base كنموذج أساسي، و GRPO (تحسين السياسة النسبية للمجموعة) كأداة للتعلم التعزيزي نطاق، بدون بيانات خاضعة للإشراف لتحسين أداء النموذج في الاستدلال.

DeepSeek-R1:

  • البداية الباردة: يجمع كمية صغيرة من بيانات CoT (سلسلة الأفكار) الطويلة عالية الجودة ويضبطها بدقة DeepSeek-V3-النموذج الأساسي كممثل أولي للتعلم المعزز.
  • التعلم التعزيزي الموجه نحو الاستدلال: نفس الشيء يتم تطبيق عملية تدريب التعلم التعزيزي مثل DeepSeek-R1-Zero، ولكن مع التركيز على تعزيز قدرات التفكير لدى النموذج في مجالات مثل البرمجة والرياضيات والعلوم والمنطق. يتم تقديم مكافآت الاتساق اللغوي للتخفيف من مشكلة الاختلاط اللغوي الذي يحدث في CoT.
  • أخذ العينات المرفوضة والضبط الدقيق الخاضع للإشراف: يستخدم نقطة التفتيش المتقاربة للتعلم التعزيزي جمع بيانات الضبط الدقيق الخاضع للإشراف (SFT) للتدريب اللاحق.
  • التعلم التعزيزي لجميع السيناريوهات: تنفيذ مرحلة التعلم التعزيزي على المستوى الثاني، والتي تهدف إلى تحسين فائدة النموذج وعدم ضرره مع تحسين قدرته على التفكير.
  • تقطير المعرفة: يقوم بضبط النماذج مفتوحة المصدر Qwen و Llama بشكل مباشر باستخدام 800 ألف عينة تم جمعها بواسطة DeepSeek-R1.

الأساليب والإجراءات التفصيلية:

DeepSeek-R1-Zero: التعلم التعزيزي للنماذج الأساسية

  • خوارزمية التعلم التعزيزي: يستخدم خوارزمية تحسين السياسة النسبية للمجموعة (GRPO)، والتي لا يتطلب الناقد النموذج، يقدر خط الأساس حسب درجات المجموعة، ويقلل تكاليف التدريب.
  • نمذجة المكافأة: يستخدم نظام المكافآت المبني على القواعد، مشتمل
  • مكافأة الدقة: يقوم بتقييم ما إذا كانت الإجابة صحيحة، مثل صحة النتيجة النهائية للسؤال إجابة مسألة رياضية، ردود الفعل من المترجم لمشاكل الكود.
  • تنسيق المكافأة: يشجع النموذج على ضع عملية التفكير بين و العلامات.

قالب التدريب: قالب يحتوي على و تم تصميم العلامات لـ توجيه النموذج لإخراج عملية التفكير أولاً، ثم الإجابة النهائية.

  • عملية التطور الذاتي: تم عرض DeepSeek-R1-Zero السمات التطورية الذاتية أثناء التدريب، وكان قادرًا على تعلم استراتيجيات التفكير الأكثر تعقيدًا بشكل مستقل، مثل التأمل واستكشاف مسارات حل المشكلات المتعددة.

DeepSeek-R1: التعلم التعزيزي مع البداية الباردة

  • بداية باردة: لحل DeepSeek-R1-Zero مشكلة قابلية القراءة، يقوم DeepSeek-R1 أولاً بجمع كمية صغيرة من بيانات CoT عالية الجودة ويضبط بدقة طراز DeepSeek-V3-Base بمثابة الممثل الأولي للتعلم التعزيزي. بيانات البداية الباردة يحتوي على علامات ملخصة وردود غير ودية يتم تصفيتها.
    • الطريقة: 1) حدد بيانات COT الطويلة عالية الجودة. 2) أضف العلامات.
    • المزايا: 1) تحسين قابلية القراءة (حل مشكلة تعدد اللغات في R1-Zero أو مشكلة تنسيق Markdown). 2) يمكن للبيانات المفضلة لدى البشر والمختارة بعناية أن تستمر في تحسين الأداء على R1-Zero.
    • السؤال: لماذا نحل مشكلة قابلية القراءة؟ أليس من الممكن أن نحقق نتائج أفضل دون حلها (على سبيل المثال، تقليل طول الناتج والاستنتاج بكفاءة أكبر)؟
  • التعلم الموجه نحو الاستدلال: بناءً على نموذج البداية الباردة، عملية التعلم التعزيزي المشابهة لـ يتم تطبيق DeepSeek-R1-Zero، مع التركيز على تحسين قدرة النموذج في مهام مثل الترميز والرياضيات والاستدلال العلمي والمنطقي. لحل مشكلة اللغات المختلطة (الاستدلال متعدد اللغات), مكافآت اتساق اللغة يتم تقديمها.
    • السؤال: كيف يتم تدريب المهام ومجموعات البيانات العلمية والمنطقية؟
  • أخذ العينات المرفوضة وSFT: بعد تقارب التعلم التعزيزي الموجه بالاستدلال، يتم استخدام نقطة التفتيش التي تم الحصول عليها تم استخدام عينات الرفض لتوليد بيانات SFT جديدة، والتي يتم دمجها مع البيانات من DeepSeek-V3 لتعزيز قدرات النموذج في الكتابة ولعب الأدوار والمهام العامة.
    • غاية:
      • تبدأ هذه المرحلة بعد تتقارب عملية التعلم التعزيزي الموجه نحو الاستدلال (RL).
      • الهدف الرئيسي هو جمع بيانات الضبط الدقيق الخاضع للإشراف (SFT) للاستخدام في جولات التدريب اللاحقة.
      • على عكس بيانات البداية الباردة الأولية، والتي تركز فقط على الاستدلال، تهدف هذه المرحلة إلى توسيع قدرات النموذج لتغطية الكتابة ولعب الأدوار والمهام العامة الأخرى، وليس الاستدلال فقط.
    • جمع البيانات – بيانات الاستدلال:
      • طريقة: استخدم نقاط التفتيش التي تم الحصول عليها من مرحلة التعلم التعزيزي الموجهة للاستدلال لتوليد مسارات الاستدلال من خلال أخذ العينات الرافضة.
      • توسيع مجموعة البيانات: على عكس مرحلة التعلم التعزيزي السابقة، والتي استخدمت فقط بيانات المكافأة المستندة إلى القواعد، يتم هنا تقديم بيانات المكافأة غير المستندة إلى القواعد. في بعض الحالات، يتم استخدام نموذج المكافأة التوليدي (DeepSeek-V3) لتحديد الاستجابة.
      • تصفية البيانات: لضمان الجودة والقابلية للقراءة، تتم تصفية الناتج لإزالة:
        • سلاسل فكرية تحتوي على لغات مختلطة
        • فقرات طويلة
        • كتل الكود
      • العينة والاختيار: بالنسبة لكل مطالبة، تم إنشاء استجابات متعددة. وتم الاحتفاظ بالاستجابة "الصحيحة" فقط لمجموعة البيانات.
      • حجم مجموعة البيانات: تقريبًا 600000 عينة تدريب متعلقة بالاستدلال تم جمعها بهذه الطريقة.
    • جمع البيانات - البيانات غير الاستدلالية:
      • التغطية: الكتابة، والإجابة على الأسئلة الواقعية، والوعي الذاتي، والترجمة.
      • تذكر الورقة استخدام عملية DeepSeek-V3 وإعادة استخدام جزء من مجموعة بيانات DeepSeek-V3 SFT للتعامل مع هذه المهام غير الاستدلالية. حول 200000 عينة مستقلة عن الاستدلال تم جمعها. (ملاحظة: يتم وصف تفاصيل جمع البيانات غير الاستدلالية بمزيد من التفصيل في القسم 2.3.4)
    • استخدام البيانات المجمعة:
      • تم بعد ذلك استخدام البيانات المنطقية وغير المنطقية التي تم جمعها (ما مجموعه حوالي 800000 عينة - 600000 عينة منطقية + 200000 عينة غير منطقية) ضبط نموذج DeepSeek-V3-Base لعصرينتم بعد ذلك استخدام هذا النموذج المضبوط بدقة في مرحلة التعلم التعزيزي النهائية الموضحة في القسم 2.3.4.
    • الملخص تستخدم هذه الخطوة قدرات الاستدلال تم تعلمها من خلال التعلم المعزز لتوليد مجموعة بيانات SFT متنوعة وعالية الجودة. تعمل مجموعة البيانات هذه على تعزيز قدرات الاستدلال وتوسيع القدرات العامة لـ نموذج للتدريب في مرحلة المحاذاة والتحسين النهائية.
  • التعلم التعزيزي لجميع السيناريوهات: لمزيد من التوافق بين التفضيلات البشرية، يتم تنفيذ مرحلة ثانية من التعلم التعزيزي لتحسين فائدة النموذج وعدم ضرره.
    • بيانات الاستدلال: مثل الرياضيات أو الكود أو الاستدلال المنطقي أو الخاضعة للإشراف باستخدام أساليب تعتمد على القواعد.
    • البيانات العامة: لا تزال نماذج المكافأة تُستخدم لتوفير معلومات التفضيل للسيناريوهات المعقدة والدقيقة. كما يتم تقدير النماذج المدربة باستخدام بيانات زوجية.
    • الفائدة: التركيز فقط على نتائج الملخص النهائي، مما يقلل من التدخل في عملية الاستدلال.
    • عدم الإضرار: الإشراف على الاستجابة بأكملها لتقليل أي مخاطر.

نموذج التقطير ( التقطير ) :

  • من أجل الحصول على نموذج استدلال صغير أكثر كفاءة، تقوم الورقة بتقطير قدرة الاستدلال لـ DeepSeek-R1 في النماذج مفتوحة المصدر لسلسلة Qwen وLlama. عملية التقطير يستخدم فقط الضبط الدقيق الخاضع للإشراف (SFT) ولا يستخدم مرحلة التعلم المعزز.

الخاتمة

DeepSeek-R1-Zero:يظهر إمكانات التعلم التعزيزي الصرف في تحفيز قدرة الاستدلال في القانون، ويمكن تحقيق أداء قوي دون الاعتماد على البيانات الخاضعة للإشراف.

  • لحظة آها: جمال التعلم التعزيزي (لحظة التنوير للنموذج، حيث يخصص وقتًا أطول للتفكير في المشكلة من خلال تعلم إعادة التقييم النهج الأولي)
  • يستمر طول الإخراج في الزيادة (يستمر وقت التفكير في الزيادة)
  • تستمر الدقة في التحسن (أخذ عينات من 16 إجابة لحساب الدقة)
  • DeepSeek-R1:يعمل على تحسين أداء النموذج بشكل أكبر من خلال الجمع بين بيانات البداية الباردة والتعلم التعزيزي التكراري الدقيق، تحقيق مستوى مماثل لـ OpenAI-01-1217 في مهام مختلفة.
  • تقطير المعرفة:باستخدام DeepSeek-R1 كنموذج للمعلم، تم إنشاء 800 ألف عينة تدريب وتم ضبط العديد من النماذج الصغيرة الكثيفة. تظهر النتائج أن هذا يمكن لطريقة التقطير أن تحسن بشكل كبير من قدرة الاستدلال نماذج صغيرة.

الحدود

  • الحد 1: هناك حاجة إلى تحسين القدرة العامة لـ DeepSeek-R1. لا يزال DeepSeek-R1 أدنى من DeepSeek-V3 في المهام مثل استدعاءات الوظائف والحوار متعدد الأدوار ولعب الأدوار المعقدة وإخراج JSON.
  • الحد الثاني: مشكلة خلط اللغة. قد يواجه DeepSeek-R1 مشكلة خلط اللغة عند معالجة الاستعلامات غير الصينية وغير الإنجليزية، على سبيل المثال، الاستدلال والاستجابة باللغة الإنجليزية.
  • الحد الثالث: الحساسية الفورية. DeepSeek-R1 حساس للكلمات السريعة، والكلمات السريعة القليلة ستؤدي إلى تقليل أدائه.
  • الحد الرابع: تطبيق محدود على مهام هندسة البرمجيات. بسبب وقت التقييم الطويل، لم يتم تطبيق التعلم التعزيزي واسع النطاق بالكامل على مهام هندسة البرمجيات، كما أن التحسن في DeepSeek-R1 محدود مقارنة بـ DeepSeek-V3 في معايير هندسة البرمجيات.

منشورات مشابهة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *