خبر عاجل! باحث DeepSeek يكشف عبر الإنترنت:استغرق تدريب R1 أسبوعين إلى ثلاثة أسابيع فقط، وتم ملاحظة تطور قوي لـ R1 zero خلال عطلة رأس السنة الصينية
لقد لاحظنا للتو أن الباحث DeepSeek دايا قوه ردت الشركة على أسئلة مستخدمي الإنترنت حول DeepSeek R1 وخطط الشركة للمضي قدمًا. لا يمكننا إلا أن نقول إن DeepSeek R1 هي مجرد البداية، ولا يزال البحث الداخلي يتقدم بسرعة. لم يأخذ باحثو DeepSeek حتى استراحة خلال عطلة رأس السنة الصينية، وكانوا يعملون بلا كلل من أجل تقدم البحث. لدى DeepSeek بعض التحركات الكبيرة القادمة
إليكم الأمر: في الأول من فبراير، نشر دايا جو تغريدة تكشف عن الشيء الذي أثار حماسه أكثر خلال عطلة رأس السنة الصينية: مشاهدة "النمو المستمر" من منحنى الأداء R1-صفر الطراز، والشعور قوة قوية التعلم التعزيزي (RL)!
باحثة الذكاء الاصطناعي في Deepseek دايا جو تتحدث إلى مستخدمي الإنترنت
سأساعدك الآن في إعادة إنتاج محادثة ديا جو مع مستخدمي الإنترنت:
المستخدم أ @PseudoProphet: "سيدي الفاضل، أود أن أسألك إلى متى سيستمر هذا التحسن المستمر في الأداء. هل ما زال هذا في مراحله المبكرة؟ هل يبدو أن نموذج التعلم العميق لـ DeepSeek ما زال في بدايته، مثل GPT-2 في نماذج اللغة؟ أم أنه وصل إلى مرحلة أكثر نضجًا مثل GPT-3.5، وهو على وشك الوصول إلى عنق زجاجة؟"
هذا سؤال حاد للغاية، ويتعلق بشكل مباشر بإمكانات تقنية RL الخاصة بـ DeepSeek! كما أن رد Daya Guo صادق للغاية:
دايا جو: "أعتقد أننا ما زلنا في مرحلة مبكرة للغاية، وما زال أمامنا طريق طويل لنقطعه في مجال التعلم الآلي. لكنني أعتقد أننا سنشهد تقدمًا كبيرًا هذا العام".
تسليط الضوء على النقاط الرئيسية! "في وقت مبكر جدًا", "طريق طويل للاستكشاف", "تقدم كبير هذا العام"!هذه الكلمات الرئيسية مليئة بالمعلومات. وهذا يعني أن DeepSeek يعتقد أنه لا يزال لديه الكثير من المجال للتحسين في مجال التعلم الآلي، وقد تكون النتائج الحالية لـ R1 مجرد قمة جبل الجليد، لذا فإن المستقبل واعد!
وبعد ذلك مباشرة، طرح أحد مستخدمي الإنترنت @kaush_trip (Cheeku Tripathi) سؤالاً أكثر احترافية يتعلق مباشرة بجوهر قدرات النموذج:
المستخدم B @kaush_trip: "بناءً على أداء R1-Zero، كيف تقيم ما إذا كان النموذج يتمتع بالفعل بـ القدرة على التعميمأو ما إذا كان الأمر مجرد يحفظ انتقالات الحالة والمكافآت"؟"
هذا السؤال مباشر للغاية! ففي النهاية، تبدو العديد من النماذج قوية للغاية، ولكنها في الواقع مجرد "تعلم عن ظهر قلب" من بيانات التدريب، وسوف تفشل في بيئة مختلفة. هل DeepSeek R1 حقًا على المستوى المطلوب؟
ديا جو: "نحن نستخدم معيارًا للمجالات التي لا يغطيها موجه التعلم المعزز لتقييم القدرة على التعميم. في الوقت الحاضر، يبدو أن لديه القدرة على التعميم."
العبارة "المناطق التي لا يغطيها موجه التعلم المعزز" هي المفتاح! وهذا يعني أن DeepSeek لا "يغش" التقييم ببيانات التدريب، ولكن يتم اختباره باستخدام سيناريوهات جديدة لا يمكن للنموذج أن يستوعبها. لم يرى قط من قبل، وهو ما يمكن أن يعكس حقًا مستوى التعميم للنموذج. كما أن استخدام دايا جو للصيغة الصارمة "يبدو أن لديها" يجعلها أكثر واقعية ومصداقية
بعد ذلك، بدأ أحد مستخدمي الإنترنت الذي يحمل معرف @teortaxesTex، وهو من المعجبين الكبار بـ DeepSeek (حتى أن تعليقه تضمن عبارة "فريق تشجيع الحيتان DeepSeek")، بالتقرير الفني لـ DeepSeek V3 وطرح سؤالاً حول نموذج وقت التدريب:
المستخدم C @teortaxesTex: "إذا لم يكن الأمر سرًا: كم من الوقت استغرق تدريب التعلم الآلي هذه المرة؟ يبدو الأمر وكأنك حصلت بالفعل على R1 أو على الأقل R1-Zero منذ 10 ديسمبر، لأن التقرير الفني للإصدار 3 يذكر أن نموذج V2.5 استخدم تقطير المعرفة R1، وأن درجة V2.5-1210 هي نفس درجة النموذج الحالي. هل هذا استمرار لهذا التدريب؟"
يتمتع هذا المستخدم بقدرات مذهلة على الملاحظة! فقد تمكن من استخلاص العديد من التفاصيل من التقرير الفني. كما شرح دايا جو بصبر العملية التكرارية للنموذج:
ديا جو: "بدأت معلمات R1-Zero وR1 في 660B في العمل بعد إصدار V3 فقط، واستغرق التدريب حوالي 2-3 أسابيع. نموذج R1 الذي ذكرناه من قبل (كما هو الحال في التقرير الفني لـ V3) هو في الواقع R1-Lite أو R1-Lite-Zero."
هذا كل شيء! إن R1-Zero وR1 اللذان نراهما الآن هما "إصداران جديدان ومُحدَّثان"، أما سلسلة R1-Lite السابقة فهي إصدارات ثانوية. ويبدو أن DeepSeek قد كررت بهدوء وقامت بتحديث العديد من الإصدارات خلف الكواليس
فيما يتعلق بسرعة التدريب، نقل مستخدمو الإنترنت @jiayi_pirate (Jiayi Pan) ومستخدم الإنترنت B @kaush_trip "استجوابًا روحيًا":
المستخدم D @jiayi_pirate: "10000 خطوة RL في 3 أسابيع، كل خطوة من خطوات انتشار التدرج (grpo) تستغرق حوالي 3 دقائق 🤔"
المستخدم B @kaush_trip: "إذا استغرقت كل خطوة من خطوات انتشار التدرج (grpo) حوالي 3 دقائق، فهذا يعني حوالي 5 خطوات في الساعة، أي 120 خطوة في اليوم، وهو أمر بطيء للغاية بالفعل."
هذا حساب دقيق حقًا! وفقًا لحسابات مستخدم الإنترنت، فإن سرعة تدريب DeepSeek R1 ليست سريعة حقًا. يُظهر هذا أيضًا أن تكلفة التدريب واستثمار الوقت لمثل هذا النموذج عالي الأداء من التعلم المعزز ضخمان. يبدو أن "العمل البطيء ينتج عملاً جيدًا" طريقة مناسبة جدًا لوصف تدريب نموذج الذكاء الاصطناعي
أخيرًا، طرح أحد مستخدمي الإنترنت يُدعى @davikrehalt (آندي جيانج) سؤالاً من منظور تطبيق أكثر تطورًا:
المستخدم E @davikrehalt: "هل حاولت استخدام التعلم التعزيزي للقيام بذلك؟ دليل رسمي على البيئة"بدلاً من مجرد الإجابة على الأسئلة؟ سيكون من الرائع أن يتمكن نموذج مفتوح المصدر من الفوز بالميدالية الذهبية في IMO (أولمبياد الرياضيات الدولي) هذا العام! (والمزيد من الآمال!)"
برهان رسمي! ميدالية ذهبية في رأيي! هذا المستخدم طموح للغاية! ومع ذلك، فإن تطبيق الذكاء الاصطناعي في مجال البرهان الرياضي المتشدد هو بالفعل الاتجاه المستقبلي. ومرة أخرى، كانت إجابة ديا جو مفاجئة:
ديا جو: "نحاول أيضًا تطبيق R1 على بيئات الإثبات الرسمية مثل Lean. ونأمل في إصدار نماذج أفضل للمجتمع قريبًا."
من كلام دايا جو، يبدو أنهم أحرزوا بالفعل تقدماً في هذا المجال، وقد يكون هناك نماذج أكثر إثارة للإعجاب يتم إصدارها في المستقبل!
في الختام
ومن الممكن استخلاص ثلاث إشارات رئيسية من رد دايا جو:
التموضع الفني: لا يزال التعلم الآلي في مراحله المبكرة، وتحسينات الأداء بعيدة كل البعد عن الوصول إلى حدودها؛
منطق التحقق: القدرة على التعميم للاختبار عبر النطاقات، ورفض "تخمينات الذاكرة"
حدود التطبيق: من نماذج اللغة إلى البراهين الرياضية، يتجه التعلم التعزيزي نحو الاستدلال من الدرجة العليا