يستخدم نموذج الاستدلال 32B 1/8 فقط من البيانات ويرتبط بـ DeepSeek-R1 من نفس الحجم!
في الآونة الأخيرة، أصدرت مؤسسات مثل جامعة ستانفورد، وجامعة كاليفورنيا في بيركلي، وجامعة واشنطن، نموذجًا مشتركًا للاستدلال على مستوى SOTA، أوبن ثينكر-32ب، كما قمنا أيضًا بتوفير ما يصل إلى 114 ألف بيانات تدريبية مفتوحة المصدر.

الصفحة الرئيسية لمشروع OpenThinker:
مجموعة بيانات الأفكار المفتوحة:
اكتشاف الفريق: باستخدام مجموعة بيانات عالية الجودة واسعة النطاق مع تعليقات DeepSeek-R1 التي تم التحقق منها (بناءً على تقطير R1)، يمكن تدريب نموذج استنتاج SOTA.
الطريقة المحددة هي قياس البيانات، والتحقق من عملية الاستدلال، وقياس النموذج.
تفوق OpenThinker-32B الناتج على نماذج Li Fei-Fei s1 وs1.1 في اختبارات معيارية متعددة في الرياضيات والترميز والعلوم، وكان قريبًا من R1-Distill-32B.
ومن الجدير بالذكر أنه مقارنة بـ R1-Distill-32B، الذي استخدم 800 ألف بيانات (بما في ذلك 600 ألف عينة استدلال)، استخدم OpenThinker-32B 114 ألف بيانات فقط لتحقيق نفس النتائج الممتازة تقريبًا.

بالإضافة إلى ذلك، قام OpenThinker-32 أيضًا بنشر جميع أوزان النماذج، ومجموعات البيانات، ورمز إنشاء البيانات، ورمز التدريب!

معالجة البيانات
قام الباحثون بتدريب OpenThinker-32B باستخدام نفس مجموعة البيانات OpenThoughts-114k التي قاموا بتدريب OpenThinker-7B عليها سابقًا.
لقد استخدموا نموذج DeepSeek-R1 لجمع عمليات التفكير ومحاولات الإجابة على مجموعة مختارة بعناية من 173000 سؤال. ثم تم نشر هذه البيانات الخام كمجموعة بيانات OpenThoughts-Unverified-173k.
الخطوة الأخيرة في العملية هي تصفية عينات البيانات المقابلة إذا فشلت عملية الاستدلال في اجتياز التحقق.
الشكل التالي يعرض العملية بأكملها بصريًا.
يقوم فريق البحث أولاً بإدخال بيانات المصدر أو مطالبات الأسئلة، والتي يمكن أن تأتي من مجالات ومنصات مختلفة، مثل BAAI/TACO، وDeepMind، وإرساليات Python، وما إلى ذلك، والتي تغطي جوانب مختلفة مثل الكود، والألغاز، والعلوم، والرياضيات.
يتم بعد ذلك تمرير هذه المدخلات المتنوعة إلى وحدة المعالجة الأساسية، DeepSeek-R1، حيث يتم تحليل البيانات ومعالجتها. يتم تقسيم الأسئلة إلى ثلاث فئات: أسئلة العلوم، والرياضيات والألغاز، والترميز.
لا تتطلب بعض النتائج التحقق وقد تكون عبارة عن تحليلات بسيطة أو مخرجات مباشرة. بالنسبة لبعض المحتوى الذي يتطلب التحقق المتعمق، يتم استخدام نموذج لغوي كبير (LLM) للحكم عليه بطريقة قابلة للمقارنة بـ GT (Ground Truth). إذا كان الأمر يتعلق برمز، يتم تنفيذ الرمز وإجراء اختبارات الوحدة لضمان صحته وفعاليته.
وأخيرا، يمكن دمج النتائج من اتجاهات مختلفة لتوليد تفكير منفتح وحلول أكثر شمولاً.

قام فريق البحث بتحديث مجموعة البيانات النهائية OpenThoughts-114k بتكوين يسمى "البيانات الوصفية" والذي يحتوي على بعض الأعمدة الإضافية المستخدمة لإنشاء مجموعة البيانات:
- مشكلة
- حل الحقيقة الأساسية
- test_cases (الكود فقط)
- starter_code (كود فقط)
- DeepSeek_الاستدلال
- DeepSeek_الحل
- اِختِصاص
- مصدر
ستجعل هذه البيانات الوصفية الإضافية استخدام هذه المجموعة من البيانات أسهل في السيناريوهات الجديدة، مثل تصفية البيانات، وتبديل النطاق، وفحوصات التحقق، وتغيير قالب عملية الاستدلال.
ستجعل هذه البيانات الوصفية الإضافية استخدام هذه المجموعة من البيانات أسهل، ويمكن القيام بذلك باستخدام سطر واحد فقط من التعليمات البرمجية، مثل التصفية، وتغيير النطاق، والتحقق من التحقق، وتغيير قالب تتبع الاستدلال.
load_dataset("open-thoughts/OpenThoughts-114k", "metadata", split="train")
يقول فريق البحث إنهم يتطلعون إلى رؤية المجتمع يستغل هذه الأسئلة والإجابات القياسية للبحث في التعلم التعزيزي (RL) على نموذج OpenThinker. وقد أثبت DeepScaleR بالفعل أن هذا النهج يعمل بشكل جيد بشكل خاص على نطاقات أصغر.
تَحَقّق
وللوصول إلى مجموعة البيانات النهائية OpenThoughts-114k، قام فريق البحث بالتحقق من الإجابات واستبعاد الاستجابات غير الصحيحة.
كما هو موضح في الجدول أدناه، فإن الاحتفاظ بالاستدلالات التي لا تجتاز عملية التحقق قد يؤثر سلبًا على الأداء، على الرغم من أن النموذج غير المتحقق لا يزال يعمل بشكل جيد مقارنة بنماذج الاستدلال 32B الأخرى.
يتمثل دور التحقق في الحفاظ على جودة تعليقات R1 مع توسيع تنوع وحجم مجموعة مطالبات التدريب. من ناحية أخرى، يمكن توسيع البيانات غير المؤكدة بسهولة أكبر وبالتالي فهي تستحق أيضًا المزيد من الاستكشاف.

بالنسبة لمشكلات الكود، نكمل التحقق من عملية الاستدلال من خلال التحقق من محاولات الإجابة مقابل حالات الاختبار الموجودة.
استنادًا إلى التحديات التي يواجهها المستخدمون أثناء تنفيذ التعليمات البرمجية، قمنا بتنفيذ إطار عمل لتنفيذ التعليمات البرمجية في Curator يتيح للمستخدمين تنفيذ التعليمات البرمجية على نطاق واسع وبشكل آمن والتحقق منها مقابل الناتج المتوقع.
بالنسبة للمسائل الرياضية، استخدم فريق البحث محكم LLM (نموذج اللغة الكبير) للتحقق، والذي يتلقى الإجابة القياسية ومحاولة حل DeepSeek-R1.
لقد وجد أن استخدام مُقيِّم LLM لتوليد البيانات بدلاً من محرك التحليل الأكثر صرامة (Math-Verify) أدى إلى معدل بيانات فعال أعلى وسمح بتدريب النماذج اللاحقة بأداء أفضل.

تمرين
استخدم فريق البحث LLaMa-Factory لضبط Qwen2.5-32B-Instruct ثلاث مرات على مجموعة البيانات OpenThoughts-114k بطول سياق يبلغ 16 كيلو بايت. يمكن العثور على تكوين التدريب الكامل على GitHub.
تم تدريب OpenThinker-32B لمدة 90 ساعة باستخدام أربع عقد 8xH100 P5 على مجموعة AWS SageMaker، بإجمالي 2880 ساعة H100.
وفي الوقت نفسه، تم تدريب OpenThinker-32B-Unverified لمدة 30 ساعة على حاسوب Leonardo العملاق باستخدام 96 عقدة 4xA100 (64 جيجابايت لكل وحدة معالجة رسومية)، مما أدى إلى تجميع 11520 ساعة A100.
تقييم
استخدم فريق البحث مكتبة التقييم مفتوحة المصدر Evalchemy لتقييم كافة النماذج.
بالنسبة لـ AIME24 و AIME25، قاموا بحساب الدقة من خلال حساب متوسط نتائج خمس عمليات تشغيل. استخدم تكوين التقييم معلمة درجة حرارة 0.7، وحدد استجابة النموذج بـ 32768 رمزًا، ولم يضف أي كلمات إضافية للنظام أو المستخدم، ولم يستخدم أي استراتيجيات فك تشفير خاصة (مثل فرض الميزانية).
عندما تم إطلاق مشروع OpenThoughts، حددوا هدفًا لإنشاء نموذج بيانات مفتوح بأداء يمكن أن يتطابق مع DeepSeek-R1-Distill-Qwen-32B.
والآن تمت إزالة هذه الفجوة تقريبًا.
وأخيرًا، يشعر فريق البحث بالحماس إزاء التقدم السريع الذي أحرزه المجتمع في بناء نماذج استنتاج البيانات المفتوحة على مدى الأسابيع القليلة الماضية، ويتطلع إلى مواصلة المضي قدمًا بناءً على رؤى كل منهما.
يوضح الإصدار مفتوح المصدر من OpenThinker-32B أن التآزر بين البيانات والتحقق وحجم النموذج هو المفتاح لتحسين قدرات الاستدلال.
لا تعمل هذه النتيجة على تعزيز تطوير نماذج الاستدلال مفتوحة المصدر فحسب، بل توفر أيضًا موارد قيمة وإلهامًا لمجتمع الذكاء الاصطناعي بأكمله.