إن طراز DeepSeek R1 تم تحديث إصدار DeepSeek-R1-0528. عند دخولك إلى صفحة أو تطبيق DeepSeek، فعّل ميزة "التفكير العميق" في نافذة الحوار لتجربة أحدث إصدار.

تم تحميل أوزان النموذج DeepSeek-R1-0528 إلى HuggingFace

على مدار الأشهر الأربعة الماضية، شهد DeepSeek-R1 تطورًا هائلًا، محققًا قدرات برمجة غير مسبوقة وأوقات تفكير أطول بكثير. وبينما قد لا يكون DeepSeek-R2 كما كان الجميع يتوقعون، فإن التحسينات في طراز DeepSeek-R1-0528 كبيرة.

وفقًا للتقارير، تم تدريب النموذج الجديد على DeepSeek-V3-0324 (مع معلمات 660B).

دعونا أولاً نلقي نظرة سريعة على التحديثات الرئيسية في هذا الإصدار عبر جدول

بُعد القدرةdeepseek-R1ديب سيك-R1-0528
أقصى سياق64 كيلو بايت (واجهة برمجة التطبيقات)128 كيلو بايت (API) أكثر من ذلك
توليد الكودliveCodeBench إغلاق openai O1قريب من O3
عمق التفكيرتتطلب الأسئلة المعقدة مطالبات مجزأة.يدعم 30-60 دقيقة من التفكير العميق
طبيعية اللغةطويلة إلى حد ماهيكل مضغوط، كتابة مشابهة لـ O3
تكلفة الاستخداممفتوح المصدر أو API$0.5/Mمفتوح المصدر أو API$0.5/M

تعزيز قدرات التفكير العميق

لا يزال DeepSeek-R1-0528 يستخدم نموذج DeepSeek V3 الأساسي الذي تم إصداره في ديسمبر 2024 كأساس له، ولكن أثناء التدريب اللاحق، تم استثمار المزيد من قوة الحوسبة، مما أدى إلى تعزيز عمق التفكير وقدرات الاستدلال في النموذج بشكل كبير.

حقق نموذج R1 المحدث أداءً من الدرجة الأولى بين جميع النماذج المحلية في تقييمات معيارية متعددة، بما في ذلك الرياضيات والبرمجة والمنطق العام، وأصبح أداؤه الإجمالي الآن على قدم المساواة مع النماذج الدولية الأخرى من الدرجة الأولى مثل o3 وGemini-2.5-Pro.

  • قدرات الرياضيات والبرمجة: في مسابقة الرياضيات AIME 2025، تحسنت الدقة من 70% في الإصدار السابق إلى 87.5%؛ قدرات توليد التعليمات البرمجية في اختبار معيار LiveCodeBench تكاد تكون على قدم المساواة مع نموذج OpenAI's o3-high، حيث بلغ تحقيق درجة pass@1 73.3%.

تظهر اختبارات المستخدم أن DeepSeek-R1 الجديد مذهل بكل بساطة في البرمجة!

قام خبير الذكاء الاصطناعي "karminski-dentist" باختبار DeepSeek-R1-0528 و Claude 4 Sonnet باستخدام نفس الموجه ووجد أن:

سواء كان الأمر يتعلق بالانعكاس المنتشر للضوء على الحائط، أو اتجاه حركة الكرة بعد الاصطدام، أو الجاذبية الجمالية للوحة التحكم، فإن R1 يتفوق بوضوح على المنافسة.

قام المستخدم حيدر ببناء نظام تقييم كلمات للنموذج. درس R1 المهمة بإيجاز، وأنتج فورًا ملفين - أحدهما للترميز والآخر لاختبار العمل - وقد عملا بسلاسة من المحاولة الأولى.

سابقًا، كان o3 النموذج الوحيد القادر على إنجاز هذه المهمة. الآن، يُعد R1 بلا شك النموذج الأمثل لهذه المهمة.

لاحظ أن أداء R1 رائع للغاية لأن الملفين اللذين يعيدهما يعملان دون أي أخطاء في المحاولة الأولى، دون أي تحرير أو إعادة محاولة، وهو أمر نادر للغاية.

في السابق، كانت معظم النماذج إما تنتهي في حالات حافة، أو تزيد من تعقيد الحل، أو تفتقر إلى تغطية اختبار كافية.

  • عمق الاستدلال: تم تمديد وقت التفكير في المهمة الواحدة إلى ما بين 30 إلى 60 دقيقة، مع تعزيز قدرات حل المشكلات المعقدة بشكل كبير (على سبيل المثال، محاكاة الفيزياء، والألغاز المنطقية متعددة الخطوات).

أصبحت ميزة التفكير الأطول من أكثر الميزات تداولاً على الإنترنت. أفاد بعض المستخدمين أن وقت تفكير R1 تجاوز 25 دقيقة في الاختبارات الواقعية.

بالإضافة إلى ذلك، يبدو أن هذا هو النموذج الوحيد القادر على الإجابة بشكل صحيح على السؤال "ما هو 9.9 ناقص 9.11؟"

حقق DeepSeek-R1-0528 أداءً ممتازًا على جميع مجموعات بيانات التقييم

مقارنةً بالإصدار السابق من R1، يُظهر النموذج الجديد تحسينات ملحوظة في مهام التفكير المعقدة. على سبيل المثال، في اختبار AIME 2025، ارتفع معدل دقة النموذج الجديد من 70% إلى 87.5%.

ويرجع هذا التحسن إلى زيادة عمق التفكير في النموذج: ففي مجموعة اختبار AIME 2025، استخدم النموذج القديم متوسط 12 ألف رمز لكل سؤال، بينما استخدم النموذج الجديد متوسط 23 ألف رمز لكل سؤال، مما يشير إلى تفكير أكثر تفصيلاً وعمقاً في عملية حل المشكلات.

بالإضافة إلى ذلك، قام فريق deepseek بتقطير سلسلة المنطق من DeepSeek-R1-0528 وضبط قاعدة Qwen3-8B، مما أدى إلى DeepSeek-R1-0528-Qwen3-8B.

احتل هذا النموذج 8B المرتبة الثانية بعد DeepSeek-R1-0528 في اختبار الرياضيات AIME 2024، متفوقًا على Qwen3-8B (+10.0%) ومطابقًا لـ Qwen3-235B.

ستكون لسلاسل الاستدلال DeepSeek-R1-0528 آثار كبيرة على البحث الأكاديمي حول نماذج الاستدلال والتطوير الصناعي للنماذج صغيرة الحجم.

أشاد بعض مستخدمي الإنترنت بـ DeepSeek-R1 لقدرته على تصحيح سلاسل التفكير مثل o3 وبناء عوالم إبداعية مثل Claude.

ومن المهم أن نلاحظ أن DeepSeek هو نموذج مفتوح المصدر، مما يمثل انتصارا كبيرا للنماذج مفتوحة المصدر.

نتائج مقارنة AIME 2024 للنماذج مفتوحة المصدر مثل DeepSeek-R1-0528-Qwen3-8B

تحديثات القدرات الأخرى

  • تحسين الهلوسة: حسّن الإصدار الجديد من DeepSeek R1 أداءه في معالجة مشاكل "الهلوسة". مقارنةً بالإصدار السابق، يُحقق النموذج المُحدّث انخفاضًا في معدلات الهلوسة بنسبة 45-50% في مهام مثل إعادة الكتابة والتنقيح والتلخيص وفهم المقروء، مما يُقدم نتائج أكثر دقة وموثوقية.
  • الكتابة الإبداعية: استنادًا إلى إصدار R1 السابق، تم تحسين نموذج R1 المحدث بشكل أكبر لأنماط كتابة المقالات والروايات والنثر، مما يمكّنه من إنشاء أعمال أطول وأكثر اكتمالاً من الناحية البنيوية مع تقديم أسلوب كتابة يتماشى بشكل أكبر مع التفضيلات البشرية.
  • استدعاء الأدوات: يدعم DeepSeek-R1-0528 استدعاء الأدوات (لا يدعم استدعاء الأدوات في التفكير). تبلغ درجات تقييم Tau-Bench للنموذج الحالي 53.5% لشركات الطيران و63.9% لتجارة التجزئة، وهي درجات قريبة من OpenAI عند مستوى 01-high، لكنها لا تزال أقل من مستوى 03-High وClaude 4 Sonnet.

يُظهر المثال ملخصًا لمقالة ويب مُولّدًا باستخدام خاصية استدعاء الأداة DeepSeek-R1-0528 عبر LobeChat. بالإضافة إلى ذلك، تم تحديث DeepSeek-R1-0528 وتحسينه في مجالات مثل إنشاء الشيفرة البرمجية الأمامية ولعب الأدوار.

يُظهر المثال تطبيق بطاقة كلمات حديث وبسيط تم تطويره باستخدام HTML/CSS/JavaScript عن طريق استدعاء DeepSeek-R1-0528 على صفحة ويب.

أهم النقاط الرئيسية في تحديث DeepSeek-R1-0528

  • قدرات التفكير العميق قابلة للمقارنة بنماذج جوجل
  • تحسين إنشاء النص: أكثر طبيعية وأفضل تنسيقًا
  • أسلوب تفكير فريد: ليس أسرع فحسب، بل أكثر صرامة أيضًا
  • دعم التفكير طويل الأمد: يمكن أن يصل وقت معالجة المهمة الواحدة إلى 30-60 دقيقة

لقد اختبرنا إمكانيات الإصدار الجديد من DeepSeek-R1. ورغم أنه تحديث "نسخة ثانوية"، فقد تم تحسين أدائه بشكل ملحوظ.

من حيث إمكانيات البرمجة، يبدو أنه يتفوق على Claude 4 وGemini 2.5 Pro أو يُضاهيهما. جميع التعليمات جاهزة للاستخدام مرة واحدة فقط، ولا تتطلب أي تعديلات! ويمكن تشغيله مباشرةً في متصفح الويب لعرض إمكانياته.

يمكنك أن تشعر بوضوح أن عملية التفكير في الإصدار الجديد DeepSeek-R1 أصبحت أكثر استقرارًا.

يمكنك طرح أي سؤال ترغب في إجابته على deepseek-R1، حتى لو كان سؤالك غير منطقي بعض الشيء، فسيظل يفكر مليًا ويرتب المنطق. نوصي بشدة بتجربة أحدث طراز من deepseek-R1.

معلومات تحديث واجهة برمجة التطبيقات

تم تحديث واجهة برمجة التطبيقات (API)، ولكن بقيت الواجهة وطرق الاستدعاء دون تغيير. لا تزال واجهة برمجة التطبيقات R1 الجديدة تدعم عرض عملية التفكير في النموذج، كما تدعم الآن استدعاء الدوال وإخراج Json.

قام فريق deepseek بتعديل معنى معلمة max_tokens في واجهة برمجة التطبيقات R1 الجديدة: تحد هذه المعلمة الآن من الطول الإجمالي لمخرجات النموذج الفردية (بما في ذلك عملية التفكير)، بقيمة افتراضية 32 كيلوبايت وحد أقصى 64 كيلوبايت. يُنصح مستخدمو واجهة برمجة التطبيقات بتعديل معلمة max_tokens فورًا لتجنب اقتطاع المخرجات قبل أوانها.

للحصول على تعليمات مفصلة حول استخدام طراز R1، يرجى الرجوع إلى دليل واجهة برمجة التطبيقات deepseek R1:

بعد تحديث R1 هذا، سيبقى طول سياق النموذج على الموقع الرسمي والبرنامج المصغر والتطبيق وواجهة برمجة التطبيقات 64 كيلوبايت. إذا احتاج المستخدمون إلى طول سياق أطول، فيمكنهم استخدام الإصدار مفتوح المصدر من نموذج R1-0528 بطول سياق 128 كيلوبايت عبر منصات خارجية أخرى.

المصدر المفتوح

يستخدم DeepSeek-R1-0528 نفس النموذج الأساسي مثل DeepSeek-R1 السابق، مع التحسينات التي أجريت فقط على أساليب ما بعد التدريب.

عند النشر الخاص، يلزم تحديث نقطة التفتيش وملف tokenizer_config.json (التغييرات المتعلقة باستدعاءات الأدوات) فقط. معلمات النموذج هي 685 بايت (منها 14 بايت لطبقة MTP)، ويبلغ طول سياق الإصدار مفتوح المصدر 128 كيلوبايت (64 كيلوبايت مخصصة للويب والتطبيق وواجهة برمجة التطبيقات).

منشورات مشابهة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *