
فازت DeepSeek R1 بالبطولة في اختبار معيار كتابة القصة القصيرة الإبداعية، متجاوزة بنجاح اللاعب المهيمن السابق كلود 3.5 سونيت!
الاختبار المعياري
إن الاختبار المعياري الذي صممه الباحث ليخ مازور ليس مسابقة كتابة عادية.
طُلب من كل نموذج من نماذج الذكاء الاصطناعي إكمال 500 قصة قصيرة، وكان على كل قصة أن تتضمن بذكاء 10 عناصر تم تعيينها عشوائيًا. كانت هذه مهمة كتابة مفتوحة ومليئة بالتحديات بالنسبة للذكاء الاصطناعي، والتي لم تتطلب فقط قصة كاملة، بل ضمنت أيضًا دمج جميع العناصر المعينة بشكل طبيعي
طريقة التحكيم
يستخدم هذا الاختبار المعياري نظاماً فريداً لتسجيل الدرجات: ستة من أفضل النماذج اللغوية تعمل كقضاة، حيث تقوم بتقييم جوانب مختلفة من القصة. وبعبارة أخرى، يقوم رواد صناعة الذكاء الاصطناعي بالحكم على الذكاء الاصطناعي نفسه، وهو ما يوفر بشكل عام معيار تقييم عادل ومنتظم نسبياً.
محتوى الاختبار

يوضح الرسم البياني أعلاه تحليل الارتباط بين الدرجات في اختبار الكتابة الإبداعية المعياري. DeepSeek لديه معامل ارتباط يزيد عن 0.93 مع النماذج السائدة الأخرى (Claude وGPT-4o وGemini وG Grok)، مما يشير إلى أن لديه معايير حكم متسقة للغاية مع النماذج الأخرى الأعلى عند الحكم على جودة الكتابة الإبداعية، وهو ما يؤكد بشكل غير مباشر موثوقيته في هذا الاختبار.

يوضح الرسم البياني أعلاه نتائج اختبار معيار كتابة القصة القصيرة الإبداعية. طُلب من كل نموذج ذكاء اصطناعي كتابة 500 قصة، يجب أن تحتوي كل منها على 10 عناصر عشوائية محددة. تُظهر النقاط في الرسم البياني توزيع الدرجات لكل نموذج ذكاء اصطناعي مشارك لنماذج تسجيل مختلفة (ممثلة بألوان مختلفة).
في الاختبار العمقSإيك (النقاط الزرقاء الداكنة) أداءً جيدًا، حيث تركزت معظم نقاطها في النصف العلوي من الرسم البياني وتركزت نسبيًا، مما يدل على مستوى ثابت وعالٍ من القدرة على الكتابة الإبداعية.
وقد مكنه هذا الأداء المتميز من التفوق بنجاح على البطل السابق، Claude 3.5 Sonnet، وأصبح الرائد الجديد في الاختبار القياسي.

في هذا الرسم البياني، يمثل كل صف نموذج ذكاء اصطناعي، ويمثل كل عمود بُعدًا من أبعاد التقييم (مثل التوصيف وتماسك الرسم البياني وما إلى ذلك). يقع DeepSeek في أعلى منتصف الرسم البياني، مع تدرج اللون البرتقالي والأصفر بشكل عام، مما يشير إلى أنه حقق نتائج ممتازة في معظم أبعاد التقييم. وعلى وجه الخصوص، حققت درجات عالية تقارب 8 نقاط في الأبعاد الرئيسية للتنفيذ (س 6)، والتوصيف (ت)، وتطوير الحبكة (ت ي). على الرغم من أنه قد لا يكون الأصفر الأكثر سطوعًا في الأبعاد الفردية، إلا أنه لا يعاني من أي نقاط ضعف واضحة.

كما ترى في الرسم البياني، تتوزع درجات قصة DeepSeek في الغالب بين 7 و9 نقاط، والتوزيع مركّز نسبيًا. ومن المثير للاهتمام أن خط الاتجاه أفقي تقريبًا، مما يشير إلى أن جودة قصة DeepSeek لا ترتبط ارتباطًا وثيقًا بطول القصة. بعبارة أخرى، سواء كان يكتب قصة طويلة أو قصيرة، يمكن لـ DeepSeek الحفاظ على مخرجات عالية الجودة باستمرار. وهذا يدل على أن يركز DeepSeek على الجودة أكثر من الكمية عند الإنشاء، ويمكنه الحفاظ على أداء ممتاز في قصص ذات أطوال مختلفة.
لماذا فوز DeepSeek R1?
انطلاقاً من نتائج الاختبار، كان أداء DeepSeek R1 مذهلاً:
- إمكانات تكامل القصة الشاملة: أظهر R1 مرونة وإبداعًا مذهلين عند التعامل مع مجموعات مختلفة من عناصر القصة.
- جودة إخراج مستقرة: انطلاقًا من الرسم البياني لتوزيع الدرجات، فإن R1 لم يحصل على متوسط درجات مرتفع فحسب، بل كان أداؤه مستقرًا مع تذبذب أقل.
- أداء إبداعي متميز: في هذا الاختبار المعياري، تم تصنيف القصص التي أنشأتها R1 من بين أفضل ثلاث قصص بشكل عام، مما يثبت قدرتها المتميزة في الكتابة الإبداعية.
كيف كان أداء المتسابقين الآخرين؟
وبالإضافة إلى المواجهة المثيرة بين DeepSeek R1 وClaude 3.5 Sonnet، تجدر الإشارة أيضًا إلى أداء الطرازات الأخرى:
- حققت سلسلة Gemini أداءً جيداً
- عانت سلسلة Llama 3.x قليلاً في هذا الاختبار
- لم يكن أداء o3-mini جيدًا، حيث احتل المرتبة 22

وأخيراً
أظهر لنا إنجاز DeepSeek R1 في هذا الاختبار الإمكانيات اللانهائية للذكاء الاصطناعي في مجال الإبداع. على الرغم من أن ابتكار الذكاء الاصطناعي لا يزال في طريق التحسين المستمر، إلا أن هذه النتائج جعلتنا بالفعل مليئين بالتوقعات للمستقبل.
لمن يرغب في معرفة المزيد عن تفاصيل الاختبار، يمكنك زيارة موقع GitHub الخاص بـ Lech Mazur للاطلاع على البيانات الكاملة وأمثلة لأفضل القصص. دعونا نتطلع إلى المزيد من الإنجازات في الكتابة الإبداعية للذكاء الاصطناعي معاً!