احتل DeepSeek R1 المركز الأول في اختبار الكتابة الإبداعية، وكان o3 المصغر أسوأ من o1 المصغر!

فازت DeepSeek R1 بالبطولة في اختبار معيار كتابة القصة القصيرة الإبداعية، متجاوزة بنجاح اللاعب المهيمن السابق كلود 3.5 سونيت!

جدول المحتويات

الاختبار المعياري

إن الاختبار المعياري الذي صممه الباحث ليخ مازور ليس مسابقة كتابة عادية.

طُلب من كل نموذج من نماذج الذكاء الاصطناعي إكمال 500 قصة قصيرة، وكان على كل قصة أن تتضمن بذكاء 10 عناصر تم تعيينها عشوائيًا. كانت هذه مهمة كتابة مفتوحة ومليئة بالتحديات بالنسبة للذكاء الاصطناعي، والتي لم تتطلب فقط قصة كاملة، بل ضمنت أيضًا دمج جميع العناصر المعينة بشكل طبيعي

طريقة التحكيم

يستخدم هذا الاختبار المعياري نظاماً فريداً لتسجيل الدرجات: ستة من أفضل النماذج اللغوية تعمل كقضاة، حيث تقوم بتقييم جوانب مختلفة من القصة. وبعبارة أخرى، يقوم رواد صناعة الذكاء الاصطناعي بالحكم على الذكاء الاصطناعي نفسه، وهو ما يوفر بشكل عام معيار تقييم عادل ومنتظم نسبياً.

محتوى الاختبار

يوضح الرسم البياني أعلاه تحليل الارتباط بين الدرجات في اختبار الكتابة الإبداعية المعياري. DeepSeek لديه معامل ارتباط يزيد عن 0.93 مع النماذج السائدة الأخرى (Claude وGPT-4o وGemini وG Grok)، مما يشير إلى أن لديه معايير حكم متسقة للغاية مع النماذج الأخرى الأعلى عند الحكم على جودة الكتابة الإبداعية، وهو ما يؤكد بشكل غير مباشر موثوقيته في هذا الاختبار.

يوضح الرسم البياني أعلاه نتائج اختبار معيار كتابة القصة القصيرة الإبداعية. طُلب من كل نموذج ذكاء اصطناعي كتابة 500 قصة، يجب أن تحتوي كل منها على 10 عناصر عشوائية محددة. تُظهر النقاط في الرسم البياني توزيع الدرجات لكل نموذج ذكاء اصطناعي مشارك لنماذج تسجيل مختلفة (ممثلة بألوان مختلفة).

في الاختبار العمق S إيك (النقاط الزرقاء الداكنة) أداءً جيدًا، حيث تركزت معظم نقاطها في النصف العلوي من الرسم البياني وتركزت نسبيًا، مما يدل على مستوى ثابت وعالٍ من القدرة على الكتابة الإبداعية.

وقد مكنه هذا الأداء المتميز من التفوق بنجاح على البطل السابق، Claude 3.5 Sonnet، وأصبح الرائد الجديد في الاختبار القياسي.

في هذا الرسم البياني، يمثل كل صف نموذج ذكاء اصطناعي، ويمثل كل عمود بُعدًا من أبعاد التقييم (مثل التوصيف وتماسك الرسم البياني وما إلى ذلك). يقع DeepSeek في أعلى منتصف الرسم البياني، مع تدرج اللون البرتقالي والأصفر بشكل عام، مما يشير إلى أنه حقق نتائج ممتازة في معظم أبعاد التقييم. وعلى وجه الخصوص، حققت درجات عالية تقارب 8 نقاط في الأبعاد الرئيسية للتنفيذ (س 6)، والتوصيف (ت)، وتطوير الحبكة (ت ي). على الرغم من أنه قد لا يكون الأصفر الأكثر سطوعًا في الأبعاد الفردية، إلا أنه لا يعاني من أي نقاط ضعف واضحة.

كما ترى في الرسم البياني، تتوزع درجات قصة DeepSeek في الغالب بين 7 و9 نقاط، والتوزيع مركّز نسبيًا. ومن المثير للاهتمام أن خط الاتجاه أفقي تقريبًا، مما يشير إلى أن جودة قصة DeepSeek لا ترتبط ارتباطًا وثيقًا بطول القصة. بعبارة أخرى، سواء كان يكتب قصة طويلة أو قصيرة، يمكن لـ DeepSeek الحفاظ على مخرجات عالية الجودة باستمرار. وهذا يدل على أن يركز DeepSeek على الجودة أكثر من الكمية عند الإنشاء، ويمكنه الحفاظ على أداء ممتاز في قصص ذات أطوال مختلفة.

لماذا فوز DeepSeek R1?

انطلاقاً من نتائج الاختبار، كان أداء DeepSeek R1 مذهلاً:

إمكانات تكامل القصة الشاملة: أظهر R1 مرونة وإبداعًا مذهلين عند التعامل مع مجموعات مختلفة من عناصر القصة.
جودة إخراج مستقرة: انطلاقًا من الرسم البياني لتوزيع الدرجات، فإن R1 لم يحصل على متوسط درجات مرتفع فحسب، بل كان أداؤه مستقرًا مع تذبذب أقل.
أداء إبداعي متميز: في هذا الاختبار المعياري، تم تصنيف القصص التي أنشأتها R1 من بين أفضل ثلاث قصص بشكل عام، مما يثبت قدرتها المتميزة في الكتابة الإبداعية.

كيف كان أداء المتسابقين الآخرين؟

وبالإضافة إلى المواجهة المثيرة بين DeepSeek R1 وClaude 3.5 Sonnet، تجدر الإشارة أيضًا إلى أداء الطرازات الأخرى:

حققت سلسلة Gemini أداءً جيداً
عانت سلسلة Llama 3.x قليلاً في هذا الاختبار
لم يكن أداء o3-mini جيدًا، حيث احتل المرتبة 22

وأخيراً

أظهر لنا إنجاز DeepSeek R1 في هذا الاختبار الإمكانيات اللانهائية للذكاء الاصطناعي في مجال الإبداع. على الرغم من أن ابتكار الذكاء الاصطناعي لا يزال في طريق التحسين المستمر، إلا أن هذه النتائج جعلتنا بالفعل مليئين بالتوقعات للمستقبل.

لمن يرغب في معرفة المزيد عن تفاصيل الاختبار، يمكنك زيارة موقع GitHub الخاص بـ Lech Mazur للاطلاع على البيانات الكاملة وأمثلة لأفضل القصص. دعونا نتطلع إلى المزيد من الإنجازات في الكتابة الإبداعية للذكاء الاصطناعي معاً!

منشورات مشابهة

غير مصنف

تفسير ورقة DeepSeek R1 والنقاط الفنية الرئيسية

بواسطةzddeepseeker 9 فبراير 20259 فبراير 2025

1 الخلفية خلال مهرجان الربيع، جذبت DeepSeek R1 مرة أخرى اهتمامًا واسع النطاق، وحتى مقال تفسير DeepSeek V3 الذي كتبناه سابقًا أعيد بثه أيضًا وتم مناقشته كثيرًا. على الرغم من وجود العديد من التحليلات وإعادة إنتاج DeepSeek R1، فقد قررنا هنا تجميع بعض ملاحظات القراءة المقابلة. سنستخدم ثلاثة ...

غير مصنف

أخبار عاجلة! أصدر OpenAI نموذجين استدلاليين جديدين اليوم: o3-mini و o3-mini-high.

بواسطةzddeepseeker 1 فبراير 20251 فبراير 2025

سيتم إصدار o3-mini و o3-mini (عالي) اليوم. سيحصل المستخدمون العاديون أيضًا على o3-mini، وسيتمكن المستخدمون الإضافيون من استخدام o3-mini (عالي). o3-mini (عالي) أعلى بحوالي 200 نقطة من o1 على Codeforce، وأسرع من o1 وأداءه أفضل في الترميز والرياضيات، لكن التكلفة لا تزال في مستوى o1-mini....

غير مصنف

DeepSeek TOP17 أفضل البدائل: تحليل شامل (2025)

بواسطةdeepseeker 6 فبراير 20256 فبراير 2025

مقدمة في المشهد سريع التطور للذكاء الاصطناعي، برز DeepSeek كنموذج لغوي قوي. يستكشف هذا التحليل الشامل أفضل 17 بديلاً لـ DeepSeek، ويفحص ميزاتها وقدراتها وحالات استخدامها الفريدة. يركز بحثنا على كل من المنصات الدولية والصينية التي توفر تكامل DeepSeek أو قدرات مماثلة. تحليل البدائل الرئيسية 1….

غير مصنف

DeepSeek فعلتها! شركة OpenAI تعترف بخطأ المصدر المغلق، وتصبح ميزة الصدارة أقل

بواسطةzddeepseeker فبراير 2، 2025فبراير 2، 2025

بعد أن أصدرت OpenAI نموذج o3-mini، أجرى الرئيس التنفيذي للشركة سام ألتمان، ورئيس قسم الأبحاث مارك تشين، ورئيس قسم المنتجات كيفن ويل، ونائب رئيس قسم الهندسة سرينيفاس نارايانان، ورئيس قسم أبحاث واجهة برمجة التطبيقات ميشيل بوكراس، ورئيس قسم الأبحاث هونجيو رين، جلسة أسئلة وأجوبة تقنية عبر الإنترنت على موقع reddit، أحد أكبر المنتديات الشاملة في العالم. المواضيع الرئيسية...

غير مصنف

كاتي وود: إن DeepSeek يعمل فقط على تسريع عملية خفض التكاليف؛ وسوف يتغير هيكل السوق المركّز للغاية الذي يمكن مقارنته بالكساد الأعظم

بواسطةzddeepseeker 8 فبراير 20258 فبراير 2025

أبرز النقاط المنافسة مع DeepSeek مفيدة للولايات المتحدة كاثي وود: أعتقد أن هذا يُظهِر أن تكلفة الابتكار تتراجع بشكل كبير، وأن هذا الاتجاه بدأ بالفعل. على سبيل المثال، قبل DeepSeek، انخفضت تكلفة تدريب الذكاء الاصطناعي بمقدار 75% سنويًا، وانخفضت تكلفة الاستدلال بمقدار 85% إلى 1.5 تريليون دولار.

غير مصنف

تركز منتجات الذكاء الاصطناعي السائدة في العالم على التحليل وإرشادات تجربة المستخدم الشاملة (بما في ذلك DeepSeek وGPT)

بواسطةzddeepseeker 10 فبراير 202510 فبراير 2025

تحديد موضع الوظيفة وتحليل المزايا الأساسية ChatGPT (OpenAI) – المعيار العالمي للبرمجيات الشاملة الجينات التقنية ChatGPT: الذكاء الاصطناعي التوليدي القائم على سلسلة GPT من النماذج الكبيرة، مع المهارات العامة للمحادثة والاستدلال المنطقي كميزة أساسية. المعالجة متعددة اللغات: تعمل بشكل أفضل باللغة الإنجليزية، مع التحسن المستمر في اللغة الصينية؛ ولكننا نوصي باستخدام اللغة الإنجليزية...

الاختبار المعياري

طريقة التحكيم

محتوى الاختبار

لماذا فوز DeepSeek R1?

كيف كان أداء المتسابقين الآخرين؟

وأخيراً

منشورات مشابهة

اترك تعليقاً إلغاء الرد