
DeepSeek R1 نے تخلیقی مختصر کہانی لکھنے کے بینچ مارک ٹیسٹ میں چیمپیئن شپ جیت لی، اور پچھلے غالب کھلاڑی Claude 3.5 Sonnet کو کامیابی سے پیچھے چھوڑ دیا!
بینچ مارک ٹیسٹ
محقق Lech Mazur کی طرف سے ڈیزائن کردہ بینچ مارک ٹیسٹ آپ کا اوسط تحریری مقابلہ نہیں ہے۔
ہر اے آئی ماڈل کو 500 مختصر کہانیاں مکمل کرنے کی ضرورت تھی، اور ہر کہانی کو چالاکی سے 10 تصادفی طور پر تفویض کردہ عناصر کو شامل کرنا تھا۔ یہ AI کے لیے ایک چیلنجنگ اوپن اینڈ تحریری کام تھا، جس کے لیے نہ صرف ایک مکمل کہانی کی ضرورت تھی، بلکہ اس بات کو بھی یقینی بنایا گیا کہ تفویض کردہ تمام عناصر قدرتی طور پر مربوط تھے۔
فیصلہ کرنے کا طریقہ
یہ بینچ مارک ٹیسٹ ایک منفرد اسکورنگ سسٹم کا استعمال کرتا ہے: چھ ٹاپ لینگوئج ماڈلز ججز کے طور پر کام کرتے ہیں، کہانی کے مختلف پہلوؤں کو اسکور کرتے ہیں۔ دوسرے لفظوں میں، AI صنعت کے رہنما خود AI کا فیصلہ کر رہے ہیں، جو مجموعی طور پر نسبتاً منصفانہ اور منظم تشخیصی معیار فراہم کرتا ہے۔
ٹیسٹ مواد

اوپر والا چارٹ تخلیقی تحریری بینچ مارک ٹیسٹ میں اسکور کرنے والوں کے باہمی تعلق کا تجزیہ دکھاتا ہے۔ DeepSeek دیگر مرکزی دھارے کے ماڈلز (کلاڈ، جی پی ٹی-4o، جیمنی اور گروک) کے ساتھ 0.93 سے زیادہ کا ارتباط کا گتانک ہے، جو اس بات کی نشاندہی کرتا ہے کہ تخلیقی تحریر کے معیار کو جانچتے وقت اس کے دوسرے اعلیٰ ماڈلز کے ساتھ فیصلہ سازی کا معیار بہت زیادہ ہے، جو بالواسطہ طور پر اس میں اس کی وشوسنییتا کی تصدیق کرتا ہے۔ ٹیسٹ

اوپر والا چارٹ تخلیقی مختصر کہانی لکھنے کے بینچ مارک ٹیسٹ کے نتائج دکھاتا ہے۔ ہر اے آئی ماڈل کو 500 کہانیاں لکھنے کی ضرورت تھی، جن میں سے ہر ایک میں 10 مخصوص بے ترتیب عناصر پر مشتمل ہونا ضروری ہے۔ چارٹ میں موجود پوائنٹس مختلف اسکورنگ ماڈلز (مختلف رنگوں سے نمائندہ) کے لیے ہر شریک AI ماڈل کے اسکور کی تقسیم کو ظاہر کرتے ہیں۔
ٹیسٹ میں، گہراایسeek (گہرے نیلے رنگ کے پوائنٹس) نے اچھی کارکردگی کا مظاہرہ کیا، اس کے زیادہ تر سکور پوائنٹس چارٹ کے اوپری نصف حصے میں مرتکز اور نسبتاً مرتکز تھے، جو کہ ایک مستحکم اور اعلیٰ سطح کی تخلیقی تحریری صلاحیت کو ظاہر کرتا ہے۔
اس شاندار کارکردگی نے اسے پچھلے چیمپئن، کلاڈ 3.5 سونیٹ کو کامیابی کے ساتھ پیچھے چھوڑنے اور نئے بینچ مارک ٹیسٹ لیڈر بننے کے قابل بنایا ہے۔

اس چارٹ میں، ہر قطار ایک AI ماڈل کی نمائندگی کرتی ہے، اور ہر کالم تشخیص کے طول و عرض کی نمائندگی کرتا ہے (جیسے کردار نگاری، پلاٹ کی ہم آہنگی وغیرہ)۔ DeepSeek مجموعی طور پر نارنجی پیلے رنگ کے ساتھ چارٹ کے اوپری وسط میں واقع ہے، جو اس بات کی نشاندہی کرتا ہے کہ اس نے زیادہ تر تشخیصی جہتوں میں بہترین نتائج حاصل کیے ہیں۔ خاص طور پر، اس نے عمل درآمد کے کلیدی جہتوں (Q6)، کردار نگاری (TA)، اور پلاٹ کی ترقی (TJ) میں تقریباً 8 پوائنٹس کے اعلی اسکور حاصل کیے ہیں۔ اگرچہ یہ انفرادی طول و عرض میں سب سے زیادہ چمکدار پیلا نہیں ہوسکتا ہے، لیکن اس میں کوئی واضح کمزوری نہیں ہے۔

جیسا کہ آپ چارٹ میں دیکھ سکتے ہیں، DeepSeek کی کہانی کے اسکور زیادہ تر 7 اور 9 پوائنٹس کے درمیان تقسیم کیے جاتے ہیں، اور تقسیم نسبتاً مرکوز ہے۔ دلچسپ بات یہ ہے کہ اس کی ٹرینڈ لائن تقریباً افقی ہے، جو اس بات کی نشاندہی کرتی ہے کہ DeepSeek کی کہانی کا معیار کہانی کی لمبائی سے گہرا تعلق نہیں ہے۔ دوسرے لفظوں میں، چاہے وہ لمبی کہانی لکھ رہی ہو یا مختصر کہانی، DeepSeek مسلسل اعلیٰ معیار کی پیداوار کو برقرار رکھ سکتا ہے۔ اس سے پتہ چلتا ہے کہ DeepSeek تخلیق کرتے وقت مقدار سے زیادہ معیار پر توجہ دیتا ہے، اور بہترین کارکردگی کو برقرار رکھ سکتا ہے۔ مختلف طوالت کی کہانیوں میں۔
کیوں کیا DeepSeek R1 جیت?
ٹیسٹ کے نتائج کو دیکھتے ہوئے، DeepSeek R1 نے حیرت انگیز کارکردگی کا مظاہرہ کیا:
- جامع کہانی کے انضمام کی صلاحیتیں۔: R1 نے کہانی کے عناصر کے مختلف امتزاج سے نمٹنے کے دوران حیرت انگیز لچک اور تخلیقی صلاحیت کا مظاہرہ کیا۔
- مستحکم آؤٹ پٹ کوالٹی: اسکور کی تقسیم کے چارٹ کو دیکھتے ہوئے، R1 کا نہ صرف ایک اعلی اوسط اسکور تھا، بلکہ کم اتار چڑھاؤ کے ساتھ ایک مستحکم کارکردگی بھی تھی۔
- شاندار تخلیقی کارکردگی: اس بینچ مارک ٹیسٹ میں، R1 کی تخلیق کردہ کہانیوں کو مجموعی طور پر سرفہرست تینوں میں درجہ دیا گیا، جو تخلیقی تحریر میں اس کی شاندار صلاحیت کو ثابت کرتا ہے۔
دوسرے مقابلہ کرنے والوں نے کیسی کارکردگی دکھائی؟
DeepSeek R1 اور Claude 3.5 Sonnet کے درمیان دلچسپ شو ڈاؤن کے علاوہ، دیگر ماڈلز کی کارکردگی بھی قابل توجہ ہے:
- جیمنی سیریز نے اچھی کارکردگی کا مظاہرہ کیا۔
- Llama 3.x سیریز نے اس ٹیسٹ میں تھوڑی جدوجہد کی۔
- o3-mini نے 22 ویں نمبر پر، اچھی کارکردگی کا مظاہرہ نہیں کیا۔

آخر میں
اس ٹیسٹ میں DeepSeek R1 کی پیش رفت نے ہمیں تخلیقی صلاحیتوں کے میدان میں AI کے لامحدود امکانات دکھائے ہیں۔ اگرچہ AI کی تخلیق اب بھی مسلسل بہتری کی راہ پر گامزن ہے، لیکن اس طرح کے نتائج نے ہمیں پہلے ہی مستقبل کی امیدوں سے بھرپور کر دیا ہے۔
ان لوگوں کے لیے جو ٹیسٹ کی تفصیلات کے بارے میں مزید جاننا چاہتے ہیں، آپ مکمل ڈیٹا اور بہترین کہانیوں کی مثالوں کے لیے Lech Mazur's GitHub ملاحظہ کر سکتے ہیں۔ آئیے ایک ساتھ مل کر AI تخلیقی تحریر میں مزید کامیابیوں کے منتظر ہیں!