DeepSeek R1 تخلیقی تحریری امتحان میں پہلے آیا، اور o3 mini o1 mini سے بھی بدتر تھا!

DeepSeek R1 نے تخلیقی مختصر کہانی لکھنے کے بینچ مارک ٹیسٹ میں چیمپیئن شپ جیت لی، اور پچھلے غالب کھلاڑی Claude 3.5 Sonnet کو کامیابی سے پیچھے چھوڑ دیا!

مندرجات کا جدول

بینچ مارک ٹیسٹ

محقق Lech Mazur کی طرف سے ڈیزائن کردہ بینچ مارک ٹیسٹ آپ کا اوسط تحریری مقابلہ نہیں ہے۔

ہر اے آئی ماڈل کو 500 مختصر کہانیاں مکمل کرنے کی ضرورت تھی، اور ہر کہانی کو چالاکی سے 10 تصادفی طور پر تفویض کردہ عناصر کو شامل کرنا تھا۔ یہ AI کے لیے ایک چیلنجنگ اوپن اینڈ تحریری کام تھا، جس کے لیے نہ صرف ایک مکمل کہانی کی ضرورت تھی، بلکہ اس بات کو بھی یقینی بنایا گیا کہ تفویض کردہ تمام عناصر قدرتی طور پر مربوط تھے۔

فیصلہ کرنے کا طریقہ

یہ بینچ مارک ٹیسٹ ایک منفرد اسکورنگ سسٹم کا استعمال کرتا ہے: چھ ٹاپ لینگوئج ماڈلز ججز کے طور پر کام کرتے ہیں، کہانی کے مختلف پہلوؤں کو اسکور کرتے ہیں۔ دوسرے لفظوں میں، AI صنعت کے رہنما خود AI کا فیصلہ کر رہے ہیں، جو مجموعی طور پر نسبتاً منصفانہ اور منظم تشخیصی معیار فراہم کرتا ہے۔

ٹیسٹ مواد

اوپر والا چارٹ تخلیقی تحریری بینچ مارک ٹیسٹ میں اسکور کرنے والوں کے باہمی تعلق کا تجزیہ دکھاتا ہے۔ DeepSeek دیگر مرکزی دھارے کے ماڈلز (کلاڈ، جی پی ٹی-4o، جیمنی اور گروک) کے ساتھ 0.93 سے زیادہ کا ارتباط کا گتانک ہے، جو اس بات کی نشاندہی کرتا ہے کہ تخلیقی تحریر کے معیار کو جانچتے وقت اس کے دوسرے اعلیٰ ماڈلز کے ساتھ فیصلہ سازی کا معیار بہت زیادہ ہے، جو بالواسطہ طور پر اس میں اس کی وشوسنییتا کی تصدیق کرتا ہے۔ ٹیسٹ

اوپر والا چارٹ تخلیقی مختصر کہانی لکھنے کے بینچ مارک ٹیسٹ کے نتائج دکھاتا ہے۔ ہر اے آئی ماڈل کو 500 کہانیاں لکھنے کی ضرورت تھی، جن میں سے ہر ایک میں 10 مخصوص بے ترتیب عناصر پر مشتمل ہونا ضروری ہے۔ چارٹ میں موجود پوائنٹس مختلف اسکورنگ ماڈلز (مختلف رنگوں سے نمائندہ) کے لیے ہر شریک AI ماڈل کے اسکور کی تقسیم کو ظاہر کرتے ہیں۔

ٹیسٹ میں، گہرا ایس eek (گہرے نیلے رنگ کے پوائنٹس) نے اچھی کارکردگی کا مظاہرہ کیا، اس کے زیادہ تر سکور پوائنٹس چارٹ کے اوپری نصف حصے میں مرتکز اور نسبتاً مرتکز تھے، جو کہ ایک مستحکم اور اعلیٰ سطح کی تخلیقی تحریری صلاحیت کو ظاہر کرتا ہے۔

اس شاندار کارکردگی نے اسے پچھلے چیمپئن، کلاڈ 3.5 سونیٹ کو کامیابی کے ساتھ پیچھے چھوڑنے اور نئے بینچ مارک ٹیسٹ لیڈر بننے کے قابل بنایا ہے۔

اس چارٹ میں، ہر قطار ایک AI ماڈل کی نمائندگی کرتی ہے، اور ہر کالم تشخیص کے طول و عرض کی نمائندگی کرتا ہے (جیسے کردار نگاری، پلاٹ کی ہم آہنگی وغیرہ)۔ DeepSeek مجموعی طور پر نارنجی پیلے رنگ کے ساتھ چارٹ کے اوپری وسط میں واقع ہے، جو اس بات کی نشاندہی کرتا ہے کہ اس نے زیادہ تر تشخیصی جہتوں میں بہترین نتائج حاصل کیے ہیں۔ خاص طور پر، اس نے عمل درآمد کے کلیدی جہتوں (Q6)، کردار نگاری (TA)، اور پلاٹ کی ترقی (TJ) میں تقریباً 8 پوائنٹس کے اعلی اسکور حاصل کیے ہیں۔ اگرچہ یہ انفرادی طول و عرض میں سب سے زیادہ چمکدار پیلا نہیں ہوسکتا ہے، لیکن اس میں کوئی واضح کمزوری نہیں ہے۔

جیسا کہ آپ چارٹ میں دیکھ سکتے ہیں، DeepSeek کی کہانی کے اسکور زیادہ تر 7 اور 9 پوائنٹس کے درمیان تقسیم کیے جاتے ہیں، اور تقسیم نسبتاً مرکوز ہے۔ دلچسپ بات یہ ہے کہ اس کی ٹرینڈ لائن تقریباً افقی ہے، جو اس بات کی نشاندہی کرتی ہے کہ DeepSeek کی کہانی کا معیار کہانی کی لمبائی سے گہرا تعلق نہیں ہے۔ دوسرے لفظوں میں، چاہے وہ لمبی کہانی لکھ رہی ہو یا مختصر کہانی، DeepSeek مسلسل اعلیٰ معیار کی پیداوار کو برقرار رکھ سکتا ہے۔ اس سے پتہ چلتا ہے کہ DeepSeek تخلیق کرتے وقت مقدار سے زیادہ معیار پر توجہ دیتا ہے، اور بہترین کارکردگی کو برقرار رکھ سکتا ہے۔ مختلف طوالت کی کہانیوں میں۔

کیوں کیا DeepSeek R1 جیت?

ٹیسٹ کے نتائج کو دیکھتے ہوئے، DeepSeek R1 نے حیرت انگیز کارکردگی کا مظاہرہ کیا:

جامع کہانی کے انضمام کی صلاحیتیں۔: R1 نے کہانی کے عناصر کے مختلف امتزاج سے نمٹنے کے دوران حیرت انگیز لچک اور تخلیقی صلاحیت کا مظاہرہ کیا۔
مستحکم آؤٹ پٹ کوالٹی: اسکور کی تقسیم کے چارٹ کو دیکھتے ہوئے، R1 کا نہ صرف ایک اعلی اوسط اسکور تھا، بلکہ کم اتار چڑھاؤ کے ساتھ ایک مستحکم کارکردگی بھی تھی۔
شاندار تخلیقی کارکردگی: اس بینچ مارک ٹیسٹ میں، R1 کی تخلیق کردہ کہانیوں کو مجموعی طور پر سرفہرست تینوں میں درجہ دیا گیا، جو تخلیقی تحریر میں اس کی شاندار صلاحیت کو ثابت کرتا ہے۔

دوسرے مقابلہ کرنے والوں نے کیسی کارکردگی دکھائی؟

DeepSeek R1 اور Claude 3.5 Sonnet کے درمیان دلچسپ شو ڈاؤن کے علاوہ، دیگر ماڈلز کی کارکردگی بھی قابل توجہ ہے:

جیمنی سیریز نے اچھی کارکردگی کا مظاہرہ کیا۔
Llama 3.x سیریز نے اس ٹیسٹ میں تھوڑی جدوجہد کی۔
o3-mini نے 22 ویں نمبر پر، اچھی کارکردگی کا مظاہرہ نہیں کیا۔

آخر میں

اس ٹیسٹ میں DeepSeek R1 کی پیش رفت نے ہمیں تخلیقی صلاحیتوں کے میدان میں AI کے لامحدود امکانات دکھائے ہیں۔ اگرچہ AI کی تخلیق اب بھی مسلسل بہتری کی راہ پر گامزن ہے، لیکن اس طرح کے نتائج نے ہمیں پہلے ہی مستقبل کی امیدوں سے بھرپور کر دیا ہے۔

ان لوگوں کے لیے جو ٹیسٹ کی تفصیلات کے بارے میں مزید جاننا چاہتے ہیں، آپ مکمل ڈیٹا اور بہترین کہانیوں کی مثالوں کے لیے Lech Mazur's GitHub ملاحظہ کر سکتے ہیں۔ آئیے ایک ساتھ مل کر AI تخلیقی تحریر میں مزید کامیابیوں کے منتظر ہیں!

ملتے جلتے پوسٹس

غیر زمرہ بندی

پہلی لانچ! SiliconFlow X Huawei Cloud مشترکہ طور پر Ascend Cloud پر مبنی DeepSeek R1 اور V3 انفرنس سروسز کا آغاز کرتا ہے!

کی طرف سےzddeepseeker یکم فروری 2025یکم فروری 2025

DeepSeek-R1 اور DeepSeek-V3 نے اپنے اوپن سورس کے آغاز کے بعد سے عالمی سطح پر سنسنی پھیلائی ہے۔ وہ DeepSeek ٹیم کی طرف سے پوری انسانیت کے لیے ایک تحفہ ہیں، اور ہم ان کی کامیابی پر خلوص دل سے خوش ہیں۔ Silicon Mobility اور Huawei Cloud ٹیموں کی دنوں کی محنت کے بعد، آج ہم چینی صارفین کو بھی چینی…

غیر زمرہ بندی

گوگل نے ایک ساتھ تین نئے ماڈلز جاری کیے ہیں: Gemini-2.0-Pro مفت ہے، اس کا شاندار سکور ہے اور پہلے نمبر پر ہے، اور پیچیدہ اشارے کوڈنگ اور پروسیسنگ کے لیے موزوں ہے!

کی طرف سےzddeepseeker 8 فروری 20258 فروری 2025

جیمنی 2.0 کی کہانی میں تیزی آرہی ہے۔ دسمبر میں فلیش تھنکنگ تجرباتی ورژن نے ڈویلپرز کو کم تاخیر اور اعلی کارکردگی کے ساتھ کام کرنے والا ماڈل لایا۔ اس سال کے شروع میں، 2.0 فلیش تھنکنگ تجرباتی کو گوگل اے آئی اسٹوڈیو میں اپ ڈیٹ کیا گیا تھا تاکہ فلیش کی رفتار کو بہتر انداز کی صلاحیتوں کے ساتھ ملا کر کارکردگی کو مزید بہتر بنایا جا سکے۔ گزشتہ ہفتے،…

غیر زمرہ بندی

بڑی زبان کے ماڈل کے انتظام کے نمونے جیسے DeepSeek: Cherry Studio، Chatbox، AnythingLLM، آپ کی کارکردگی کو تیز کرنے والا کون ہے؟

کی طرف سےzddeepseeker 11 فروری 202511 فروری 2025

بہت سے لوگوں نے پہلے ہی ڈیپ سیک لارج لینگویج ماڈلز کو مقامی طور پر تعینات کرنا اور استعمال کرنا شروع کر دیا ہے، چیٹ باکس کو بطور ویژولائزیشن ٹول استعمال کرتے ہوئے یہ مضمون دو دیگر AI لارج لینگویج ماڈل مینجمنٹ اور ویژولائزیشن آرٹیفیکٹس کو متعارف کرانا جاری رکھے گا، اور ان تینوں کا تفصیل سے موازنہ کرے گا تاکہ آپ کو AI Large Language Models کو زیادہ موثر طریقے سے استعمال کرنے میں مدد ملے۔ 2025 میں،…

غیر زمرہ بندی

ٹاپ فور ماڈلز کا شو ڈاؤن! ایک جائزہ دکھاتا ہے کہ ڈیپ سیک R1 کتنا طاقتور ہے۔

کی طرف سےzddeepseeker یکم جون 2025یکم جون 2025

پچھلے کچھ دنوں میں، Deepseek-R1 0528 کو باضابطہ طور پر اوپن سورس کیا گیا ہے۔ LiveCodeBench پر، اس کی کارکردگی تقریباً OpenAI کے o3 (اعلی) کے برابر ہے۔ Aider کے کثیر زبان کے بینچ مارک ٹیسٹ میں، یہ Claude Opus کے خلاف اپنی پوزیشن رکھتا ہے۔ جب اسے آفیشل ویب سائٹ پر لانچ کیا گیا تو ہم نے جلدی سے اس کی فرنٹ اینڈ صلاحیتوں کا تجربہ کیا اور انہیں غیر معمولی پایا…

غیر زمرہ بندی

AI دائرے میں، DeepSeek R1 نے جسمانی ٹیسٹوں میں o1 اور Claude کو مستقل طور پر پیچھے چھوڑ دیا ہے، اور ہم RL کے سنہری دور میں داخل ہو چکے ہیں۔

کی طرف سےzddeepseeker یکم فروری 2025یکم فروری 2025

ہم میں سے کسی کو یہ توقع نہیں تھی کہ AI فیلڈ میں 2025 کا آغاز اس طرح ہوگا۔ DeepSeek R1 واقعی حیرت انگیز ہے! حال ہی میں، "پراسرار مشرقی طاقت" DeepSeek سلیکون ویلی کو "مشکل کنٹرول" کر رہا ہے۔ میں نے R1 سے پائتھاگورین تھیوریم کی تفصیل سے وضاحت کرنے کو کہا۔ یہ سب AI نے 30 سیکنڈ سے بھی کم وقت میں بغیر کسی…

غیر زمرہ بندی

DeepSeek-R1-0528 اپ ڈیٹ: گہری سوچ، مضبوط استدلال

کی طرف سےzddeepseeker مئی 29، 2025مئی 29، 2025

DeepSeek R1 ماڈل میں ایک معمولی ورژن اپ گریڈ کیا گیا ہے، موجودہ ورژن DeepSeek-R1-0528 ہے۔ جب آپ DeepSeek ویب پیج یا ایپ میں داخل ہوتے ہیں، تو تازہ ترین ورژن کا تجربہ کرنے کے لیے ڈائیلاگ انٹرفیس میں "ڈیپ تھنکنگ" فیچر کو فعال کریں۔ DeepSeek-R1-0528 ماڈل کے وزن کو HuggingFace پر اپ لوڈ کیا گیا ہے پچھلے چار مہینوں میں، DeepSeek-R1 گزر چکا ہے…

بینچ مارک ٹیسٹ

فیصلہ کرنے کا طریقہ

ٹیسٹ مواد

کیوں کیا DeepSeek R1 جیت?

دوسرے مقابلہ کرنے والوں نے کیسی کارکردگی دکھائی؟

آخر میں

ملتے جلتے پوسٹس

جواب دیں جواب منسوخ کریں