DeepSeek R1 সৃজনশীল ছোট গল্প লেখার বেঞ্চমার্ক পরীক্ষায় চ্যাম্পিয়নশিপ জিতেছে, সফলভাবে আগের প্রভাবশালী খেলোয়াড় ক্লড 3.5 সনেটকে ছাড়িয়ে গেছে!

বেঞ্চমার্ক পরীক্ষা

গবেষক লেচ মাজুর দ্বারা ডিজাইন করা বেঞ্চমার্ক পরীক্ষাটি আপনার গড় লেখার প্রতিযোগিতা নয়।

প্রতিটি এআই মডেলের জন্য 500টি ছোটগল্প সম্পূর্ণ করতে হবে এবং প্রতিটি গল্পে 10টি এলোমেলোভাবে বরাদ্দ করা উপাদানকে চতুরতার সাথে অন্তর্ভুক্ত করতে হয়েছিল। এটি ছিল এআই-এর জন্য একটি চ্যালেঞ্জিং ওপেন-এন্ডেড লেখার কাজ, যার জন্য শুধুমাত্র একটি সম্পূর্ণ কাহিনীর প্রয়োজনই ছিল না, তবে এটি নিশ্চিত করা হয়েছিল যে সমস্ত বরাদ্দকৃত উপাদানগুলি স্বাভাবিকভাবেই একত্রিত হয়েছে।

বিচার পদ্ধতি

এই বেঞ্চমার্ক পরীক্ষাটি একটি অনন্য স্কোরিং সিস্টেম ব্যবহার করে: ছয়টি শীর্ষ ভাষার মডেল বিচারক হিসাবে কাজ করে, গল্পের বিভিন্ন দিক স্কোর করে। অন্য কথায়, এআই শিল্পের নেতারা এআই নিজেই বিচার করছেন, যা সামগ্রিকভাবে একটি তুলনামূলকভাবে ন্যায্য এবং পদ্ধতিগত মূল্যায়ন মান প্রদান করে।

পরীক্ষার বিষয়বস্তু

উপরের চার্টটি সৃজনশীল লেখার বেঞ্চমার্ক পরীক্ষায় স্কোরকারীদের পারস্পরিক সম্পর্ক বিশ্লেষণ দেখায়। DeepSeek অন্যান্য মূলধারার মডেলগুলির (ক্লদ, GPT-4o, জেমিনি এবং গ্রোক) সাথে 0.93-এর বেশি পারস্পরিক সম্পর্ক সহগ রয়েছে, এটি নির্দেশ করে যে এটি সৃজনশীল লেখার গুণমান বিচার করার সময় অন্যান্য শীর্ষ মডেলগুলির সাথে অত্যন্ত সামঞ্জস্যপূর্ণ বিচারের মানদণ্ড রয়েছে, যা পরোক্ষভাবে এতে এর নির্ভরযোগ্যতা নিশ্চিত করে পরীক্ষা

উপরের চার্টটি সৃজনশীল ছোট গল্প লেখার বেঞ্চমার্ক পরীক্ষার ফলাফল দেখায়। প্রতিটি এআই মডেলকে 500টি গল্প লিখতে হবে, যার প্রতিটিতে অবশ্যই 10টি নির্দিষ্ট র্যান্ডম উপাদান থাকতে হবে। চার্টের পয়েন্টগুলি বিভিন্ন স্কোরিং মডেলের জন্য প্রতিটি অংশগ্রহণকারী AI মডেলের স্কোর বিতরণ দেখায় (বিভিন্ন রঙ দ্বারা প্রতিনিধিত্ব করা)।

পরীক্ষায়, গভীরএসeek (গাঢ় নীল পয়েন্ট) ভালো পারফর্ম করেছে, এর বেশিরভাগ স্কোর পয়েন্ট চার্টের উপরের অর্ধেকে কেন্দ্রীভূত এবং তুলনামূলকভাবে কেন্দ্রীভূত, যা স্থিতিশীল এবং উচ্চ স্তরের সৃজনশীল লেখার ক্ষমতা প্রদর্শন করে।

এই অসামান্য পারফরম্যান্স এটিকে সফলভাবে পূর্ববর্তী চ্যাম্পিয়ন ক্লাউড 3.5 সনেটকে ছাড়িয়ে যেতে এবং নতুন বেঞ্চমার্ক টেস্ট লিডার হতে সক্ষম করেছে।

এই চার্টে, প্রতিটি সারি একটি এআই মডেলকে প্রতিনিধিত্ব করে এবং প্রতিটি কলাম একটি মূল্যায়ন মাত্রা (যেমন চরিত্রায়ন, প্লট সমন্বয় ইত্যাদি) উপস্থাপন করে। DeepSeek চার্টের উপরের মাঝখানে অবস্থিত, একটি সামগ্রিক কমলা-হলুদ রঙের সাথে, এটি নির্দেশ করে যে এটি বেশিরভাগ মূল্যায়নের মাত্রাগুলিতে চমৎকার ফলাফল অর্জন করেছে। বিশেষ করে, এটি এক্সিকিউশন (Q6), চরিত্রায়ন (TA), এবং প্লট ডেভেলপমেন্ট (TJ) এর মূল মাত্রায় প্রায় 8 পয়েন্টের উচ্চ স্কোর অর্জন করেছে। যদিও এটি স্বতন্ত্র মাত্রায় উজ্জ্বল হলুদ নাও হতে পারে, তবে এর কোনো স্পষ্ট দুর্বলতা নেই।

আপনি চার্টে দেখতে পাচ্ছেন, DeepSeek এর গল্পের স্কোরগুলি বেশিরভাগই 7 থেকে 9 পয়েন্টের মধ্যে বিতরণ করা হয় এবং বিতরণটি তুলনামূলকভাবে ঘনীভূত। মজার ব্যাপার হল, এর ট্রেন্ড লাইন প্রায় অনুভূমিক, যা ইঙ্গিত করে যে DeepSeek এর গল্পের গুণমান গল্পের দৈর্ঘ্যের সাথে ঘনিষ্ঠভাবে সম্পর্কিত নয়। অন্য কথায়, এটি একটি দীর্ঘ গল্প বা ছোট গল্প লেখা হোক না কেন, DeepSeek ধারাবাহিকভাবে উচ্চ মানের আউটপুট বজায় রাখতে পারে। এই যে দেখায় DeepSeek তৈরি করার সময় পরিমাণের চেয়ে মানের উপর বেশি ফোকাস করে এবং চমৎকার কর্মক্ষমতা বজায় রাখতে পারে বিভিন্ন দৈর্ঘ্যের গল্পে।

কেন করেছে DeepSeek R1 জয়?

পরীক্ষার ফলাফল থেকে বিচার করে, DeepSeek R1 আশ্চর্যজনকভাবে পারফর্ম করেছে:

  • ব্যাপক গল্প ইন্টিগ্রেশন ক্ষমতা: গল্পের উপাদানের বিভিন্ন সংমিশ্রণ মোকাবেলা করার সময় R1 আশ্চর্যজনক নমনীয়তা এবং সৃজনশীলতা দেখিয়েছে।
  • স্থিতিশীল আউটপুট গুণমান: স্কোর ডিস্ট্রিবিউশন চার্ট থেকে বিচার করলে, R1-এর শুধুমাত্র উচ্চ গড় স্কোরই ছিল না, কম ওঠানামা সহ স্থিতিশীল পারফরম্যান্সও ছিল।
  • অসামান্য সৃজনশীল কর্মক্ষমতা: এই বেঞ্চমার্ক পরীক্ষায়, R1-এর তৈরি গল্পগুলিকে সামগ্রিকভাবে শীর্ষ তিনটির মধ্যে স্থান দেওয়া হয়েছে, যা সৃজনশীল লেখায় এর অসামান্য দক্ষতা প্রমাণ করে।

অন্যান্য প্রতিযোগীরা কেমন পারফর্ম করেছে?

DeepSeek R1 এবং ক্লাউড 3.5 সনেটের মধ্যে উত্তেজনাপূর্ণ শোডাউন ছাড়াও, অন্যান্য মডেলগুলির পারফরম্যান্সও লক্ষণীয়:

  • মিথুন সিরিজ ভালো অভিনয় করেছে
  • Llama 3.x সিরিজটি এই পরীক্ষায় কিছুটা লড়াই করেছে
  • o3-mini 22 তম র‍্যাঙ্কিংয়ে ভাল পারফর্ম করেনি

অবশেষে

এই পরীক্ষায় DeepSeek R1-এর সাফল্য আমাদের সৃজনশীলতার ক্ষেত্রে AI-এর অসীম সম্ভাবনা দেখিয়েছে। যদিও AI সৃষ্টি এখনও ক্রমাগত উন্নতির পথে রয়েছে, এই ধরনের ফলাফল ইতিমধ্যে আমাদের ভবিষ্যতের প্রত্যাশায় পূর্ণ করেছে।

যারা পরীক্ষার বিশদ বিবরণ সম্পর্কে আরও জানতে চান, আপনি সম্পূর্ণ ডেটা এবং সেরা গল্পগুলির উদাহরণগুলির জন্য লেচ মাজুরের গিটহাব দেখতে পারেন। আসুন একসাথে AI সৃজনশীল লেখায় আরও সাফল্যের অপেক্ষায় থাকি!

অনুরূপ পোস্ট

মন্তব্য করুন

আপনার ই-মেইল এ্যাড্রেস প্রকাশিত হবে না। * চিহ্নিত বিষয়গুলো আবশ্যক।