DeepSeek R1 সৃজনশীল লেখার পরীক্ষায় প্রথম এসেছে, এবং o3 মিনি o1 মিনির থেকেও খারাপ ছিল!

DeepSeek R1 সৃজনশীল ছোট গল্প লেখার বেঞ্চমার্ক পরীক্ষায় চ্যাম্পিয়নশিপ জিতেছে, সফলভাবে আগের প্রভাবশালী খেলোয়াড় ক্লড 3.5 সনেটকে ছাড়িয়ে গেছে!

সূচিপত্র

বেঞ্চমার্ক পরীক্ষা

গবেষক লেচ মাজুর দ্বারা ডিজাইন করা বেঞ্চমার্ক পরীক্ষাটি আপনার গড় লেখার প্রতিযোগিতা নয়।

প্রতিটি এআই মডেলের জন্য 500টি ছোটগল্প সম্পূর্ণ করতে হবে এবং প্রতিটি গল্পে 10টি এলোমেলোভাবে বরাদ্দ করা উপাদানকে চতুরতার সাথে অন্তর্ভুক্ত করতে হয়েছিল। এটি ছিল এআই-এর জন্য একটি চ্যালেঞ্জিং ওপেন-এন্ডেড লেখার কাজ, যার জন্য শুধুমাত্র একটি সম্পূর্ণ কাহিনীর প্রয়োজনই ছিল না, তবে এটি নিশ্চিত করা হয়েছিল যে সমস্ত বরাদ্দকৃত উপাদানগুলি স্বাভাবিকভাবেই একত্রিত হয়েছে।

বিচার পদ্ধতি

এই বেঞ্চমার্ক পরীক্ষাটি একটি অনন্য স্কোরিং সিস্টেম ব্যবহার করে: ছয়টি শীর্ষ ভাষার মডেল বিচারক হিসাবে কাজ করে, গল্পের বিভিন্ন দিক স্কোর করে। অন্য কথায়, এআই শিল্পের নেতারা এআই নিজেই বিচার করছেন, যা সামগ্রিকভাবে একটি তুলনামূলকভাবে ন্যায্য এবং পদ্ধতিগত মূল্যায়ন মান প্রদান করে।

পরীক্ষার বিষয়বস্তু

উপরের চার্টটি সৃজনশীল লেখার বেঞ্চমার্ক পরীক্ষায় স্কোরকারীদের পারস্পরিক সম্পর্ক বিশ্লেষণ দেখায়। DeepSeek অন্যান্য মূলধারার মডেলগুলির (ক্লদ, GPT-4o, জেমিনি এবং গ্রোক) সাথে 0.93-এর বেশি পারস্পরিক সম্পর্ক সহগ রয়েছে, এটি নির্দেশ করে যে এটি সৃজনশীল লেখার গুণমান বিচার করার সময় অন্যান্য শীর্ষ মডেলগুলির সাথে অত্যন্ত সামঞ্জস্যপূর্ণ বিচারের মানদণ্ড রয়েছে, যা পরোক্ষভাবে এতে এর নির্ভরযোগ্যতা নিশ্চিত করে পরীক্ষা

উপরের চার্টটি সৃজনশীল ছোট গল্প লেখার বেঞ্চমার্ক পরীক্ষার ফলাফল দেখায়। প্রতিটি এআই মডেলকে 500টি গল্প লিখতে হবে, যার প্রতিটিতে অবশ্যই 10টি নির্দিষ্ট র্যান্ডম উপাদান থাকতে হবে। চার্টের পয়েন্টগুলি বিভিন্ন স্কোরিং মডেলের জন্য প্রতিটি অংশগ্রহণকারী AI মডেলের স্কোর বিতরণ দেখায় (বিভিন্ন রঙ দ্বারা প্রতিনিধিত্ব করা)।

পরীক্ষায়, গভীর এস eek (গাঢ় নীল পয়েন্ট) ভালো পারফর্ম করেছে, এর বেশিরভাগ স্কোর পয়েন্ট চার্টের উপরের অর্ধেকে কেন্দ্রীভূত এবং তুলনামূলকভাবে কেন্দ্রীভূত, যা স্থিতিশীল এবং উচ্চ স্তরের সৃজনশীল লেখার ক্ষমতা প্রদর্শন করে।

এই অসামান্য পারফরম্যান্স এটিকে সফলভাবে পূর্ববর্তী চ্যাম্পিয়ন ক্লাউড 3.5 সনেটকে ছাড়িয়ে যেতে এবং নতুন বেঞ্চমার্ক টেস্ট লিডার হতে সক্ষম করেছে।

এই চার্টে, প্রতিটি সারি একটি এআই মডেলকে প্রতিনিধিত্ব করে এবং প্রতিটি কলাম একটি মূল্যায়ন মাত্রা (যেমন চরিত্রায়ন, প্লট সমন্বয় ইত্যাদি) উপস্থাপন করে। DeepSeek চার্টের উপরের মাঝখানে অবস্থিত, একটি সামগ্রিক কমলা-হলুদ রঙের সাথে, এটি নির্দেশ করে যে এটি বেশিরভাগ মূল্যায়নের মাত্রাগুলিতে চমৎকার ফলাফল অর্জন করেছে। বিশেষ করে, এটি এক্সিকিউশন (Q6), চরিত্রায়ন (TA), এবং প্লট ডেভেলপমেন্ট (TJ) এর মূল মাত্রায় প্রায় 8 পয়েন্টের উচ্চ স্কোর অর্জন করেছে। যদিও এটি স্বতন্ত্র মাত্রায় উজ্জ্বল হলুদ নাও হতে পারে, তবে এর কোনো স্পষ্ট দুর্বলতা নেই।

আপনি চার্টে দেখতে পাচ্ছেন, DeepSeek এর গল্পের স্কোরগুলি বেশিরভাগই 7 থেকে 9 পয়েন্টের মধ্যে বিতরণ করা হয় এবং বিতরণটি তুলনামূলকভাবে ঘনীভূত। মজার ব্যাপার হল, এর ট্রেন্ড লাইন প্রায় অনুভূমিক, যা ইঙ্গিত করে যে DeepSeek এর গল্পের গুণমান গল্পের দৈর্ঘ্যের সাথে ঘনিষ্ঠভাবে সম্পর্কিত নয়। অন্য কথায়, এটি একটি দীর্ঘ গল্প বা ছোট গল্প লেখা হোক না কেন, DeepSeek ধারাবাহিকভাবে উচ্চ মানের আউটপুট বজায় রাখতে পারে। এই যে দেখায় DeepSeek তৈরি করার সময় পরিমাণের চেয়ে মানের উপর বেশি ফোকাস করে এবং চমৎকার কর্মক্ষমতা বজায় রাখতে পারে বিভিন্ন দৈর্ঘ্যের গল্পে।

কেন করেছে DeepSeek R1 জয়?

পরীক্ষার ফলাফল থেকে বিচার করে, DeepSeek R1 আশ্চর্যজনকভাবে পারফর্ম করেছে:

ব্যাপক গল্প ইন্টিগ্রেশন ক্ষমতা: গল্পের উপাদানের বিভিন্ন সংমিশ্রণ মোকাবেলা করার সময় R1 আশ্চর্যজনক নমনীয়তা এবং সৃজনশীলতা দেখিয়েছে।
স্থিতিশীল আউটপুট গুণমান: স্কোর ডিস্ট্রিবিউশন চার্ট থেকে বিচার করলে, R1-এর শুধুমাত্র উচ্চ গড় স্কোরই ছিল না, কম ওঠানামা সহ স্থিতিশীল পারফরম্যান্সও ছিল।
অসামান্য সৃজনশীল কর্মক্ষমতা: এই বেঞ্চমার্ক পরীক্ষায়, R1-এর তৈরি গল্পগুলিকে সামগ্রিকভাবে শীর্ষ তিনটির মধ্যে স্থান দেওয়া হয়েছে, যা সৃজনশীল লেখায় এর অসামান্য দক্ষতা প্রমাণ করে।

অন্যান্য প্রতিযোগীরা কেমন পারফর্ম করেছে?

DeepSeek R1 এবং ক্লাউড 3.5 সনেটের মধ্যে উত্তেজনাপূর্ণ শোডাউন ছাড়াও, অন্যান্য মডেলগুলির পারফরম্যান্সও লক্ষণীয়:

মিথুন সিরিজ ভালো অভিনয় করেছে
Llama 3.x সিরিজটি এই পরীক্ষায় কিছুটা লড়াই করেছে
o3-mini 22 তম র‍্যাঙ্কিংয়ে ভাল পারফর্ম করেনি

অবশেষে

এই পরীক্ষায় DeepSeek R1-এর সাফল্য আমাদের সৃজনশীলতার ক্ষেত্রে AI-এর অসীম সম্ভাবনা দেখিয়েছে। যদিও AI সৃষ্টি এখনও ক্রমাগত উন্নতির পথে রয়েছে, এই ধরনের ফলাফল ইতিমধ্যে আমাদের ভবিষ্যতের প্রত্যাশায় পূর্ণ করেছে।

যারা পরীক্ষার বিশদ বিবরণ সম্পর্কে আরও জানতে চান, আপনি সম্পূর্ণ ডেটা এবং সেরা গল্পগুলির উদাহরণগুলির জন্য লেচ মাজুরের গিটহাব দেখতে পারেন। আসুন একসাথে AI সৃজনশীল লেখায় আরও সাফল্যের অপেক্ষায় থাকি!

অশ্রেণীভুক্ত

ক্যাথি উড: DeepSeek খরচ কমানোর প্রক্রিয়াকে ত্বরান্বিত করছে; মহামন্দার সাথে তুলনীয় চরম ঘনীভূত বাজার কাঠামো পরিবর্তিত হবে।

দ্বারাzddeepseeker অক্টোবর 8, 2025অক্টোবর 8, 2025

DeepSeek এর সাথে প্রতিযোগিতা মার্কিন যুক্তরাষ্ট্রের জন্য ভালো ক্যাথি উড: আমার মনে হয় এটি দেখায় যে উদ্ভাবনের খরচ নাটকীয়ভাবে হ্রাস পাচ্ছে, এবং এই প্রবণতা ইতিমধ্যেই শুরু হয়ে গেছে। উদাহরণস্বরূপ, DeepSeek এর আগে, কৃত্রিম বুদ্ধিমত্তা প্রশিক্ষণের খরচ প্রতি বছর 75% কমেছিল, এবং অনুমানের খরচ এমনকি 85% কমেছিল ...

অশ্রেণীভুক্ত

DeepSeek-R1-0528 আপডেট: গভীর চিন্তাভাবনা, শক্তিশালী যুক্তি

দ্বারাzddeepseeker ২৯ মে, ২০২৫২৯ মে, ২০২৫

DeepSeek R1 মডেলটির একটি ছোটখাটো সংস্করণ আপগ্রেড করা হয়েছে, বর্তমান সংস্করণটি হল DeepSeek-R1-0528। আপনি যখন DeepSeek ওয়েবপেজ বা অ্যাপে প্রবেশ করবেন, তখন সর্বশেষ সংস্করণটি উপভোগ করার জন্য ডায়ালগ ইন্টারফেসে "ডিপ থিংকিং" বৈশিষ্ট্যটি সক্ষম করুন। DeepSeek-R1-0528 মডেলের ওজন HuggingFace-এ আপলোড করা হয়েছে গত চার মাস ধরে, DeepSeek-R1…

অশ্রেণীভুক্ত

২৭ বছর বয়সী সিইওর সাথে a16z সংলাপ: এআই এজেন্টের একটি বিশাল লিভারেজ প্রভাব রয়েছে এবং দীর্ঘমেয়াদী মূল্য নির্ধারণ শ্রম খরচের সাথে যুক্ত হবে

দ্বারাzddeepseeker অক্টোবর 8, 2025অক্টোবর 8, 2025

গ্রাহকের অভিজ্ঞতাকে নতুন করে রূপ দেয় এআই এজেন্ট জেসি ঝাং: একজন এজেন্ট আসলে কীভাবে তৈরি হয়? আমাদের দৃষ্টিভঙ্গি হল সময়ের সাথে সাথে, এটি আরও বেশি করে একটি প্রাকৃতিক ভাষা-ভিত্তিক এজেন্টের মতো হয়ে উঠবে কারণ বৃহৎ ভাষা মডেলগুলি (এলএলএম) এভাবেই প্রশিক্ষিত হয়। দীর্ঘমেয়াদে, যদি আপনার কাছে একজন অতি বুদ্ধিমান এজেন্ট থাকে যে...

অশ্রেণীভুক্ত

DeepSeek এটা করেছে! OpenAI ক্লোজড সোর্স ভুল স্বীকার করে, অগ্রণী প্রান্ত সুবিধা ছোট হয়ে যায়

দ্বারাzddeepseeker ২ অক্টোবর, ২০২৫২ অক্টোবর, ২০২৫

ওপেনএআই o3-মিনি মডেল প্রকাশ করার পর, এর সিইও স্যাম অল্টম্যান, প্রধান গবেষণা কর্মকর্তা মার্ক চেন, প্রধান পণ্য কর্মকর্তা কেভিন ওয়েইল; ইঞ্জিনিয়ারিং এর ভাইস প্রেসিডেন্ট শ্রীনিবাস নারায়ণন, এপিআই রিসার্চের প্রধান মিশেল পোক্রাস এবং রিসার্চের প্রধান হংইউ রেন, বিশ্বের বৃহত্তম ব্যাপক ফোরামগুলির মধ্যে একটি রেডিটে একটি অনলাইন প্রযুক্তিগত প্রশ্নোত্তর পরিচালনা করেছেন। মূল বিষয়গুলো…

অশ্রেণীভুক্ত

Ali Qwen2.5-Max DeepSeek-V3 কে ছাড়িয়ে গেছে! নেটিজেন: চীনের AI দ্রুত ব্যবধান কমিয়ে আনছে

দ্বারাzddeepseeker অক্টোবর 5, 2025অক্টোবর 5, 2025

এইমাত্র, আলীর বিগ মডেল এরিনা তালিকায় আরেকটি দেশীয় মডেল যুক্ত হয়েছে, Qwen2.5-Max, যা DeepSeek-V3 কে ছাড়িয়ে গেছে এবং মোট স্কোর 1332 নিয়ে সামগ্রিক র‌্যাঙ্কিংয়ে সপ্তম স্থানে রয়েছে। এটি এক ধাক্কায় Claude 3.5 Sonnet এবং Llama 3.1 405B এর মতো মডেলগুলিকেও ছাড়িয়ে গেছে। বিশেষ করে, এটি প্রোগ্রামিংয়ে উৎকৃষ্ট...

অশ্রেণীভুক্ত

OpenAI এর সদ্য প্রকাশিত o3-mini এবং DeepSeek R1-এর একটি ব্যাপক তুলনা

দ্বারাzddeepseeker অক্টোবর 1, 2025অক্টোবর 1, 2025

OpenAI তার সর্বশেষ অনুমান মডেল, o3-mini প্রকাশ করেছে, যা বিজ্ঞান, গণিত এবং প্রোগ্রামিংয়ের মতো ক্ষেত্রের জন্য অপ্টিমাইজ করা হয়েছে, দ্রুত প্রতিক্রিয়া, উচ্চ নির্ভুলতা এবং কম খরচে প্রদান করে। এর পূর্বসূরী o1-mini-এর সাথে তুলনা করে, o3-mini তার অনুমান ক্ষমতা উল্লেখযোগ্যভাবে উন্নত করেছে, বিশেষ করে জটিল সমস্যা সমাধানে। পরীক্ষকরা 56% দ্বারা o3-mini-এর উত্তর পছন্দ করেন এবং ত্রুটির হার আছে...

বেঞ্চমার্ক পরীক্ষা

বিচার পদ্ধতি

পরীক্ষার বিষয়বস্তু

কেন করেছে DeepSeek R1 জয়?

অন্যান্য প্রতিযোগীরা কেমন পারফর্ম করেছে?

অবশেষে

অনুরূপ পোস্ট

মন্তব্য করুন জবাব বাতিল