
DeepSeek R1 ने रचनात्मक लघु कहानी लेखन बेंचमार्क टेस्ट में चैंपियनशिप जीती, पिछले प्रमुख खिलाड़ी क्लाउड 3.5 सॉनेट को सफलतापूर्वक पीछे छोड़ दिया!
बेंचमार्क परीक्षण
शोधकर्ता लेक मज़ूर द्वारा डिज़ाइन किया गया बेंचमार्क परीक्षण कोई औसत लेखन प्रतियोगिता नहीं है।
प्रत्येक AI मॉडल को 500 छोटी कहानियाँ पूरी करनी थीं, और प्रत्येक कहानी में 10 यादृच्छिक रूप से निर्दिष्ट तत्वों को चतुराई से शामिल करना था। यह AI के लिए एक चुनौतीपूर्ण ओपन-एंडेड लेखन कार्य था, जिसके लिए न केवल एक पूरी कहानी की आवश्यकता थी, बल्कि यह भी सुनिश्चित करना था कि सभी निर्दिष्ट तत्व स्वाभाविक रूप से एकीकृत हों
निर्णय विधि
यह बेंचमार्क परीक्षण एक अनूठी स्कोरिंग प्रणाली का उपयोग करता है: छह शीर्ष भाषा मॉडल कहानी के विभिन्न पहलुओं को स्कोर करते हुए, न्यायाधीश के रूप में कार्य करते हैं। दूसरे शब्दों में, AI उद्योग के नेता स्वयं AI का मूल्यांकन कर रहे हैं, जो कुल मिलाकर अपेक्षाकृत निष्पक्ष और व्यवस्थित मूल्यांकन मानक प्रदान करता है।
परीक्षण सामग्री

उपरोक्त चार्ट रचनात्मक लेखन बेंचमार्क परीक्षण में स्कोर करने वालों के सहसंबंध विश्लेषण को दर्शाता है। 1टीपी8टी अन्य मुख्यधारा मॉडलों (क्लाउड, जीपीटी-4o, जेमिनी और ग्रोक) के साथ इसका सहसंबंध गुणांक 0.93 से अधिक है, जो दर्शाता है कि रचनात्मक लेखन की गुणवत्ता का आकलन करते समय अन्य शीर्ष मॉडलों के साथ इसका निर्णय मानदंड अत्यधिक सुसंगत है, जो अप्रत्यक्ष रूप से इस परीक्षण में इसकी विश्वसनीयता की पुष्टि करता है।

ऊपर दिया गया चार्ट रचनात्मक लघु कहानी लेखन बेंचमार्क परीक्षण के परिणाम दिखाता है। प्रत्येक AI मॉडल को 500 कहानियाँ लिखनी थीं, जिनमें से प्रत्येक में 10 निर्दिष्ट यादृच्छिक तत्व होने चाहिए। चार्ट में दिए गए बिंदु अलग-अलग स्कोरिंग मॉडल (विभिन्न रंगों द्वारा दर्शाए गए) के लिए प्रत्येक भाग लेने वाले AI मॉडल के स्कोर वितरण को दर्शाते हैं।
परीक्षण में, गहराएसईक (गहरे नीले रंग के अंक) ने अच्छा प्रदर्शन किया, इसके अधिकांश अंक चार्ट के ऊपरी आधे भाग में केंद्रित थे और अपेक्षाकृत केंद्रित थे, जो रचनात्मक लेखन क्षमता का एक स्थिर और उच्च स्तर दर्शाता है।
इस उत्कृष्ट प्रदर्शन ने इसे पिछले चैंपियन, क्लाउड 3.5 सॉनेट को सफलतापूर्वक पीछे छोड़ने और नया बेंचमार्क टेस्ट लीडर बनने में सक्षम बनाया है।

इस चार्ट में, प्रत्येक पंक्ति एक AI मॉडल का प्रतिनिधित्व करती है, और प्रत्येक कॉलम एक मूल्यांकन आयाम (जैसे कि लक्षण वर्णन, प्लॉट सुसंगतता, आदि) का प्रतिनिधित्व करता है। DeepSeek चार्ट के ऊपरी मध्य में स्थित है, जिसमें एक समग्र नारंगी-पीला रंग है, जो दर्शाता है कि इसने अधिकांश मूल्यांकन आयामों में उत्कृष्ट परिणाम प्राप्त किए हैं। विशेष रूप से, इसने निष्पादन (Q6), लक्षण वर्णन (TA), और प्लॉट विकास (TJ) के प्रमुख आयामों में लगभग 8 अंकों के उच्च स्कोर प्राप्त किए। हालाँकि यह व्यक्तिगत आयामों में सबसे चमकीला पीला नहीं हो सकता है, लेकिन इसमें कोई स्पष्ट कमज़ोरी नहीं है।

जैसा कि आप चार्ट में देख सकते हैं, DeepSeek के स्टोरी स्कोर ज़्यादातर 7 से 9 पॉइंट के बीच वितरित किए जाते हैं, और वितरण अपेक्षाकृत केंद्रित है। दिलचस्प बात यह है कि इसकी ट्रेंड लाइन लगभग क्षैतिज है, जो दर्शाता है कि DeepSeek की स्टोरी क्वालिटी स्टोरी की लंबाई से बहुत ज़्यादा जुड़ी हुई नहीं है। दूसरे शब्दों में, चाहे वह लंबी कहानी लिख रही हो या छोटी कहानी, DeepSeek लगातार उच्च गुणवत्ता वाला आउटपुट बनाए रख सकता है। इससे पता चलता है कि DeepSeek निर्माण करते समय मात्रा की तुलना में गुणवत्ता पर अधिक ध्यान केंद्रित करता है, और उत्कृष्ट प्रदर्शन बनाए रख सकता है अलग-अलग लम्बाई की कहानियों में।
क्यों किया DeepSeek R1 जीत?
परीक्षण के परिणामों से पता चलता है कि DeepSeek R1 ने आश्चर्यजनक प्रदर्शन किया:
- व्यापक कहानी एकीकरण क्षमताएंकहानी के तत्वों के विभिन्न संयोजनों से निपटने में R1 ने अद्भुत लचीलापन और रचनात्मकता दिखाई।
- स्थिर आउटपुट गुणवत्तास्कोर वितरण चार्ट से पता चलता है कि R1 का न केवल औसत स्कोर ऊंचा था, बल्कि कम उतार-चढ़ाव के साथ स्थिर प्रदर्शन भी था।
- उत्कृष्ट रचनात्मक प्रदर्शनइस बेंचमार्क टेस्ट में, आर1 द्वारा बनाई गई कहानियों को समग्र रूप से शीर्ष तीन में स्थान दिया गया, जो रचनात्मक लेखन में इसकी उत्कृष्ट क्षमता को साबित करता है।
अन्य प्रतियोगियों का प्रदर्शन कैसा रहा?
DeepSeek R1 और क्लाउड 3.5 सॉनेट के बीच रोमांचक मुकाबले के अलावा, अन्य मॉडलों का प्रदर्शन भी ध्यान देने योग्य है:
- जेमिनी श्रृंखला ने अच्छा प्रदर्शन किया
- लामा 3.x श्रृंखला को इस परीक्षण में थोड़ा संघर्ष करना पड़ा
- ओ3-मिनी का प्रदर्शन अच्छा नहीं रहा, 22वें स्थान पर

अंत में
इस परीक्षण में DeepSeek R1 की सफलता ने हमें रचनात्मकता के क्षेत्र में AI की अनंत संभावनाओं को दिखाया है। हालाँकि AI निर्माण अभी भी निरंतर सुधार के मार्ग पर है, लेकिन ऐसे परिणामों ने हमें भविष्य के लिए अभी से ही उम्मीदों से भर दिया है।
जो लोग परीक्षण के विवरण के बारे में अधिक जानना चाहते हैं, वे संपूर्ण डेटा और सर्वोत्तम कहानियों के उदाहरणों के लिए लेक माज़ूर के GitHub पर जा सकते हैं। आइए हम एक साथ AI रचनात्मक लेखन में और अधिक सफलताओं की आशा करें!