DeepSeek R1 रचनात्मक लेखन परीक्षण में प्रथम आया, और o3 मिनी o1 मिनी से भी बदतर था!

DeepSeek R1 ने रचनात्मक लघु कहानी लेखन बेंचमार्क टेस्ट में चैंपियनशिप जीती, पिछले प्रमुख खिलाड़ी क्लाउड 3.5 सॉनेट को सफलतापूर्वक पीछे छोड़ दिया!

विषयसूची

बेंचमार्क परीक्षण

शोधकर्ता लेक मज़ूर द्वारा डिज़ाइन किया गया बेंचमार्क परीक्षण कोई औसत लेखन प्रतियोगिता नहीं है।

प्रत्येक AI मॉडल को 500 छोटी कहानियाँ पूरी करनी थीं, और प्रत्येक कहानी में 10 यादृच्छिक रूप से निर्दिष्ट तत्वों को चतुराई से शामिल करना था। यह AI के लिए एक चुनौतीपूर्ण ओपन-एंडेड लेखन कार्य था, जिसके लिए न केवल एक पूरी कहानी की आवश्यकता थी, बल्कि यह भी सुनिश्चित करना था कि सभी निर्दिष्ट तत्व स्वाभाविक रूप से एकीकृत हों

निर्णय विधि

यह बेंचमार्क परीक्षण एक अनूठी स्कोरिंग प्रणाली का उपयोग करता है: छह शीर्ष भाषा मॉडल कहानी के विभिन्न पहलुओं को स्कोर करते हुए, न्यायाधीश के रूप में कार्य करते हैं। दूसरे शब्दों में, AI उद्योग के नेता स्वयं AI का मूल्यांकन कर रहे हैं, जो कुल मिलाकर अपेक्षाकृत निष्पक्ष और व्यवस्थित मूल्यांकन मानक प्रदान करता है।

परीक्षण सामग्री

उपरोक्त चार्ट रचनात्मक लेखन बेंचमार्क परीक्षण में स्कोर करने वालों के सहसंबंध विश्लेषण को दर्शाता है। 1टीपी8टी अन्य मुख्यधारा मॉडलों (क्लाउड, जीपीटी-4o, जेमिनी और ग्रोक) के साथ इसका सहसंबंध गुणांक 0.93 से अधिक है, जो दर्शाता है कि रचनात्मक लेखन की गुणवत्ता का आकलन करते समय अन्य शीर्ष मॉडलों के साथ इसका निर्णय मानदंड अत्यधिक सुसंगत है, जो अप्रत्यक्ष रूप से इस परीक्षण में इसकी विश्वसनीयता की पुष्टि करता है।

ऊपर दिया गया चार्ट रचनात्मक लघु कहानी लेखन बेंचमार्क परीक्षण के परिणाम दिखाता है। प्रत्येक AI मॉडल को 500 कहानियाँ लिखनी थीं, जिनमें से प्रत्येक में 10 निर्दिष्ट यादृच्छिक तत्व होने चाहिए। चार्ट में दिए गए बिंदु अलग-अलग स्कोरिंग मॉडल (विभिन्न रंगों द्वारा दर्शाए गए) के लिए प्रत्येक भाग लेने वाले AI मॉडल के स्कोर वितरण को दर्शाते हैं।

परीक्षण में, गहरा एस ईक (गहरे नीले रंग के अंक) ने अच्छा प्रदर्शन किया, इसके अधिकांश अंक चार्ट के ऊपरी आधे भाग में केंद्रित थे और अपेक्षाकृत केंद्रित थे, जो रचनात्मक लेखन क्षमता का एक स्थिर और उच्च स्तर दर्शाता है।

इस उत्कृष्ट प्रदर्शन ने इसे पिछले चैंपियन, क्लाउड 3.5 सॉनेट को सफलतापूर्वक पीछे छोड़ने और नया बेंचमार्क टेस्ट लीडर बनने में सक्षम बनाया है।

इस चार्ट में, प्रत्येक पंक्ति एक AI मॉडल का प्रतिनिधित्व करती है, और प्रत्येक कॉलम एक मूल्यांकन आयाम (जैसे कि लक्षण वर्णन, प्लॉट सुसंगतता, आदि) का प्रतिनिधित्व करता है। DeepSeek चार्ट के ऊपरी मध्य में स्थित है, जिसमें एक समग्र नारंगी-पीला रंग है, जो दर्शाता है कि इसने अधिकांश मूल्यांकन आयामों में उत्कृष्ट परिणाम प्राप्त किए हैं। विशेष रूप से, इसने निष्पादन (Q6), लक्षण वर्णन (TA), और प्लॉट विकास (TJ) के प्रमुख आयामों में लगभग 8 अंकों के उच्च स्कोर प्राप्त किए। हालाँकि यह व्यक्तिगत आयामों में सबसे चमकीला पीला नहीं हो सकता है, लेकिन इसमें कोई स्पष्ट कमज़ोरी नहीं है।

जैसा कि आप चार्ट में देख सकते हैं, DeepSeek के स्टोरी स्कोर ज़्यादातर 7 से 9 पॉइंट के बीच वितरित किए जाते हैं, और वितरण अपेक्षाकृत केंद्रित है। दिलचस्प बात यह है कि इसकी ट्रेंड लाइन लगभग क्षैतिज है, जो दर्शाता है कि DeepSeek की स्टोरी क्वालिटी स्टोरी की लंबाई से बहुत ज़्यादा जुड़ी हुई नहीं है। दूसरे शब्दों में, चाहे वह लंबी कहानी लिख रही हो या छोटी कहानी, DeepSeek लगातार उच्च गुणवत्ता वाला आउटपुट बनाए रख सकता है। इससे पता चलता है कि DeepSeek निर्माण करते समय मात्रा की तुलना में गुणवत्ता पर अधिक ध्यान केंद्रित करता है, और उत्कृष्ट प्रदर्शन बनाए रख सकता है अलग-अलग लम्बाई की कहानियों में।

क्यों किया DeepSeek R1 जीत?

परीक्षण के परिणामों से पता चलता है कि DeepSeek R1 ने आश्चर्यजनक प्रदर्शन किया:

व्यापक कहानी एकीकरण क्षमताएंकहानी के तत्वों के विभिन्न संयोजनों से निपटने में R1 ने अद्भुत लचीलापन और रचनात्मकता दिखाई।
स्थिर आउटपुट गुणवत्तास्कोर वितरण चार्ट से पता चलता है कि R1 का न केवल औसत स्कोर ऊंचा था, बल्कि कम उतार-चढ़ाव के साथ स्थिर प्रदर्शन भी था।
उत्कृष्ट रचनात्मक प्रदर्शनइस बेंचमार्क टेस्ट में, आर1 द्वारा बनाई गई कहानियों को समग्र रूप से शीर्ष तीन में स्थान दिया गया, जो रचनात्मक लेखन में इसकी उत्कृष्ट क्षमता को साबित करता है।

अन्य प्रतियोगियों का प्रदर्शन कैसा रहा?

DeepSeek R1 और क्लाउड 3.5 सॉनेट के बीच रोमांचक मुकाबले के अलावा, अन्य मॉडलों का प्रदर्शन भी ध्यान देने योग्य है:

जेमिनी श्रृंखला ने अच्छा प्रदर्शन किया
लामा 3.x श्रृंखला को इस परीक्षण में थोड़ा संघर्ष करना पड़ा
ओ3-मिनी का प्रदर्शन अच्छा नहीं रहा, 22वें स्थान पर

अंत में

इस परीक्षण में DeepSeek R1 की सफलता ने हमें रचनात्मकता के क्षेत्र में AI की अनंत संभावनाओं को दिखाया है। हालाँकि AI निर्माण अभी भी निरंतर सुधार के मार्ग पर है, लेकिन ऐसे परिणामों ने हमें भविष्य के लिए अभी से ही उम्मीदों से भर दिया है।

जो लोग परीक्षण के विवरण के बारे में अधिक जानना चाहते हैं, वे संपूर्ण डेटा और सर्वोत्तम कहानियों के उदाहरणों के लिए लेक माज़ूर के GitHub पर जा सकते हैं। आइए हम एक साथ AI रचनात्मक लेखन में और अधिक सफलताओं की आशा करें!

अवर्गीकृत

DeepSeek R1 पेपर व्याख्या और मुख्य तकनीकी बिंदु

द्वाराzddeepseeker फरवरी 9, 2025फरवरी 9, 2025

1 पृष्ठभूमि वसंत महोत्सव के दौरान, DeepSeek R1 ने एक बार फिर व्यापक ध्यान आकर्षित किया, और यहां तक कि DeepSeek V3 व्याख्या लेख जिसे हमने पहले लिखा था, उसे भी पुनः प्रसारित किया गया और उस पर बहुत चर्चा हुई। हालाँकि DeepSeek R1 के कई विश्लेषण और पुनरुत्पादन हुए हैं, यहाँ हमने कुछ संगत पठन नोट्स संकलित करने का निर्णय लिया है। हम तीन…

अवर्गीकृत

गूगल ने एक साथ तीन नए मॉडल जारी किए हैं: जेमिनी-2.0-प्रो निःशुल्क है, इसका स्कोर उत्कृष्ट है और यह प्रथम स्थान पर है, तथा यह कोडिंग और जटिल प्रॉम्प्ट के प्रसंस्करण के लिए उपयुक्त है!

द्वाराzddeepseeker 8 फरवरी, 20258 फरवरी, 2025

जेमिनी 2.0 की कहानी तेज़ी से आगे बढ़ रही है। दिसंबर में फ्लैश थिंकिंग एक्सपेरीमेंटल संस्करण ने डेवलपर्स को कम विलंबता और उच्च प्रदर्शन वाला एक कार्यशील मॉडल दिया। इस साल की शुरुआत में, Google AI स्टूडियो में 2.0 फ्लैश थिंकिंग एक्सपेरीमेंटल को अपडेट किया गया था ताकि फ्लैश की गति को बेहतर अनुमान क्षमताओं के साथ जोड़कर प्रदर्शन को और बेहतर बनाया जा सके। पिछले हफ़्ते,…

अवर्गीकृत

ऑल्टमैन: हम ओपन सोर्स AI के बारे में गलत थे! DeepSeek ने ओपनAI को कम लाभकारी बना दिया है, और अगला GPT-5 है

द्वाराzddeepseeker 1 फरवरी, 20251 फरवरी, 2025

o3-mini देर रात को आया, और OpenAI ने आखिरकार अपना नवीनतम ट्रम्प कार्ड दिखाया। Reddit AMA Q&A के दौरान, Altman ने गहराई से कबूल किया कि वह ओपन सोर्स AI के गलत पक्ष पर खड़ा था। उन्होंने कहा कि ओपन सोर्स की आंतरिक रणनीति पर विचार किया जा रहा है, और मॉडल का विकास जारी रहेगा, लेकिन…

अवर्गीकृत

कैथी वुड: DeepSeek केवल लागत में कमी की प्रक्रिया को तेज कर रहा है; महामंदी के समय की तुलना में अत्यधिक संकेन्द्रित बाजार संरचना बदल जाएगी

द्वाराzddeepseeker 8 फरवरी, 20258 फरवरी, 2025

हाइलाइट्स DeepSeek के साथ प्रतिस्पर्धा अमेरिका के लिए अच्छी है कैथी वुड: मुझे लगता है कि यह दर्शाता है कि नवाचार की लागत नाटकीय रूप से कम हो रही है, और यह प्रवृत्ति पहले ही शुरू हो चुकी है। उदाहरण के लिए, DeepSeek से पहले, कृत्रिम बुद्धिमत्ता के प्रशिक्षण की लागत प्रति वर्ष 75% कम हो गई थी, और अनुमान की लागत भी 85% तक कम हो गई थी…

अवर्गीकृत

ओपनएआई o3-मिनी बनाम DeepSeek-R1: नई पीढ़ी के एआई मॉडल का राजा कौन है?

द्वाराzddeepseeker 1 फरवरी, 20251 फरवरी, 2025

o3-mini एक चुनौती की गति के साथ यहाँ है 31 जनवरी को, OpenAI ने बिल्कुल नया o3-mini बड़ा मॉडल जारी किया और सभी ChatGPT उपयोगकर्ताओं को इसके कुछ फ़ंक्शन मुफ़्त में उपलब्ध कराए। हालाँकि क्वेरीज़ की संख्या पर एक सीमा है, लेकिन यह उपयोगकर्ताओं को जल्द से जल्द OpenAI के नवीनतम वाणिज्यिक मॉडल का अनुभव करने की अनुमति देता है…

अवर्गीकृत

जेमिनी 2.0 चार्ट पर हावी है, जबकि DeepSeek V3 अपनी कीमत में रोता है, और एक नया लागत प्रभावी चैंपियन पैदा हुआ है!

द्वाराzddeepseeker 8 फरवरी, 20258 फरवरी, 2025

Google Gemini 2.0 परिवार आखिरकार पूरा हो गया है! यह रिलीज़ होते ही चार्ट पर छा गया। डीपसीक, क्वेन और ओ3 की खोज और अवरोधों के बीच, Google ने आज सुबह एक साथ तीन मॉडल जारी किए: जेमिनी 2.0 प्रो, जेमिनी 2.0 फ्लैश और जेमिनी 2.0 फ्लैश-लाइट। बड़े मॉडल LMSYS रैंकिंग में, जेमिनी…

DeepSeek R1 रचनात्मक लेखन परीक्षण में प्रथम आया, और o3 मिनी, o1 मिनी से भी बदतर था!

बेंचमार्क परीक्षण

निर्णय विधि

परीक्षण सामग्री

क्यों किया DeepSeek R1 जीत?

अन्य प्रतियोगियों का प्रदर्शन कैसा रहा?

अंत में

DeepSeek R1 पेपर व्याख्या और मुख्य तकनीकी बिंदु

ऑल्टमैन: हम ओपन सोर्स AI के बारे में गलत थे! DeepSeek ने ओपनAI को कम लाभकारी बना दिया है, और अगला GPT-5 है

ओपनएआई o3-मिनी बनाम DeepSeek-R1: नई पीढ़ी के एआई मॉडल का राजा कौन है?

जेमिनी 2.0 चार्ट पर हावी है, जबकि DeepSeek V3 अपनी कीमत में रोता है, और एक नया लागत प्रभावी चैंपियन पैदा हुआ है!

प्रातिक्रिया दे जवाब रद्द करें

बेंचमार्क परीक्षण

निर्णय विधि

परीक्षण सामग्री

क्यों किया DeepSeek R1 जीत?

अन्य प्रतियोगियों का प्रदर्शन कैसा रहा?

अंत में

इसी तरह की पोस्ट

प्रातिक्रिया दे जवाब रद्द करें