DeepSeek R1 ले क्रिएटिभ लघुकथा लेखन बेन्चमार्क परीक्षणमा च्याम्पियनशिप जित्यो, अघिल्लो प्रभावशाली खेलाडी क्लाउड 3.5 सनेटलाई सफलतापूर्वक पार गर्दै!

बेन्चमार्क परीक्षण

शोधकर्ता लेच माजुर द्वारा डिजाइन गरिएको बेन्चमार्क परीक्षण तपाईको औसत लेखन प्रतियोगिता होइन।

प्रत्येक एआई मोडेलले 500 छोटो कथाहरू पूरा गर्न आवश्यक थियो, र प्रत्येक कथाले चलाखीपूर्वक 10 अनियमित रूपमा तोकिएका तत्वहरू समावेश गर्नुपर्थ्यो। यो AI को लागी एक चुनौतीपूर्ण ओपन-एन्डेड लेखन कार्य थियो, जसलाई एक पूर्ण कथा रेखा आवश्यक मात्र थिएन, तर सबै तोकिएका तत्वहरू स्वाभाविक रूपमा एकीकृत भएको कुरा पनि सुनिश्चित गरियो।

न्याय गर्ने विधि

यो बेन्चमार्क परीक्षणले एक अद्वितीय स्कोरिङ प्रणाली प्रयोग गर्दछ: छ शीर्ष भाषा मोडेलहरू न्यायाधीशको रूपमा काम गर्छन्, कथाको विभिन्न पक्षहरू स्कोर गर्दै। अर्को शब्दमा, AI उद्योगका नेताहरूले AI आफैंलाई न्याय गर्दैछन्, जसले समग्रमा अपेक्षाकृत निष्पक्ष र व्यवस्थित मूल्याङ्कन मानक प्रदान गर्दछ।

परीक्षण सामग्री

माथिको चार्टले रचनात्मक लेखन बेन्चमार्क परीक्षणमा स्कोररहरूको सहसंबंध विश्लेषण देखाउँछ। DeepSeek अन्य मुख्यधारा मोडेलहरू (क्लाउड, GPT-4o, जेमिनी र ग्रोक) सँग ०.९३ भन्दा बढीको सहसम्बन्ध गुणांक छ, यसले सृजनात्मक लेखनको गुणस्तरलाई न्याय गर्दा अन्य शीर्ष मोडेलहरूसँग अत्यधिक सुसंगत निर्णय मापदण्ड रहेको जनाउँछ, जसले अप्रत्यक्ष रूपमा यसमा यसको विश्वसनीयता पुष्टि गर्दछ। परीक्षण।

माथिको चार्टले रचनात्मक छोटो कथा लेखन बेन्चमार्क परीक्षणको नतिजा देखाउँछ। प्रत्येक एआई मोडेलले 500 कथाहरू लेख्न आवश्यक थियो, जसमध्ये प्रत्येकमा 10 निर्दिष्ट अनियमित तत्वहरू समावेश हुनुपर्छ। चार्टमा अंकहरूले विभिन्न स्कोरिङ मोडेलहरूका लागि प्रत्येक सहभागी AI मोडेलको स्कोर वितरण देखाउँदछ (भिन्न रङहरूद्वारा प्रतिनिधित्व गरिएको)।

परीक्षणमा, गहिरोएसeek (गाढा नीलो बिन्दुहरू) ले राम्रो प्रदर्शन गर्‍यो, यसको अधिकांश स्कोर अंकहरू चार्टको माथिल्लो आधामा केन्द्रित र तुलनात्मक रूपमा केन्द्रित, स्थिर र उच्च स्तरको रचनात्मक लेखन क्षमता देखाउँदै।

यो उत्कृष्ट प्रदर्शनले यसलाई अघिल्लो च्याम्पियन, क्लाउड 3.5 सोननेटलाई सफलतापूर्वक पार गर्न र नयाँ बेन्चमार्क परीक्षण नेता बन्न सक्षम बनाएको छ।

यस चार्टमा, प्रत्येक पङ्क्तिले एआई मोडेललाई प्रतिनिधित्व गर्दछ, र प्रत्येक स्तम्भले मूल्याङ्कन आयाम (जस्तै चरित्रीकरण, प्लट सुसंगतता, आदि) को प्रतिनिधित्व गर्दछ। DeepSeek चार्टको माथिल्लो बीचमा अवस्थित छ, समग्र सुन्तला-पहेँलो रङको साथ, यसले धेरै मूल्याङ्कन आयामहरूमा उत्कृष्ट नतिजाहरू हासिल गरेको देखाउँछ। विशेष गरी, यसले कार्यान्वयन (Q6), चरित्रीकरण (TA), र प्लट विकास (TJ) को मुख्य आयामहरूमा लगभग 8 अंकको उच्च स्कोर हासिल गर्यो। यद्यपि यो व्यक्तिगत आयामहरूमा सबैभन्दा चम्किलो पहेंलो नहुन सक्छ, यसमा कुनै स्पष्ट कमजोरीहरू छैनन्।

तपाईंले चार्टमा देख्न सक्नुहुन्छ, DeepSeek को कथा स्कोरहरू प्रायः 7 र 9 अंकहरू बीच वितरित छन्, र वितरण अपेक्षाकृत केन्द्रित छ। चाखलाग्दो कुरा के छ भने, यसको प्रवृत्ति रेखा लगभग तेर्सो छ, जसले DeepSeek को कथा गुणस्तर कथाको लम्बाइसँग नजिकबाट सम्बन्धित छैन भनेर संकेत गर्दछ। अर्को शब्दमा, चाहे यो लामो कथा लेख्ने होस् वा छोटो कथा, DeepSeek ले निरन्तर उच्च गुणस्तरको आउटपुट कायम राख्न सक्छ। यसले देखाउँछ कि DeepSeek ले सृजना गर्दा मात्रा भन्दा गुणस्तरमा बढी ध्यान केन्द्रित गर्छ, र उत्कृष्ट प्रदर्शन कायम राख्न सक्छ विभिन्न लम्बाइका कथाहरूमा।

किन गरे DeepSeek R1 जित?

परीक्षण नतिजाहरूबाट न्याय गर्दै, DeepSeek R1 ले आश्चर्यजनक रूपमा प्रदर्शन गर्‍यो:

  • विस्तृत कथा एकीकरण क्षमताहरू: R1 ले कथा तत्वहरूको विभिन्न संयोजनहरूसँग व्यवहार गर्दा अद्भुत लचिलोपन र रचनात्मकता देखायो।
  • स्थिर उत्पादन गुणस्तर: स्कोर वितरण चार्टको आधारमा, R1 ले उच्च औसत स्कोर मात्र होइन, कम उतार-चढ़ावको साथ स्थिर प्रदर्शन पनि गर्यो।
  • उत्कृष्ट रचनात्मक प्रदर्शन: यस बेन्चमार्क परीक्षणमा, R1 द्वारा सिर्जना गरिएका कथाहरूलाई समग्र रूपमा शीर्ष तीन मध्ये मूल्याङ्कन गरियो, जसले रचनात्मक लेखनमा यसको उत्कृष्ट क्षमता प्रमाणित गर्दछ।

अन्य प्रतियोगीहरुको प्रदर्शन कस्तो रह्यो ?

DeepSeek R1 र Claude 3.5 Sonnet बीचको रोमाञ्चक प्रदर्शनको अतिरिक्त, अन्य मोडेलहरूको प्रदर्शन पनि ध्यान दिन लायक छ:

  • मिथुन श्रृंखलाले राम्रो प्रदर्शन गर्‍यो
  • Llama 3.x श्रृंखलाले यस परीक्षणमा थोरै संघर्ष गर्यो
  • o3-mini ले राम्रो प्रदर्शन गर्न सकेन, 22 औं स्थानमा

अन्तमा

यस परीक्षणमा DeepSeek R1 को सफलताले हामीलाई रचनात्मकताको क्षेत्रमा AI को असीम सम्भावनाहरू देखाएको छ। यद्यपि AI सिर्जना अझै पनि निरन्तर सुधारको बाटोमा छ, त्यस्ता नतिजाहरूले हामीलाई भविष्यको लागि अपेक्षाहरूले भरिपूर्ण बनाएको छ।

परीक्षणको विवरणहरू बारे थप जान्न चाहनेहरूका लागि, तपाईं पूर्ण डाटा र उत्कृष्ट कथाहरूको उदाहरणहरूको लागि Lech Mazur's GitHub मा जान सक्नुहुन्छ। एआई सृजनात्मक लेखनमा सँगै थप सफलताहरूको लागि तत्पर छौं!

समान पोस्टहरू

जवाफ लेख्नुहोस्

तपाईँको इमेल ठेगाना प्रकाशित गरिने छैन। अनिवार्य फिल्डहरूमा * चिन्ह लगाइएको छ