DeepSeek R1 रचनात्मक लेखन परीक्षणमा पहिलो आयो, र o3 mini o1 mini भन्दा पनि खराब थियो!

DeepSeek R1 ले क्रिएटिभ लघुकथा लेखन बेन्चमार्क परीक्षणमा च्याम्पियनशिप जित्यो, अघिल्लो प्रभावशाली खेलाडी क्लाउड 3.5 सनेटलाई सफलतापूर्वक पार गर्दै!

सामग्रीको तालिका

बेन्चमार्क परीक्षण

शोधकर्ता लेच माजुर द्वारा डिजाइन गरिएको बेन्चमार्क परीक्षण तपाईको औसत लेखन प्रतियोगिता होइन।

प्रत्येक एआई मोडेलले 500 छोटो कथाहरू पूरा गर्न आवश्यक थियो, र प्रत्येक कथाले चलाखीपूर्वक 10 अनियमित रूपमा तोकिएका तत्वहरू समावेश गर्नुपर्थ्यो। यो AI को लागी एक चुनौतीपूर्ण ओपन-एन्डेड लेखन कार्य थियो, जसलाई एक पूर्ण कथा रेखा आवश्यक मात्र थिएन, तर सबै तोकिएका तत्वहरू स्वाभाविक रूपमा एकीकृत भएको कुरा पनि सुनिश्चित गरियो।

न्याय गर्ने विधि

यो बेन्चमार्क परीक्षणले एक अद्वितीय स्कोरिङ प्रणाली प्रयोग गर्दछ: छ शीर्ष भाषा मोडेलहरू न्यायाधीशको रूपमा काम गर्छन्, कथाको विभिन्न पक्षहरू स्कोर गर्दै। अर्को शब्दमा, AI उद्योगका नेताहरूले AI आफैंलाई न्याय गर्दैछन्, जसले समग्रमा अपेक्षाकृत निष्पक्ष र व्यवस्थित मूल्याङ्कन मानक प्रदान गर्दछ।

परीक्षण सामग्री

माथिको चार्टले रचनात्मक लेखन बेन्चमार्क परीक्षणमा स्कोररहरूको सहसंबंध विश्लेषण देखाउँछ। DeepSeek अन्य मुख्यधारा मोडेलहरू (क्लाउड, GPT-4o, जेमिनी र ग्रोक) सँग ०.९३ भन्दा बढीको सहसम्बन्ध गुणांक छ, यसले सृजनात्मक लेखनको गुणस्तरलाई न्याय गर्दा अन्य शीर्ष मोडेलहरूसँग अत्यधिक सुसंगत निर्णय मापदण्ड रहेको जनाउँछ, जसले अप्रत्यक्ष रूपमा यसमा यसको विश्वसनीयता पुष्टि गर्दछ। परीक्षण।

माथिको चार्टले रचनात्मक छोटो कथा लेखन बेन्चमार्क परीक्षणको नतिजा देखाउँछ। प्रत्येक एआई मोडेलले 500 कथाहरू लेख्न आवश्यक थियो, जसमध्ये प्रत्येकमा 10 निर्दिष्ट अनियमित तत्वहरू समावेश हुनुपर्छ। चार्टमा अंकहरूले विभिन्न स्कोरिङ मोडेलहरूका लागि प्रत्येक सहभागी AI मोडेलको स्कोर वितरण देखाउँदछ (भिन्न रङहरूद्वारा प्रतिनिधित्व गरिएको)।

परीक्षणमा, गहिरो एस eek (गाढा नीलो बिन्दुहरू) ले राम्रो प्रदर्शन गर्‍यो, यसको अधिकांश स्कोर अंकहरू चार्टको माथिल्लो आधामा केन्द्रित र तुलनात्मक रूपमा केन्द्रित, स्थिर र उच्च स्तरको रचनात्मक लेखन क्षमता देखाउँदै।

यो उत्कृष्ट प्रदर्शनले यसलाई अघिल्लो च्याम्पियन, क्लाउड 3.5 सोननेटलाई सफलतापूर्वक पार गर्न र नयाँ बेन्चमार्क परीक्षण नेता बन्न सक्षम बनाएको छ।

यस चार्टमा, प्रत्येक पङ्क्तिले एआई मोडेललाई प्रतिनिधित्व गर्दछ, र प्रत्येक स्तम्भले मूल्याङ्कन आयाम (जस्तै चरित्रीकरण, प्लट सुसंगतता, आदि) को प्रतिनिधित्व गर्दछ। DeepSeek चार्टको माथिल्लो बीचमा अवस्थित छ, समग्र सुन्तला-पहेँलो रङको साथ, यसले धेरै मूल्याङ्कन आयामहरूमा उत्कृष्ट नतिजाहरू हासिल गरेको देखाउँछ। विशेष गरी, यसले कार्यान्वयन (Q6), चरित्रीकरण (TA), र प्लट विकास (TJ) को मुख्य आयामहरूमा लगभग 8 अंकको उच्च स्कोर हासिल गर्यो। यद्यपि यो व्यक्तिगत आयामहरूमा सबैभन्दा चम्किलो पहेंलो नहुन सक्छ, यसमा कुनै स्पष्ट कमजोरीहरू छैनन्।

तपाईंले चार्टमा देख्न सक्नुहुन्छ, DeepSeek को कथा स्कोरहरू प्रायः 7 र 9 अंकहरू बीच वितरित छन्, र वितरण अपेक्षाकृत केन्द्रित छ। चाखलाग्दो कुरा के छ भने, यसको प्रवृत्ति रेखा लगभग तेर्सो छ, जसले DeepSeek को कथा गुणस्तर कथाको लम्बाइसँग नजिकबाट सम्बन्धित छैन भनेर संकेत गर्दछ। अर्को शब्दमा, चाहे यो लामो कथा लेख्ने होस् वा छोटो कथा, DeepSeek ले निरन्तर उच्च गुणस्तरको आउटपुट कायम राख्न सक्छ। यसले देखाउँछ कि DeepSeek ले सृजना गर्दा मात्रा भन्दा गुणस्तरमा बढी ध्यान केन्द्रित गर्छ, र उत्कृष्ट प्रदर्शन कायम राख्न सक्छ विभिन्न लम्बाइका कथाहरूमा।

किन गरे DeepSeek R1 जित?

परीक्षण नतिजाहरूबाट न्याय गर्दै, DeepSeek R1 ले आश्चर्यजनक रूपमा प्रदर्शन गर्‍यो:

विस्तृत कथा एकीकरण क्षमताहरू: R1 ले कथा तत्वहरूको विभिन्न संयोजनहरूसँग व्यवहार गर्दा अद्भुत लचिलोपन र रचनात्मकता देखायो।
स्थिर उत्पादन गुणस्तर: स्कोर वितरण चार्टको आधारमा, R1 ले उच्च औसत स्कोर मात्र होइन, कम उतार-चढ़ावको साथ स्थिर प्रदर्शन पनि गर्यो।
उत्कृष्ट रचनात्मक प्रदर्शन: यस बेन्चमार्क परीक्षणमा, R1 द्वारा सिर्जना गरिएका कथाहरूलाई समग्र रूपमा शीर्ष तीन मध्ये मूल्याङ्कन गरियो, जसले रचनात्मक लेखनमा यसको उत्कृष्ट क्षमता प्रमाणित गर्दछ।

अन्य प्रतियोगीहरुको प्रदर्शन कस्तो रह्यो ?

DeepSeek R1 र Claude 3.5 Sonnet बीचको रोमाञ्चक प्रदर्शनको अतिरिक्त, अन्य मोडेलहरूको प्रदर्शन पनि ध्यान दिन लायक छ:

मिथुन श्रृंखलाले राम्रो प्रदर्शन गर्‍यो
Llama 3.x श्रृंखलाले यस परीक्षणमा थोरै संघर्ष गर्यो
o3-mini ले राम्रो प्रदर्शन गर्न सकेन, 22 औं स्थानमा

अन्तमा

यस परीक्षणमा DeepSeek R1 को सफलताले हामीलाई रचनात्मकताको क्षेत्रमा AI को असीम सम्भावनाहरू देखाएको छ। यद्यपि AI सिर्जना अझै पनि निरन्तर सुधारको बाटोमा छ, त्यस्ता नतिजाहरूले हामीलाई भविष्यको लागि अपेक्षाहरूले भरिपूर्ण बनाएको छ।

परीक्षणको विवरणहरू बारे थप जान्न चाहनेहरूका लागि, तपाईं पूर्ण डाटा र उत्कृष्ट कथाहरूको उदाहरणहरूको लागि Lech Mazur's GitHub मा जान सक्नुहुन्छ। एआई सृजनात्मक लेखनमा सँगै थप सफलताहरूको लागि तत्पर छौं!

अवर्गीकृत

विश्वका मुख्यधाराका एआई उत्पादनहरू विश्लेषण र व्यापक प्रयोगकर्ता अनुभव दिशानिर्देशहरूमा केन्द्रित छन् (१TP8T र GPT सहित)

द्वाराzddeepseeker फेब्रुअरी १०, २०२५फेब्रुअरी १०, २०२५

फंक्शन पोजिसनिङ र कोर फाइदा विश्लेषण ChatGPT (OpenAI) - अलराउन्डरहरूको लागि विश्वव्यापी बेन्चमार्क ChatGPT प्राविधिक जीनहरू: ठूला मोडेलहरूको GPT श्रृंखलामा आधारित जेनेरेटिभ AI, सामान्य कुराकानी सीप र तार्किक तर्क यसको मुख्य फाइदाहरूको रूपमा। बहुभाषिक प्रशोधन: चिनियाँ भाषामा निरन्तर सुधारको साथ अंग्रेजीमा उत्कृष्ट प्रदर्शन गर्दछ; तर हामी अंग्रेजी प्रयोग गर्न सिफारिस गर्छौं ...

अवर्गीकृत

शीर्ष चार मोडेलहरूको प्रदर्शन! समीक्षाले Deepseek R1 कति शक्तिशाली छ भनेर देखाउँछ

द्वाराzddeepseeker जुन १, २०२५जुन १, २०२५

पछिल्ला केही दिनहरूमा, Deepseek-R1 0528 आधिकारिक रूपमा खुला-स्रोत गरिएको छ। LiveCodeBench मा, यसको प्रदर्शन लगभग OpenAI को o3 (उच्च) सँग बराबर छ; Aider को बहु-भाषा बेन्चमार्क परीक्षणमा, यसले Claude Opus विरुद्ध आफ्नो स्थान राख्छ। जब यो आधिकारिक वेबसाइटमा सुरु गरिएको थियो, हामीले यसको फ्रन्ट-एन्ड क्षमताहरूको द्रुत रूपमा परीक्षण गर्यौं र तिनीहरूलाई असाधारण रूपमा फेला पार्यौं...

अवर्गीकृत

DeepSeek ले गरेको छ! OpenAI ले बन्द स्रोत गल्ती स्वीकार गर्दछ, अग्रणी किनारा लाभ सानो हुन्छ

द्वाराzddeepseeker फेब्रुअरी २, २०२५फेब्रुअरी २, २०२५

ओपनएआईले o3-मिनी मोडेल जारी गरेपछि, यसका सीईओ साम अल्टम्यान, प्रमुख अनुसन्धान अधिकारी मार्क चेन, प्रमुख उत्पादन अधिकारी केभिन वेइल; इन्जिनियरिङका उपाध्यक्ष श्रीनिवास नारायणन, एपीआई अनुसन्धान प्रमुख मिशेल पोक्रस, र अनुसन्धान प्रमुख होङयु रेनले विश्वको सबैभन्दा ठूलो व्यापक फोरमहरू मध्ये एक, रेडिटमा अनलाइन प्राविधिक प्रश्नोत्तर सञ्चालन गरे। मुख्य विषयहरू…

अवर्गीकृत

क्याथी वुड: DeepSeek ले लागत घटाउने प्रक्रियालाई तीव्र बनाइरहेको छ; महामन्दीसँग तुलना गर्न सकिने चरम केन्द्रित बजार संरचना परिवर्तन हुनेछ।

द्वाराzddeepseeker फेब्रुअरी ८, २०२५फेब्रुअरी ८, २०२५

हाइलाइटहरू DeepSeek सँगको प्रतिस्पर्धा अमेरिकाको लागि राम्रो छ क्याथी वुड: मलाई लाग्छ यसले नवप्रवर्तनको लागत नाटकीय रूपमा घट्दै गएको देखाउँछ, र यो प्रवृत्ति पहिले नै सुरु भइसकेको छ। उदाहरणका लागि, DeepSeek अघि, कृत्रिम बुद्धिमत्ता प्रशिक्षणको लागत प्रति वर्ष 75% ले घटेको थियो, र अनुमानको लागत पनि 85% ले घटेको थियो ...

अवर्गीकृत

गुगलको कम लागतको मोडेल, जेमिनी २.० शृङ्खला, आक्रमण गर्दैछ: ठूला मोडेलहरूमा लागत-प्रभावकारिताको लागि लडाईं तीव्र हुँदैछ।

द्वाराzddeepseeker फेब्रुअरी ८, २०२५फेब्रुअरी ८, २०२५

ठूला एआई मोडेलहरू प्रयोग गर्ने उच्च लागत धेरै एआई अनुप्रयोगहरू अझै कार्यान्वयन र प्रवर्द्धन नगर्नुको प्रमुख कारण हो। चरम प्रदर्शन छनौट गर्नु भनेको ठूलो कम्प्युटिङ पावर लागत हो, जसले गर्दा उच्च उपयोग लागतहरू हुन्छन् जुन सामान्य प्रयोगकर्ताहरूले स्वीकार गर्न सक्दैनन्। ठूला एआई मोडेलहरूको लागि प्रतिस्पर्धा धुवाँ बिनाको युद्ध जस्तै हो। पछि…

अवर्गीकृत

DeepSeek-R1 प्रविधिको खुलासा: पेपरका मुख्य सिद्धान्तहरू तोडिएका छन् र सफलतापूर्वक मोडेल प्रदर्शनको कुञ्जी प्रकट गरिएको छ।

द्वाराzddeepseeker फेब्रुअरी ९, २०२५फेब्रुअरी ९, २०२५

आज हामी DeepSeek R1 साझा गर्नेछौं, शीर्षक: DeepSeek-R1: सुदृढीकरण सिकाइ मार्फत LLM मा तर्क क्षमतालाई प्रोत्साहन: सुदृढीकरण सिकाइ मार्फत LLM को तर्क क्षमतालाई प्रोत्साहन। यो पेपरले DeepSeek को पहिलो पुस्ताको तर्क मोडेलहरू, DeepSeek-R1-शून्य र DeepSeek-R1 लाई परिचय गराउँछ। DeepSeek-R1-शून्य मोडेललाई प्रारम्भिक चरणको रूपमा पर्यवेक्षित फाइन-ट्युनिङ (SFT) बिना ठूलो मात्रामा सुदृढीकरण सिकाइ (RL) मार्फत प्रशिक्षित गरिएको थियो,…

बेन्चमार्क परीक्षण

न्याय गर्ने विधि

परीक्षण सामग्री

किन गरे DeepSeek R1 जित?

अन्य प्रतियोगीहरुको प्रदर्शन कस्तो रह्यो ?

अन्तमा

समान पोस्टहरू

जवाफ लेख्नुहोस् जवाफ रद्द गर्नुहोस्

जवाफ लेख्नुहोस्