भर्खरै, बिग मोडेल एरिनाको सूचीमा अर्को घरेलु मोडेल थपियो।
अलीबाट, Qwen२.५-अधिकतम, जसले DeepSeek-V3 लाई उछिनेको छ र कुल १३३२ स्कोरका साथ समग्र वरीयतामा सातौं स्थानमा छ।
यसले क्लाउड ३.५ सोनेट र लामा ३.१ ४०५बी जस्ता मोडेलहरूलाई एकै झटकामा उछिनेको छ।

विशेष गरी, यो प्रोग्रामिङ र गणितमा उत्कृष्ट छ।, र फुलब्लड o1 र DeepSeek-R1 सँगसँगै पहिलो स्थानमा छ।

च्याटबोट एरिना एक ठूलो मोडेल प्रदर्शन परीक्षण प्लेटफर्म हो जुन द्वारा सुरु गरिएको हो LMSYS सङ्गठन। यसले हाल १९० भन्दा बढी मोडेलहरूलाई एकीकृत गर्दछ, र प्रयोगकर्ताहरूलाई अन्धा परीक्षणको लागि दिइने दुई जनाको टोलीमा जोडी गरिएका मोडेलहरू प्रयोग गर्दछ, जसमा प्रयोगकर्ताहरूले उनीहरूको वास्तविक जीवनको कुराकानी अनुभवहरूको आधारमा मोडेलहरूको क्षमताहरूमा मतदान गर्छन्।
यस कारणले गर्दा, च्याटबोट एरिना LLM लिडरबोर्ड विश्वका शीर्ष ठूला मोडेलहरूको लागि सबैभन्दा आधिकारिक र महत्त्वपूर्ण क्षेत्र हो।
क्वेन २.५-अधिकतम भर्खरै खोलिएको शीर्ष दसमा पनि प्रवेश गर्यो वेबडेभ वेब अनुप्रयोग विकासको लागि सूची।

यसबारे आधिकारिक lmsys टिप्पणी यस्तो छ कि चिनियाँ एआईले यो खाडललाई द्रुत गतिमा पुर्दैछ!

व्यक्तिगत रूपमा यसलाई प्रयोग गर्ने नेटिजनहरूले क्वेनको प्रदर्शन बढी स्थिर रहेको बताएका छन्।

कतिपय मानिसहरूले त यो पनि भन्छन् कि क्वेनले चाँडै नै सिलिकन भ्यालीका सबै साधारण मोडेलहरूलाई प्रतिस्थापन गर्नेछ।

चार व्यक्तिगत क्षमताहरू शीर्षमा पुग्छन्
समग्र सूचीको शीर्ष तीनमा पहिलो र दोस्रो स्थान गुगल जेमिनी परिवारले लिएको छ, जसमा GPT-4o र DeepSeek-R1 तेस्रो स्थानमा छन्।
Qwen2.5-Max ले o1-preview सँग सातौं स्थानमा रह्यो, पूर्ण o1 भन्दा अलि पछाडि।

अर्को प्रत्येक व्यक्तिगत श्रेणीमा Qwen2.5-Max को प्रदर्शन हो।
अझ तार्किक रूपमा गणित र कोड कार्यहरूमा, Qwen2.5-Max को नतिजा o1-mini भन्दा बढी भयो, र यसले पूर्ण-चार्ज गरिएको o1 र DeepSeek-R1 सँग पहिलो स्थान हासिल गर्यो।
र गणित सूचीमा पहिलो स्थानमा बाँडिएका मोडेलहरू मध्ये, Qwen2.5-Max एक मात्र गैर-तर्क मोडेल हो।

यदि तपाईंले विशिष्ट युद्ध रेकर्डहरूलाई नजिकबाट हेर्नुभयो भने, तपाईंले यो पनि देख्न सक्नुहुन्छ कि Qwen2.5-Max सँग फुल-ब्लडेड o1 विरुद्ध कोड क्षमतामा 69% जित दर छ।

मा जटिल प्रम्प्ट शब्द टास्क, Qwen2.5-Max र o1-preview दोस्रो स्थानमा बाँडिएका छन्, र यदि यो अंग्रेजीमा सीमित छ भने, यो o1-preview, DeepSeek-R1, आदि सँग बराबरीमा पहिलो स्थानमा पर्न सक्छ।

यसको अतिरिक्त, Qwen2.5-Max ले DeepSeek-R1 सँग पहिलो स्थानमा रहेको छ बहु-पालो संवाद; यो तेस्रो स्थानमा छ लामो पाठ (कम्तीमा ५०० टोकन), o1-पूर्वावलोकनलाई पार गर्दै।

यसका साथै, अलीले प्राविधिक रिपोर्टमा केही क्लासिक सूचीहरूमा Qwen2.5-Max को प्रदर्शन पनि देखाए।
कमाण्ड मोडेलहरूको तुलनामा, Qwen2.5-Max एरेना-हार्ड (मानव प्राथमिकताहरू जस्तै) र MMLU-Pro (विश्वविद्यालय-स्तरको ज्ञान) जस्ता बेन्चमार्कहरूमा GPT-4o र Claude 3.5-Sonnet जस्तै वा सोभन्दा उच्च स्तरमा छ।
खुला स्रोत आधार मोडेल तुलनामा, Qwen2.5-Max ले पनि DeepSeek-V3 लाई सबै पक्षमा पछाडि पार्यो र Llama 3.1-405B भन्दा धेरै अगाडि थियो।

आधार मोडेलको सन्दर्भमा, Qwen2.5-Max ले धेरैजसो बेन्चमार्क परीक्षणहरूमा पनि उल्लेखनीय फाइदा देखाएको छ (बन्द स्रोत मोडेल आधार मोडेल पहुँचयोग्य छैन, त्यसैले खुला स्रोत मोडेल मात्र तुलना गर्न सकिन्छ)।

उत्कृष्ट कोड/अनुमान, कलाकृतिहरूलाई समर्थन गर्दछ
Qwen2.5-Max सुरु भएपछि, ठूलो संख्यामा नेटिजन्सहरू यसको परीक्षण गर्न आए।
यो कोड र अनुमान जस्ता क्षेत्रहरूमा उत्कृष्ट पाइएको छ।
उदाहरणका लागि, यसलाई जाभास्क्रिप्टमा चेस खेल लेख्न दिनुहोस्।
धन्यवाद कलाकृतिहरू, एउटा वाक्यमा विकास गरिएको सानो खेल तुरुन्तै खेल्न सकिन्छ:

यसले उत्पन्न गर्ने कोड प्रायः पढ्न र प्रयोग गर्न सजिलो हुन्छ।
जटिल प्रम्प्टहरू अनुमान गर्दा Qwen2.5-Max छिटो र सही छ:
तपाईंको टोलीसँग ग्राहक अनुरोधहरू सम्हाल्न ३ चरणहरू छन्:
तथ्याङ्क सङ्कलन (चरण A): प्रति अनुरोध ५ मिनेट।
प्रशोधन (चरण B): प्रति अनुरोध १० मिनेट।
प्रमाणीकरण (चरण C): प्रति अनुरोध ८ मिनेट।
टोली हाल क्रमिक रूपमा काम गर्दछ, तर तपाईं समानान्तर कार्यप्रवाहको बारेमा विचार गर्दै हुनुहुन्छ। यदि तपाईंले प्रत्येक चरणमा दुई जनालाई तोक्नुभयो र समानान्तर कार्यप्रवाहको लागि अनुमति दिनुभयो भने, प्रति घण्टा आउटपुट २०१TP११T ले बढ्नेछ। यद्यपि, समानान्तर कार्यप्रवाह थप्दा सञ्चालन ओभरहेडको हिसाबले १५१TP११T बढी खर्च हुनेछ। समय र लागतलाई ध्यानमा राख्दै, के तपाईंले दक्षता अनुकूलन गर्न समानान्तर कार्यप्रवाह प्रयोग गर्नुपर्छ?
Qwen2.5-Max ले सम्पूर्ण निष्कर्ष ३० सेकेन्ड भन्दा कम समयमा पूरा गर्छ, समग्र प्रक्रियालाई स्पष्ट रूपमा पाँच चरणहरूमा विभाजन गर्दछ: हालको कार्यप्रवाहको विश्लेषण, समानान्तर कार्यप्रवाहको विश्लेषण, लागत निहितार्थ, लागत-दक्षता व्यापार-अफहरू, र निष्कर्षहरू।
अन्तिम निष्कर्षमा चाँडै पुगिन्छ: समानान्तर कार्यप्रवाहहरू प्रयोग गर्नुपर्छ।
DeepSeek-V3 को तुलनामा, जुन एक गैर-अनुमान मोडेल पनि हो, Qwen2.5-Max ले अझ संक्षिप्त र द्रुत प्रतिक्रिया प्रदान गर्दछ।
अथवा यसलाई ASCII अंकहरू मिलेर बनेको घुम्ने गोला उत्पन्न गर्न दिनुहोस्। हेर्ने कोणको सबैभन्दा नजिकको अंक शुद्ध सेतो हुन्छ, जबकि सबैभन्दा टाढाको अंक बिस्तारै कालो पृष्ठभूमिको साथ खैरो हुन्छ।
कुनै शब्दमा भएका विशिष्ट अक्षरहरूको संख्या गणना गर्नु अझ सजिलो छ।

यदि तपाईं आफैंले यसलाई प्रयास गर्न चाहनुहुन्छ भने, Qwen2.5-Max पहिले नै Qwen च्याट प्लेटफर्ममा अनलाइन छ र नि:शुल्क अनुभव गर्न सकिन्छ।
इन्टरप्राइज प्रयोगकर्ताहरूले अलिबाबा क्लाउड बेलियनमा Qwen2.5-Max मोडेल API कल गर्न सक्छन्।
