अभी-अभी, बिग मॉडल एरिना की सूची में एक और घरेलू मॉडल जुड़ गया

अली से, क्वेन2.5-मैक्स, जिसने DeepSeek-V3 को पीछे छोड़ दिया और 1332 के कुल स्कोर के साथ समग्र रैंकिंग में सातवें स्थान पर रहा।

इसने क्लाउड 3.5 सॉनेट और लामा 3.1 405B जैसे मॉडलों को भी एक झटके में पीछे छोड़ दिया।

विशेष रूप से, यह प्रोग्रामिंग और गणित में उत्कृष्ट है, और फुलब्लड o1 और DeepSeek-R1 के साथ पहले स्थान पर है।

चैटबॉट एरिना एक बड़ा मॉडल प्रदर्शन परीक्षण मंच है जिसे लॉन्च किया गया है LMSYS संगठनयह वर्तमान में 190 से अधिक मॉडलों को एकीकृत करता है, और दो-दो की टीमों में जोड़े गए मॉडलों का उपयोग करता है, जिन्हें उपयोगकर्ताओं को अंधे परीक्षण के लिए दिया जाता है, जिसमें उपयोगकर्ता अपने वास्तविक जीवन के वार्तालाप अनुभवों के आधार पर मॉडल की क्षमताओं पर वोट करते हैं।

इस कारण से, चैटबॉट एरिना एलएलएम लीडरबोर्ड दुनिया के शीर्ष बड़े मॉडलों के लिए सबसे अधिक आधिकारिक और महत्वपूर्ण क्षेत्र है।

क्वेन 2.5-मैक्स नए खुले शीर्ष दस में भी प्रवेश किया वेबडेव वेब अनुप्रयोग विकास के लिए सूची.

इस पर lmsys की आधिकारिक टिप्पणी यह है कि चीनी एआई तेजी से अंतर को कम कर रहा है!

जिन नेटिज़ेंस ने व्यक्तिगत रूप से इसका उपयोग किया है, उनका कहना है कि क्वेन का प्रदर्शन अधिक स्थिर है।

कुछ लोगों का तो यहां तक कहना है कि क्वेन जल्द ही सिलिकॉन वैली में सभी साधारण मॉडलों की जगह ले लेगा।

चार व्यक्तिगत योग्यताएं शीर्ष पर पहुंचीं

समग्र सूची के शीर्ष तीन में पहला और दूसरा स्थान गूगल जेमिनी परिवार ने प्राप्त किया, जबकि GPT-4o और DeepSeek-R1 तीसरे स्थान पर रहे।

क्वेन2.5-मैक्स, o1-प्रिव्यू के साथ सातवें स्थान पर रहा, जो पूर्ण o1 से थोड़ा पीछे था।

इसके बाद प्रत्येक व्यक्तिगत श्रेणी में Qwen2.5-Max का प्रदर्शन आता है।

अधिक तार्किक रूप से गणित और कोड कार्यों में, क्वेन2.5-मैक्स के परिणाम ओ1-मिनी से बेहतर रहे, तथा यह पूर्णतः चार्ज ओ1 और 1टीपी8टी-आर1 के साथ प्रथम स्थान पर रहा।

और गणित सूची में प्रथम स्थान के लिए बराबरी पर रहे मॉडलों में, क्वेन2.5-मैक्स एकमात्र गैर-तर्कसंगत मॉडल है।

यदि आप विशिष्ट युद्ध रिकॉर्ड पर बारीकी से नज़र डालें, तो आप यह भी देख सकते हैं कि Qwen2.5-Max में पूर्ण-रक्त वाले o1 के विरुद्ध कोड क्षमता में 69% की जीत दर है।

में जटिल संकेत शब्द टास्क, क्वेन2.5-मैक्स और o1-प्रीव्यू दूसरे स्थान के लिए बराबर हैं, और यदि यह अंग्रेजी तक सीमित है, तो यह o1-प्रीव्यू, DeepSeek-R1, आदि के बराबर पहले स्थान पर आ सकता है।

इसके अलावा, Qwen2.5-Max DeepSeek-R1 के साथ पहले स्थान पर है बहु-मोड़ संवाद; यह तीसरे स्थान पर है लंबा पाठ (500 टोकन से कम नहीं), o1-preview से आगे निकल गया।

इसके अलावा, अली ने तकनीकी रिपोर्ट में कुछ क्लासिक सूचियों पर क्वेन 2.5-मैक्स का प्रदर्शन भी दिखाया।

कमांड मॉडल की तुलना में, क्वेन 2.5-मैक्स एरिना-हार्ड (मानव प्राथमिकताओं के समान) और एमएमएलयू-प्रो (विश्वविद्यालय स्तर का ज्ञान) जैसे बेंचमार्क में जीपीटी-4o और क्लाउड 3.5-सॉनेट के समान या उनसे उच्चतर स्तर पर है।

ओपन सोर्स बेस मॉडल तुलना में, क्वेन 2.5-मैक्स ने भी DeepSeek-V3 से बेहतर प्रदर्शन किया और यह लामा 3.1-405B से काफी आगे रहा।

जहां तक आधार मॉडल की बात है, Qwen2.5-Max ने भी अधिकांश बेंचमार्क परीक्षणों में महत्वपूर्ण लाभ दिखाया (बंद स्रोत मॉडल आधार मॉडल सुलभ नहीं है, इसलिए केवल खुले स्रोत मॉडल की तुलना की जा सकती है)।

उत्कृष्ट कोड/अनुमान, कलाकृतियों का समर्थन करता है

क्वेन 2.5-मैक्स लॉन्च होने के बाद, बड़ी संख्या में नेटिज़ेंस इसका परीक्षण करने के लिए आए।

यह कोड और अनुमान जैसे क्षेत्रों में उत्कृष्ट पाया गया है।

उदाहरण के लिए, इसे जावास्क्रिप्ट में शतरंज का खेल लिखने दें।

करने के लिए धन्यवाद कलाकृतियों, एक ही वाक्य में विकसित एक छोटा सा खेल तुरंत खेला जा सकता है:

इससे उत्पन्न कोड को पढ़ना और उपयोग करना प्रायः आसान होता है।

Qwen2.5-Max जटिल संकेतों का अनुमान लगाने में तेज़ और सटीक है:

ग्राहक अनुरोधों को संभालने के लिए आपकी टीम के पास 3 चरण हैं:

डेटा संग्रहण (चरण ए): प्रति अनुरोध 5 मिनट।

प्रसंस्करण (चरण बी): प्रति अनुरोध 10 मिनट।

सत्यापन (चरण सी): प्रति अनुरोध 8 मिनट।

टीम वर्तमान में क्रमिक रूप से काम करती है, लेकिन आप समानांतर वर्कफ़्लो पर विचार कर रहे हैं। यदि आप प्रत्येक चरण में दो लोगों को नियुक्त करते हैं और समानांतर वर्कफ़्लो की अनुमति देते हैं, तो प्रति घंटे आउटपुट 20% तक बढ़ जाएगा। हालाँकि, समानांतर वर्कफ़्लो जोड़ने से ऑपरेटिंग ओवरहेड के मामले में 15% अधिक खर्च होगा। समय और लागत को ध्यान में रखते हुए, क्या आपको दक्षता को अनुकूलित करने के लिए समानांतर वर्कफ़्लो का उपयोग करना चाहिए?

क्वेन 2.5-मैक्स सम्पूर्ण निष्कर्ष को 30 सेकंड से भी कम समय में पूरा कर लेता है, तथा समग्र प्रक्रिया को पांच चरणों में स्पष्ट रूप से विभाजित कर देता है: वर्तमान कार्यप्रवाह का विश्लेषण, समानांतर कार्यप्रवाह का विश्लेषण, लागत निहितार्थ, लागत-दक्षता समझौता और निष्कर्ष।

अंतिम निष्कर्ष शीघ्र ही निकाला जा सकता है: समानांतर कार्यप्रवाह का उपयोग किया जाना चाहिए।

DeepSeek-V3 की तुलना में, जो एक गैर-अनुमान मॉडल भी है, Qwen2.5-Max अधिक संक्षिप्त और तीव्र प्रतिक्रिया प्रदान करता है।

या फिर इसे ASCII अंकों से बना एक घूमता हुआ गोला बनाने दें। देखने के कोण के सबसे करीब का अंक शुद्ध सफेद है, जबकि सबसे दूर का अंक धीरे-धीरे ग्रे हो जाता है, जिसकी पृष्ठभूमि काली होती है।

किसी शब्द में विशिष्ट अक्षरों की संख्या गिनना और भी आसान है।

यदि आप इसे स्वयं आज़माना चाहते हैं, तो Qwen2.5-Max पहले से ही Qwen चैट प्लेटफॉर्म पर ऑनलाइन है और इसका अनुभव निःशुल्क किया जा सकता है।

एंटरप्राइज़ उपयोगकर्ता अलीबाबा क्लाउड बेलियन पर Qwen2.5-Max मॉडल API को कॉल कर सकते हैं।

इसी तरह की पोस्ट

प्रातिक्रिया दे

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *