अली क्वेन२.५-म्याक्सले १TP८T-V३ लाई उछिने! नेटिजन: चीनको एआईले द्रुत गतिमा अन्तर घटाउँदैछ

भर्खरै, बिग मोडेल एरिनाको सूचीमा अर्को घरेलु मोडेल थपियो।

अलीबाट, Qwen२.५-अधिकतम, जसले DeepSeek-V3 लाई उछिनेको छ र कुल १३३२ स्कोरका साथ समग्र वरीयतामा सातौं स्थानमा छ।

यसले क्लाउड ३.५ सोनेट र लामा ३.१ ४०५बी जस्ता मोडेलहरूलाई एकै झटकामा उछिनेको छ।

विशेष गरी, यो प्रोग्रामिङ र गणितमा उत्कृष्ट छ।, र फुलब्लड o1 र DeepSeek-R1 सँगसँगै पहिलो स्थानमा छ।

च्याटबोट एरिना एक ठूलो मोडेल प्रदर्शन परीक्षण प्लेटफर्म हो जुन द्वारा सुरु गरिएको हो LMSYS सङ्गठन। यसले हाल १९० भन्दा बढी मोडेलहरूलाई एकीकृत गर्दछ, र प्रयोगकर्ताहरूलाई अन्धा परीक्षणको लागि दिइने दुई जनाको टोलीमा जोडी गरिएका मोडेलहरू प्रयोग गर्दछ, जसमा प्रयोगकर्ताहरूले उनीहरूको वास्तविक जीवनको कुराकानी अनुभवहरूको आधारमा मोडेलहरूको क्षमताहरूमा मतदान गर्छन्।

यस कारणले गर्दा, च्याटबोट एरिना LLM लिडरबोर्ड विश्वका शीर्ष ठूला मोडेलहरूको लागि सबैभन्दा आधिकारिक र महत्त्वपूर्ण क्षेत्र हो।

क्वेन २.५-अधिकतम भर्खरै खोलिएको शीर्ष दसमा पनि प्रवेश गर्यो वेबडेभ वेब अनुप्रयोग विकासको लागि सूची।

यसबारे आधिकारिक lmsys टिप्पणी यस्तो छ कि चिनियाँ एआईले यो खाडललाई द्रुत गतिमा पुर्दैछ!

व्यक्तिगत रूपमा यसलाई प्रयोग गर्ने नेटिजनहरूले क्वेनको प्रदर्शन बढी स्थिर रहेको बताएका छन्।

कतिपय मानिसहरूले त यो पनि भन्छन् कि क्वेनले चाँडै नै सिलिकन भ्यालीका सबै साधारण मोडेलहरूलाई प्रतिस्थापन गर्नेछ।

सामग्रीको तालिका

चार व्यक्तिगत क्षमताहरू शीर्षमा पुग्छन्

समग्र सूचीको शीर्ष तीनमा पहिलो र दोस्रो स्थान गुगल जेमिनी परिवारले लिएको छ, जसमा GPT-4o र DeepSeek-R1 तेस्रो स्थानमा छन्।

Qwen2.5-Max ले o1-preview सँग सातौं स्थानमा रह्यो, पूर्ण o1 भन्दा अलि पछाडि।

अर्को प्रत्येक व्यक्तिगत श्रेणीमा Qwen2.5-Max को प्रदर्शन हो।

अझ तार्किक रूपमा गणित र कोड कार्यहरूमा, Qwen2.5-Max को नतिजा o1-mini भन्दा बढी भयो, र यसले पूर्ण-चार्ज गरिएको o1 र DeepSeek-R1 सँग पहिलो स्थान हासिल गर्यो।

र गणित सूचीमा पहिलो स्थानमा बाँडिएका मोडेलहरू मध्ये, Qwen2.5-Max एक मात्र गैर-तर्क मोडेल हो।

यदि तपाईंले विशिष्ट युद्ध रेकर्डहरूलाई नजिकबाट हेर्नुभयो भने, तपाईंले यो पनि देख्न सक्नुहुन्छ कि Qwen2.5-Max सँग फुल-ब्लडेड o1 विरुद्ध कोड क्षमतामा 69% जित दर छ।

मा जटिल प्रम्प्ट शब्द टास्क, Qwen2.5-Max र o1-preview दोस्रो स्थानमा बाँडिएका छन्, र यदि यो अंग्रेजीमा सीमित छ भने, यो o1-preview, DeepSeek-R1, आदि सँग बराबरीमा पहिलो स्थानमा पर्न सक्छ।

यसको अतिरिक्त, Qwen2.5-Max ले DeepSeek-R1 सँग पहिलो स्थानमा रहेको छ बहु-पालो संवाद; यो तेस्रो स्थानमा छ लामो पाठ (कम्तीमा ५०० टोकन), o1-पूर्वावलोकनलाई पार गर्दै।

यसका साथै, अलीले प्राविधिक रिपोर्टमा केही क्लासिक सूचीहरूमा Qwen2.5-Max को प्रदर्शन पनि देखाए।

कमाण्ड मोडेलहरूको तुलनामा, Qwen2.5-Max एरेना-हार्ड (मानव प्राथमिकताहरू जस्तै) र MMLU-Pro (विश्वविद्यालय-स्तरको ज्ञान) जस्ता बेन्चमार्कहरूमा GPT-4o र Claude 3.5-Sonnet जस्तै वा सोभन्दा उच्च स्तरमा छ।

खुला स्रोत आधार मोडेल तुलनामा, Qwen2.5-Max ले पनि DeepSeek-V3 लाई सबै पक्षमा पछाडि पार्यो र Llama 3.1-405B भन्दा धेरै अगाडि थियो।

आधार मोडेलको सन्दर्भमा, Qwen2.5-Max ले धेरैजसो बेन्चमार्क परीक्षणहरूमा पनि उल्लेखनीय फाइदा देखाएको छ (बन्द स्रोत मोडेल आधार मोडेल पहुँचयोग्य छैन, त्यसैले खुला स्रोत मोडेल मात्र तुलना गर्न सकिन्छ)।

उत्कृष्ट कोड/अनुमान, कलाकृतिहरूलाई समर्थन गर्दछ

Qwen2.5-Max सुरु भएपछि, ठूलो संख्यामा नेटिजन्सहरू यसको परीक्षण गर्न आए।

यो कोड र अनुमान जस्ता क्षेत्रहरूमा उत्कृष्ट पाइएको छ।

उदाहरणका लागि, यसलाई जाभास्क्रिप्टमा चेस खेल लेख्न दिनुहोस्।

धन्यवाद कलाकृतिहरू, एउटा वाक्यमा विकास गरिएको सानो खेल तुरुन्तै खेल्न सकिन्छ:

यसले उत्पन्न गर्ने कोड प्रायः पढ्न र प्रयोग गर्न सजिलो हुन्छ।

जटिल प्रम्प्टहरू अनुमान गर्दा Qwen2.5-Max छिटो र सही छ:

तपाईंको टोलीसँग ग्राहक अनुरोधहरू सम्हाल्न ३ चरणहरू छन्:

तथ्याङ्क सङ्कलन (चरण A): प्रति अनुरोध ५ मिनेट।

प्रशोधन (चरण B): प्रति अनुरोध १० मिनेट।

प्रमाणीकरण (चरण C): प्रति अनुरोध ८ मिनेट।

टोली हाल क्रमिक रूपमा काम गर्दछ, तर तपाईं समानान्तर कार्यप्रवाहको बारेमा विचार गर्दै हुनुहुन्छ। यदि तपाईंले प्रत्येक चरणमा दुई जनालाई तोक्नुभयो र समानान्तर कार्यप्रवाहको लागि अनुमति दिनुभयो भने, प्रति घण्टा आउटपुट २०१TP११T ले बढ्नेछ। यद्यपि, समानान्तर कार्यप्रवाह थप्दा सञ्चालन ओभरहेडको हिसाबले १५१TP११T बढी खर्च हुनेछ। समय र लागतलाई ध्यानमा राख्दै, के तपाईंले दक्षता अनुकूलन गर्न समानान्तर कार्यप्रवाह प्रयोग गर्नुपर्छ?

Qwen2.5-Max ले सम्पूर्ण निष्कर्ष ३० सेकेन्ड भन्दा कम समयमा पूरा गर्छ, समग्र प्रक्रियालाई स्पष्ट रूपमा पाँच चरणहरूमा विभाजन गर्दछ: हालको कार्यप्रवाहको विश्लेषण, समानान्तर कार्यप्रवाहको विश्लेषण, लागत निहितार्थ, लागत-दक्षता व्यापार-अफहरू, र निष्कर्षहरू।

अन्तिम निष्कर्षमा चाँडै पुगिन्छ: समानान्तर कार्यप्रवाहहरू प्रयोग गर्नुपर्छ।

DeepSeek-V3 को तुलनामा, जुन एक गैर-अनुमान मोडेल पनि हो, Qwen2.5-Max ले अझ संक्षिप्त र द्रुत प्रतिक्रिया प्रदान गर्दछ।

अथवा यसलाई ASCII अंकहरू मिलेर बनेको घुम्ने गोला उत्पन्न गर्न दिनुहोस्। हेर्ने कोणको सबैभन्दा नजिकको अंक शुद्ध सेतो हुन्छ, जबकि सबैभन्दा टाढाको अंक बिस्तारै कालो पृष्ठभूमिको साथ खैरो हुन्छ।

कुनै शब्दमा भएका विशिष्ट अक्षरहरूको संख्या गणना गर्नु अझ सजिलो छ।

यदि तपाईं आफैंले यसलाई प्रयास गर्न चाहनुहुन्छ भने, Qwen2.5-Max पहिले नै Qwen च्याट प्लेटफर्ममा अनलाइन छ र नि:शुल्क अनुभव गर्न सकिन्छ।

इन्टरप्राइज प्रयोगकर्ताहरूले अलिबाबा क्लाउड बेलियनमा Qwen2.5-Max मोडेल API कल गर्न सक्छन्।

अवर्गीकृत

पहिलो प्रक्षेपण! SiliconFlow X Huawei Cloud ले Ascend Cloud मा आधारित DeepSeek R1 र V3 इन्फरेन्सन सेवाहरू संयुक्त रूपमा सुरू गर्यो!

द्वाराzddeepseeker फेब्रुअरी १, २०२५फेब्रुअरी १, २०२५

DeepSeek-R1 र DeepSeek-V3 ले तिनीहरूको खुला स्रोत प्रक्षेपण पछि विश्वव्यापी सनसनी पैदा गरेको छ। तिनीहरू सबै मानवताका लागि DeepSeek टोलीबाट उपहार हुन्, र हामी तिनीहरूको सफलताको लागि ईमानदारीपूर्वक खुसी छौं। सिलिकन मोबिलिटी र हुवावे क्लाउड टोलीहरूले दिनको कडा परिश्रम पछि, आज हामी चिनियाँ प्रयोगकर्ताहरूलाई पनि चिनियाँ…

अवर्गीकृत

सय अर्ब डलर लगानीसहित ले च्याट शीर्ष स्थानमा छ। अमेरिका र चीन पछि, के यो तेस्रो एआई पावर हो?

द्वाराzddeepseeker फेब्रुअरी ११, २०२५फेब्रुअरी ११, २०२५

फेब्रुअरी ९ मा, फ्रान्सेली राष्ट्रपति इमानुएल म्याक्रोनले घोषणा गरे कि फ्रान्सले आगामी केही वर्षहरूमा एआईको क्षेत्रमा १०९ अर्ब युरो (११३ अर्ब अमेरिकी डलर) लगानी गर्नेछ। यो लगानी फ्रान्समा एआई पार्क निर्माण गर्न, पूर्वाधार सुधार गर्न र स्थानीय एआई स्टार्ट-अपहरूमा लगानी गर्न प्रयोग गरिनेछ। यसैबीच, मिस्ट्रल, एक फ्रान्सेली स्टार्टअप,…

अवर्गीकृत

यो DeepSeek-R1-32B को नजिक छ र Fei-Fei Li को s1 लाई क्रस गर्छ! UC बर्कले र अन्य खुला स्रोत नयाँ SOTA अनुमान मोडेलहरू

द्वाराzddeepseeker फेब्रुअरी १४, २०२५फेब्रुअरी १४, २०२५

३२B अनुमान मोडेलले डेटाको १/८ भाग मात्र प्रयोग गर्दछ र उही आकारको १TP8T-R1 सँग बाँधिएको छ! भर्खरै, स्ट्यानफोर्ड, UC बर्कले, र वाशिंगटन विश्वविद्यालय जस्ता संस्थाहरूले संयुक्त रूपमा SOTA-स्तरको अनुमान मोडेल, OpenThinker-32B जारी गरेका छन्, र ११४k सम्मको प्रशिक्षण डेटा पनि खुला स्रोतमा राखेका छन्। OpenThinker परियोजना गृहपृष्ठ: OpenThinker Hugging Face:…

अवर्गीकृत

DeepSeek-R1-0528 अपडेट: गहिरो सोच, बलियो तर्क

द्वाराzddeepseeker मे २९, २०२५मे २९, २०२५

१TP५टी मोडेलको संस्करणमा सामान्य स्तरोन्नति गरिएको छ, हालको संस्करण १TP८टी-आर१-०५२८ छ। जब तपाईं १TP८टी वेबपेज वा एपमा प्रवेश गर्नुहुन्छ, पछिल्लो संस्करण अनुभव गर्न संवाद इन्टरफेसमा "गहिरो सोच" सुविधा सक्षम गर्नुहोस्। १TP८टी-आर१-०५२८ मोडेलको तौल हगिङफेसमा अपलोड गरिएको छ। विगत चार महिनामा, १TP८टी-आर१ मा…

अवर्गीकृत

२७ वर्षीय सीईओसँग a16z संवाद: एआई एजेन्टको ठूलो लाभ प्रभाव छ, र दीर्घकालीन मूल्य निर्धारण श्रम लागतसँग जोडिएको हुनेछ।

द्वाराzddeepseeker फेब्रुअरी ८, २०२५फेब्रुअरी ८, २०२५

हाइलाइटहरू एआई एजेन्टले ग्राहकको अनुभवलाई पुन: आकार दिन्छ जेसी झाङ: एजेन्ट वास्तवमा कसरी निर्माण गरिन्छ? हाम्रो विचार यो छ कि समयसँगै, यो प्राकृतिक भाषा-आधारित एजेन्ट जस्तै हुँदै जानेछ किनभने ठूला भाषा मोडेलहरू (LLMs) लाई यसरी नै तालिम दिइन्छ। लामो अवधिमा, यदि तपाईंसँग एक सुपर बुद्धिमान एजेन्ट छ भने ...

अवर्गीकृत

DeepSeek कसरी सिर्जना गरियो? DeepSeek को वृद्धि इतिहास को एक विश्लेषण

द्वाराzddeepseeker फेब्रुअरी ३, २०२५फेब्रुअरी ३, २०२५

भविष्यमा, त्यहाँ थप र अधिक हार्डकोर नवीनता हुनेछ। अहिले यो बुझ्न सजिलो नहुन सक्छ, किनकि सम्पूर्ण सामाजिक समूहलाई तथ्यबाट शिक्षित गर्न आवश्यक छ। जब यो समाजले हार्डकोर नवीन गर्ने मानिसहरूलाई सफल हुन अनुमति दिन्छ, सामूहिक मानसिकता परिवर्तन हुनेछ। हामीलाई केवल तथ्यहरूको गुच्छा र प्रक्रिया चाहिन्छ।

चार व्यक्तिगत क्षमताहरू शीर्षमा पुग्छन्

उत्कृष्ट कोड/अनुमान, कलाकृतिहरूलाई समर्थन गर्दछ

समान पोस्टहरू

जवाफ लेख्नुहोस् जवाफ रद्द गर्नुहोस्

जवाफ लेख्नुहोस्