ልክ አሁን፣ ሌላ የአገር ውስጥ ሞዴል በትልቁ ሞዴል አረና ዝርዝር ውስጥ ተጨምሯል።
ከአሊ Qwen2.5-ማክስከDeepSeek-V3 በልጦ በአጠቃላይ 1332 ነጥብ በማስመዝገብ ሰባተኛ ደረጃ ላይ ተቀምጧል።
እንዲሁም እንደ ክላውድ 3.5 ሶኔት እና ላማ 3.1 405ቢ ያሉ ሞዴሎችን በአንድ ጊዜ በልጧል።

በተለይም እ.ኤ.አ. በፕሮግራም እና በሂሳብ የላቀ ነው።, እና ከ Fullblood o1 እና DeepSeek-R1 ጋር በአንደኛ ደረጃ ተቀምጧል።

Chatbot Arena ትልቅ የሞዴል አፈጻጸም መሞከሪያ መድረክ ነው የተጀመረው LMSYS Org. በአሁኑ ጊዜ ከ190 በላይ ሞዴሎችን ያዋህዳል እና በሁለት ቡድን የተጣመሩ ሞዴሎችን ለተጠቃሚዎች ለዓይነ ስውራን ፈተና ለመስጠት ይጠቀማል።
በዚህ ምክንያት፣ የቻትቦት አሬና ኤል ኤም ኤም መሪ ሰሌዳ ለአለም ምርጥ ትልልቅ ሞዴሎች በጣም ስልጣን ያለው እና አስፈላጊ መድረክ ነው።
Qwen 2.5-ማክስ እንዲሁም አዲስ በተከፈተው ላይ አስር ምርጥ ገብቷል። ዌብዴቭ ለድር መተግበሪያ ልማት ዝርዝር።

ኦፊሴላዊው lmsys አስተያየት በዚህ ላይ ነው። የቻይና AI በፍጥነት ክፍተቱን እየዘጋ ነው።!

በግላቸው የተጠቀሙ ኔትጣኖች የ Qwen አፈጻጸም የበለጠ የተረጋጋ ነው ይላሉ።

አንዳንድ ሰዎች Qwen በቅርቡ በሲሊኮን ቫሊ ውስጥ ያሉትን ሁሉንም ተራ ሞዴሎች እንደሚተካ ይናገራሉ.

አራት የግለሰብ ችሎታዎች ወደ ላይ ይደርሳሉ
ከአጠቃላይ ዝርዝር ውስጥ የመጀመሪያዎቹ ሶስት ውስጥ የመጀመሪያ እና ሁለተኛ ቦታዎች የተወሰዱት በ Google Gemini ቤተሰብ ሲሆን GPT-4o እና DeepSeek-R1 ለሦስተኛ ደረጃ ተያይዘዋል።
Qwen2.5-ማክስ ለሰባተኛ ደረጃ በ o1 ቅድመ እይታ የታሰረ፣ ከሙሉ o1 በትንሹ ጀርባ።

ቀጣዩ የQwen2.5-Max አፈጻጸም በእያንዳንዱ ምድብ ነው።
ይበልጥ ምክንያታዊ በሆነው ሒሳብ እና ኮድ ተግባራት፣ የQwen2.5-Max ውጤቶች ከ o1-ሚኒ አልፏል፣ እና ሙሉ በሙሉ ከተሞሉት o1 እና DeepSeek-R1 ጋር የተሳሰረ ነው።
እና በሂሳብ ዝርዝር ውስጥ ለመጀመሪያ ቦታ ከተያዙት ሞዴሎች መካከል Qwen2.5-Max ብቸኛው ምክንያታዊ ያልሆነ ሞዴል ነው።

የተወሰኑ የውጊያ መዝገቦችን በቅርበት ከተመለከቱ፣ እንዲሁም Qwen2.5-Max ከሙሉ ደም o1 ጋር በኮድ አቅም 69% የማሸነፍ መጠን እንዳለው ማየት ይችላሉ።

በውስጡ ውስብስብ ፈጣን ቃል ተግባር፣ Qwen2.5-Max እና o1-ቅድመ-እይታ ለሁለተኛ ደረጃ የተሳሰሩ ሲሆን በእንግሊዘኛ የተገደበ ከሆነ በመጀመሪያ ደረጃ ከ o1-ቅድመ እይታ፣ DeepSeek-R1፣ ወዘተ.

በተጨማሪም፣ Qwen2.5-Max ከDeepSeek-R1 ጋር ለመጀመሪያ ቦታ የተሳሰረ ነው። ባለብዙ ዙር ውይይት; በሦስተኛ ደረጃ ላይ ይገኛል ረጅም ጽሑፍ (ከ500 ያላነሱ ቶከኖች)፣ ከ o1-ቅድመ-እይታ ይበልጣል።

በተጨማሪም አሊ በቴክኒካል ሪፖርቱ ውስጥ በአንዳንድ ክላሲክ ዝርዝሮች ላይ የ Qwen2.5-Max አፈጻጸም አሳይቷል።
የትዕዛዝ ሞዴሎችን በማነፃፀር Qwen2.5-Max ከ GPT-4o እና Claude 3.5-Sonnet ጋር በተመሳሳይ ደረጃ ወይም ከፍ ያለ ነው እንደ Arena-Hard (ከሰው ልጅ ምርጫዎች ጋር ተመሳሳይ) እና MMLU-Pro (የዩኒቨርሲቲ-ደረጃ እውቀት)።
በክፍት ምንጭ መሰረት ሞዴል ንፅፅር፣ Qwen2.5-Max በቦርዱ ላይ ከDeepSeek-V3 በልጦ ከላማ 3.1-405B በጣም ቀድሟል።

የመሠረት ሞዴልን በተመለከተ፣ Qwen2.5-Max በአብዛኛዎቹ የቤንችማርክ ሙከራዎች ውስጥም ጉልህ ጥቅም አሳይቷል (የተዘጋው ምንጭ ሞዴል ቤዝ ሞዴል ተደራሽ ስላልሆነ ክፍት ምንጭ ሞዴል ብቻ ሊወዳደር ይችላል።)

የላቀ ኮድ/መረጃ፣ ቅርሶችን ይደግፋል
Qwen2.5-Max ከተጀመረ በኋላ፣ እሱን ለመፈተሽ ብዙ ቁጥር ያላቸው አውታረ መረቦች መጡ።
እንደ ኮድ እና ኢንፈረንስ ባሉ አካባቢዎች የላቀ ሆኖ ተገኝቷል።
ለምሳሌ፣ የቼዝ ጨዋታን በጃቫ ስክሪፕት እንዲጽፍ ያድርጉ።
አመሰግናለሁ ቅርሶች, በአንድ ዓረፍተ ነገር ውስጥ የተሰራ ትንሽ ጨዋታ ወዲያውኑ መጫወት ይቻላል:

የሚያመነጨው ኮድ ለማንበብ እና ለመጠቀም ብዙ ጊዜ ቀላል ነው።
ውስብስብ ጥያቄዎችን በሚመለከት Qwen2.5-Max ፈጣን እና ትክክለኛ ነው።
ቡድንዎ የደንበኛ ጥያቄዎችን ለማስተናገድ 3 ደረጃዎች አሉት።
የመረጃ አሰባሰብ (ደረጃ ሀ)፡ በጥያቄ 5 ደቂቃ።
በማቀነባበር (ደረጃ B)፡ 10 ደቂቃ በጥያቄ።
ማረጋገጫ (ደረጃ ሐ)፡ በጥያቄ 8 ደቂቃ።
ቡድኑ በአሁኑ ጊዜ በቅደም ተከተል ይሰራል፣ ነገር ግን ትይዩ የስራ ሂደትን እያሰቡ ነው። በእያንዳንዱ ደረጃ ላይ ሁለት ሰዎችን ከመደብክ እና ትይዩ የስራ ፍሰት እንዲኖር ከፈቀድክ በሰዓት የሚወጣው ውጤት በ20% ይጨምራል። ነገር ግን ትይዩ የስራ ፍሰት መጨመር 15% ተጨማሪ የስራ ማስኬጃ ወጪ ያስከፍላል። ጊዜውን እና ወጪውን ከግምት ውስጥ በማስገባት ውጤታማነትን ለማመቻቸት ትይዩ የስራ ፍሰት መጠቀም አለብዎት?
Qwen2.5-Max አጠቃላይ ሂደቱን ከ 30 ሰከንድ ባነሰ ጊዜ ውስጥ ያጠናቅቃል, አጠቃላይ ሂደቱን በግልጽ በአምስት ደረጃዎች ይከፍላል: የአሁኑን የስራ ሂደት ትንተና, ትይዩ የስራ ፍሰቶች ትንተና, የዋጋ አንድምታ, ወጪ ቆጣቢ የንግድ ልውውጥ እና መደምደሚያዎች.
የመጨረሻው መደምደሚያ በፍጥነት ይደርሳል: ትይዩ የስራ ፍሰቶች ጥቅም ላይ መዋል አለባቸው.
ከ DeepSeek-V3 ጋር ሲነጻጸር፣ እሱም የማይጠቅም ሞዴል፣ Qwen2.5-Max የበለጠ አጭር እና ፈጣን ምላሽ ይሰጣል።
ወይም ከASCII አሃዞች የተሰራ የሚሽከረከር ሉል እንዲያመነጭ ይፍቀዱለት። ለእይታ አንግል በጣም ቅርብ የሆነው አሃዝ ንፁህ ነጭ ሲሆን ሩቁ ደግሞ ቀስ በቀስ ግራጫማ ጥቁር ዳራ አለው።
በአንድ ቃል ውስጥ የተወሰኑ ፊደላትን መቁጠር የበለጠ ቀላል ነው።

ለራስዎ መሞከር ከፈለጉ፣ Qwen2.5-Max ቀድሞውኑ በQwen Chat መድረክ ላይ በመስመር ላይ ነው እና በነጻ ሊለማመዱ ይችላሉ።
የድርጅት ተጠቃሚዎች Qwen2.5-Max ሞዴል ኤፒአይ በአሊባባ ክላውድ ባሊያን መደወል ይችላሉ።
