এইমাত্র, বিগ মডেল এরিনার তালিকায় আরও একটি দেশীয় মডেল যুক্ত হয়েছে।
আলীর কাছ থেকে, Qwen2.5-সর্বোচ্চ, যা DeepSeek-V3 কে ছাড়িয়ে গেছে এবং মোট 1332 স্কোর নিয়ে সামগ্রিক র্যাঙ্কিংয়ে সপ্তম স্থানে রয়েছে।
এটি এক ধাক্কায় ক্লাউড ৩.৫ সনেট এবং লামা ৩.১ ৪০৫বি-এর মতো মডেলগুলিকেও ছাড়িয়ে গেছে।

বিশেষ করে, এটি প্রোগ্রামিং এবং গণিতে উৎকৃষ্ট, এবং ফুলব্লাড o1 এবং DeepSeek-R1 এর সাথে প্রথম স্থানে রয়েছে।

চ্যাটবট এরিনা হল একটি বৃহৎ মডেল পারফরম্যান্স টেস্টিং প্ল্যাটফর্ম যা চালু করেছে LMSYS Org সম্পর্কে। এটি বর্তমানে ১৯০ টিরও বেশি মডেলকে একীভূত করে এবং ব্যবহারকারীদের অন্ধ পরীক্ষার জন্য দুটি দলের জোড়া মডেল ব্যবহার করে, যেখানে ব্যবহারকারীরা তাদের বাস্তব জীবনের কথোপকথনের অভিজ্ঞতার ভিত্তিতে মডেলগুলির ক্ষমতার উপর ভোট দেন।
এই কারণে, চ্যাটবট এরিনা এলএলএম লিডারবোর্ড হল বিশ্বের শীর্ষস্থানীয় বৃহৎ মডেলদের জন্য সবচেয়ে কর্তৃত্বপূর্ণ এবং গুরুত্বপূর্ণ ক্ষেত্র।
কিউয়েন ২.৫-ম্যাক্স নতুন খোলা শীর্ষ দশে স্থান করে নিয়েছে ওয়েবডেভ ওয়েব অ্যাপ্লিকেশন ডেভেলপমেন্টের জন্য তালিকা।

এই বিষয়ে lmsys-এর অফিসিয়াল মন্তব্য হল যে চীনা এআই দ্রুত ব্যবধান কমিয়ে আনছে!

যারা ব্যক্তিগতভাবে এটি ব্যবহার করেছেন তারা বলছেন যে কুয়েনের অভিনয় আরও স্থিতিশীল।

কেউ কেউ এমনকি বলেন যে কুয়েন শীঘ্রই সিলিকন ভ্যালির সমস্ত সাধারণ মডেল প্রতিস্থাপন করবে।

চারটি ব্যক্তিগত ক্ষমতা শীর্ষে পৌঁছায়
সামগ্রিক তালিকার শীর্ষ তিনটির মধ্যে প্রথম এবং দ্বিতীয় স্থানটি গুগল জেমিনি পরিবার দখল করেছে, GPT-4o এবং DeepSeek-R1 যৌথভাবে তৃতীয় স্থান অর্জন করেছে।
Qwen2.5-Max o1-প্রিভিউ সহ সপ্তম স্থানে রয়েছে, পুরো o1 থেকে কিছুটা পিছিয়ে।

এরপরে প্রতিটি বিভাগে Qwen2.5-Max-এর পারফরম্যান্স রয়েছে।
আরও যুক্তিসঙ্গতভাবে গণিত এবং কোড কাজগুলিতে, Qwen2.5-Max এর ফলাফল o1-mini এর ফলাফলকে ছাড়িয়ে গেছে, এবং এটি সম্পূর্ণ চার্জযুক্ত o1 এবং DeepSeek-R1 এর সাথে প্রথম স্থান অধিকার করেছে।
এবং গণিতের তালিকায় প্রথম স্থান অধিকারী মডেলগুলির মধ্যে, Qwen2.5-Max হল একমাত্র নন-রিজনিং মডেল।

নির্দিষ্ট যুদ্ধের রেকর্ডগুলি যদি আপনি ঘনিষ্ঠভাবে দেখেন, তাহলে আপনি দেখতে পাবেন যে Qwen2.5-Max-এর পূর্ণ-রক্তযুক্ত o1-এর বিপরীতে কোড ক্ষমতার দিক থেকে 69% জয়ের হার রয়েছে।

মধ্যে জটিল প্রম্পট শব্দ টাস্ক, Qwen2.5-Max এবং o1-preview দ্বিতীয় স্থানের জন্য সমান, এবং যদি এটি ইংরেজিতে সীমাবদ্ধ থাকে, তবে এটি o1-preview, DeepSeek-R1 ইত্যাদির সাথে সমানভাবে প্রথম স্থান অর্জন করতে পারে।

এছাড়াও, Qwen2.5-Max DeepSeek-R1 এর সাথে প্রথম স্থান অধিকার করেছে বহুমুখী সংলাপ; এটি তৃতীয় স্থানে রয়েছে দীর্ঘ লেখা (কমপক্ষে ৫০০ টোকেন), o1-প্রিভিউ ছাড়িয়ে।

এছাড়াও, আলী কারিগরি প্রতিবেদনে কিছু ক্লাসিক তালিকায় Qwen2.5-Max-এর পারফরম্যান্সও দেখিয়েছেন।
কমান্ড মডেলের তুলনায়, Arena-Hard (মানুষের পছন্দের অনুরূপ) এবং MMLU-Pro (বিশ্ববিদ্যালয়-স্তরের জ্ঞান) এর মতো মানদণ্ডে Qwen2.5-Max GPT-4o এবং Claude 3.5-Sonnet এর সমান বা তার চেয়ে বেশি।
ওপেন সোর্স বেস মডেলের তুলনায়, Qwen2.5-Max সব দিক দিয়ে DeepSeek-V3-কে ছাড়িয়ে গেছে এবং Llama 3.1-405B-এর থেকে অনেক এগিয়ে আছে।

বেস মডেলের ক্ষেত্রে, Qwen2.5-Max বেশিরভাগ বেঞ্চমার্ক পরীক্ষায় একটি উল্লেখযোগ্য সুবিধা দেখিয়েছে (ক্লোজড সোর্স মডেল বেস মডেল অ্যাক্সেসযোগ্য নয়, তাই শুধুমাত্র ওপেন সোর্স মডেলের তুলনা করা যেতে পারে)।

অসাধারণ কোড/অনুমান, আর্টিফ্যাক্ট সমর্থন করে
Qwen2.5-Max চালু হওয়ার পর, বিপুল সংখ্যক নেটিজেন এটি পরীক্ষা করতে এসেছিলেন।
এটি কোড এবং অনুমানের মতো ক্ষেত্রে উৎকৃষ্ট বলে প্রমাণিত হয়েছে।
উদাহরণস্বরূপ, এটি জাভাস্ক্রিপ্টে একটি দাবা খেলা লিখতে দিন।
ধন্যবাদ শিল্পকর্ম, একটি বাক্যে তৈরি একটি ছোট খেলা তাৎক্ষণিকভাবে খেলা যেতে পারে:

এটি যে কোড তৈরি করে তা প্রায়শই পড়া এবং ব্যবহার করা সহজ।
জটিল প্রম্পটগুলি অনুমান করার সময় Qwen2.5-Max দ্রুত এবং নির্ভুল:
গ্রাহকদের অনুরোধগুলি পরিচালনা করার জন্য আপনার দলের 3টি ধাপ রয়েছে:
তথ্য সংগ্রহ (পর্যায় A): প্রতি অনুরোধে ৫ মিনিট।
প্রক্রিয়াকরণ (পর্যায় B): প্রতি অনুরোধে ১০ মিনিট।
যাচাইকরণ (পর্যায় গ): প্রতি অনুরোধে ৮ মিনিট।
দলটি বর্তমানে ধারাবাহিকভাবে কাজ করছে, কিন্তু আপনি একটি সমান্তরাল কর্মপ্রবাহ বিবেচনা করছেন। যদি আপনি প্রতিটি পর্যায়ে দুজন লোক নিয়োগ করেন এবং একটি সমান্তরাল কর্মপ্রবাহের অনুমতি দেন, তাহলে প্রতি ঘন্টায় আউটপুট 20% বৃদ্ধি পাবে। তবে, একটি সমান্তরাল কর্মপ্রবাহ যোগ করলে অপারেটিং ওভারহেডের ক্ষেত্রে 15% বেশি খরচ হবে। সময় এবং খরচ বিবেচনা করে, দক্ষতা অপ্টিমাইজ করার জন্য আপনার কি একটি সমান্তরাল কর্মপ্রবাহ ব্যবহার করা উচিত?
Qwen2.5-Max সম্পূর্ণ অনুমানটি 30 সেকেন্ডেরও কম সময়ে সম্পন্ন করে, স্পষ্টতই সামগ্রিক প্রক্রিয়াটিকে পাঁচটি ধাপে বিভক্ত করে: বর্তমান কর্মপ্রবাহের বিশ্লেষণ, সমান্তরাল কর্মপ্রবাহের বিশ্লেষণ, খরচের প্রভাব, খরচ-দক্ষতার বিনিময় এবং সিদ্ধান্ত।
চূড়ান্ত সিদ্ধান্তে দ্রুত পৌঁছানো যায়: সমান্তরাল কর্মপ্রবাহ ব্যবহার করা উচিত।
DeepSeek-V3, যা একটি নন-ইনফারেন্স মডেল, এর তুলনায় Qwen2.5-Max আরও সংক্ষিপ্ত এবং দ্রুত প্রতিক্রিয়া প্রদান করে।
অথবা এটি ASCII সংখ্যা দিয়ে তৈরি একটি ঘূর্ণায়মান গোলক তৈরি করতে দিন। দেখার কোণের সবচেয়ে কাছের অঙ্কটি বিশুদ্ধ সাদা, যখন সবচেয়ে দূরে থাকা অঙ্কটি ধীরে ধীরে ধূসর হয়ে যায়, যার পটভূমি কালো।
একটি শব্দে নির্দিষ্ট অক্ষরের সংখ্যা গণনা করা আরও সহজ।

আপনি যদি নিজে চেষ্টা করে দেখতে চান, তাহলে Qwen2.5-Max ইতিমধ্যেই Qwen চ্যাট প্ল্যাটফর্মে অনলাইনে আছে এবং বিনামূল্যে এটি উপভোগ করা যাবে।
এন্টারপ্রাইজ ব্যবহারকারীরা আলিবাবা ক্লাউড বেইলিয়ানে Qwen2.5-Max মডেল API কল করতে পারেন।
