আলী কিউয়েন২.৫-ম্যাক্স ১টিপি৮টি-ভি৩ কে ছাড়িয়ে গেছে! নেটিজেন: চীনের এআই দ্রুত ব্যবধান কমিয়ে আনছে

এইমাত্র, বিগ মডেল এরিনার তালিকায় আরও একটি দেশীয় মডেল যুক্ত হয়েছে।

আলীর কাছ থেকে, Qwen2.5-সর্বোচ্চ, যা DeepSeek-V3 কে ছাড়িয়ে গেছে এবং মোট 1332 স্কোর নিয়ে সামগ্রিক র‍্যাঙ্কিংয়ে সপ্তম স্থানে রয়েছে।

এটি এক ধাক্কায় ক্লাউড ৩.৫ সনেট এবং লামা ৩.১ ৪০৫বি-এর মতো মডেলগুলিকেও ছাড়িয়ে গেছে।

বিশেষ করে, এটি প্রোগ্রামিং এবং গণিতে উৎকৃষ্ট, এবং ফুলব্লাড o1 এবং DeepSeek-R1 এর সাথে প্রথম স্থানে রয়েছে।

চ্যাটবট এরিনা হল একটি বৃহৎ মডেল পারফরম্যান্স টেস্টিং প্ল্যাটফর্ম যা চালু করেছে LMSYS Org সম্পর্কে। এটি বর্তমানে ১৯০ টিরও বেশি মডেলকে একীভূত করে এবং ব্যবহারকারীদের অন্ধ পরীক্ষার জন্য দুটি দলের জোড়া মডেল ব্যবহার করে, যেখানে ব্যবহারকারীরা তাদের বাস্তব জীবনের কথোপকথনের অভিজ্ঞতার ভিত্তিতে মডেলগুলির ক্ষমতার উপর ভোট দেন।

এই কারণে, চ্যাটবট এরিনা এলএলএম লিডারবোর্ড হল বিশ্বের শীর্ষস্থানীয় বৃহৎ মডেলদের জন্য সবচেয়ে কর্তৃত্বপূর্ণ এবং গুরুত্বপূর্ণ ক্ষেত্র।

কিউয়েন ২.৫-ম্যাক্স নতুন খোলা শীর্ষ দশে স্থান করে নিয়েছে ওয়েবডেভ ওয়েব অ্যাপ্লিকেশন ডেভেলপমেন্টের জন্য তালিকা।

এই বিষয়ে lmsys-এর অফিসিয়াল মন্তব্য হল যে চীনা এআই দ্রুত ব্যবধান কমিয়ে আনছে!

যারা ব্যক্তিগতভাবে এটি ব্যবহার করেছেন তারা বলছেন যে কুয়েনের অভিনয় আরও স্থিতিশীল।

কেউ কেউ এমনকি বলেন যে কুয়েন শীঘ্রই সিলিকন ভ্যালির সমস্ত সাধারণ মডেল প্রতিস্থাপন করবে।

সূচিপত্র

চারটি ব্যক্তিগত ক্ষমতা শীর্ষে পৌঁছায়

সামগ্রিক তালিকার শীর্ষ তিনটির মধ্যে প্রথম এবং দ্বিতীয় স্থানটি গুগল জেমিনি পরিবার দখল করেছে, GPT-4o এবং DeepSeek-R1 যৌথভাবে তৃতীয় স্থান অর্জন করেছে।

Qwen2.5-Max o1-প্রিভিউ সহ সপ্তম স্থানে রয়েছে, পুরো o1 থেকে কিছুটা পিছিয়ে।

এরপরে প্রতিটি বিভাগে Qwen2.5-Max-এর পারফরম্যান্স রয়েছে।

আরও যুক্তিসঙ্গতভাবে গণিত এবং কোড কাজগুলিতে, Qwen2.5-Max এর ফলাফল o1-mini এর ফলাফলকে ছাড়িয়ে গেছে, এবং এটি সম্পূর্ণ চার্জযুক্ত o1 এবং DeepSeek-R1 এর সাথে প্রথম স্থান অধিকার করেছে।

এবং গণিতের তালিকায় প্রথম স্থান অধিকারী মডেলগুলির মধ্যে, Qwen2.5-Max হল একমাত্র নন-রিজনিং মডেল।

নির্দিষ্ট যুদ্ধের রেকর্ডগুলি যদি আপনি ঘনিষ্ঠভাবে দেখেন, তাহলে আপনি দেখতে পাবেন যে Qwen2.5-Max-এর পূর্ণ-রক্তযুক্ত o1-এর বিপরীতে কোড ক্ষমতার দিক থেকে 69% জয়ের হার রয়েছে।

মধ্যে জটিল প্রম্পট শব্দ টাস্ক, Qwen2.5-Max এবং o1-preview দ্বিতীয় স্থানের জন্য সমান, এবং যদি এটি ইংরেজিতে সীমাবদ্ধ থাকে, তবে এটি o1-preview, DeepSeek-R1 ইত্যাদির সাথে সমানভাবে প্রথম স্থান অর্জন করতে পারে।

এছাড়াও, Qwen2.5-Max DeepSeek-R1 এর সাথে প্রথম স্থান অধিকার করেছে বহুমুখী সংলাপ; এটি তৃতীয় স্থানে রয়েছে দীর্ঘ লেখা (কমপক্ষে ৫০০ টোকেন), o1-প্রিভিউ ছাড়িয়ে।

এছাড়াও, আলী কারিগরি প্রতিবেদনে কিছু ক্লাসিক তালিকায় Qwen2.5-Max-এর পারফরম্যান্সও দেখিয়েছেন।

কমান্ড মডেলের তুলনায়, Arena-Hard (মানুষের পছন্দের অনুরূপ) এবং MMLU-Pro (বিশ্ববিদ্যালয়-স্তরের জ্ঞান) এর মতো মানদণ্ডে Qwen2.5-Max GPT-4o এবং Claude 3.5-Sonnet এর সমান বা তার চেয়ে বেশি।

ওপেন সোর্স বেস মডেলের তুলনায়, Qwen2.5-Max সব দিক দিয়ে DeepSeek-V3-কে ছাড়িয়ে গেছে এবং Llama 3.1-405B-এর থেকে অনেক এগিয়ে আছে।

বেস মডেলের ক্ষেত্রে, Qwen2.5-Max বেশিরভাগ বেঞ্চমার্ক পরীক্ষায় একটি উল্লেখযোগ্য সুবিধা দেখিয়েছে (ক্লোজড সোর্স মডেল বেস মডেল অ্যাক্সেসযোগ্য নয়, তাই শুধুমাত্র ওপেন সোর্স মডেলের তুলনা করা যেতে পারে)।

অসাধারণ কোড/অনুমান, আর্টিফ্যাক্ট সমর্থন করে

Qwen2.5-Max চালু হওয়ার পর, বিপুল সংখ্যক নেটিজেন এটি পরীক্ষা করতে এসেছিলেন।

এটি কোড এবং অনুমানের মতো ক্ষেত্রে উৎকৃষ্ট বলে প্রমাণিত হয়েছে।

উদাহরণস্বরূপ, এটি জাভাস্ক্রিপ্টে একটি দাবা খেলা লিখতে দিন।

ধন্যবাদ শিল্পকর্ম, একটি বাক্যে তৈরি একটি ছোট খেলা তাৎক্ষণিকভাবে খেলা যেতে পারে:

এটি যে কোড তৈরি করে তা প্রায়শই পড়া এবং ব্যবহার করা সহজ।

জটিল প্রম্পটগুলি অনুমান করার সময় Qwen2.5-Max দ্রুত এবং নির্ভুল:

গ্রাহকদের অনুরোধগুলি পরিচালনা করার জন্য আপনার দলের 3টি ধাপ রয়েছে:

তথ্য সংগ্রহ (পর্যায় A): প্রতি অনুরোধে ৫ মিনিট।

প্রক্রিয়াকরণ (পর্যায় B): প্রতি অনুরোধে ১০ মিনিট।

যাচাইকরণ (পর্যায় গ): প্রতি অনুরোধে ৮ মিনিট।

দলটি বর্তমানে ধারাবাহিকভাবে কাজ করছে, কিন্তু আপনি একটি সমান্তরাল কর্মপ্রবাহ বিবেচনা করছেন। যদি আপনি প্রতিটি পর্যায়ে দুজন লোক নিয়োগ করেন এবং একটি সমান্তরাল কর্মপ্রবাহের অনুমতি দেন, তাহলে প্রতি ঘন্টায় আউটপুট 20% বৃদ্ধি পাবে। তবে, একটি সমান্তরাল কর্মপ্রবাহ যোগ করলে অপারেটিং ওভারহেডের ক্ষেত্রে 15% বেশি খরচ হবে। সময় এবং খরচ বিবেচনা করে, দক্ষতা অপ্টিমাইজ করার জন্য আপনার কি একটি সমান্তরাল কর্মপ্রবাহ ব্যবহার করা উচিত?

Qwen2.5-Max সম্পূর্ণ অনুমানটি 30 সেকেন্ডেরও কম সময়ে সম্পন্ন করে, স্পষ্টতই সামগ্রিক প্রক্রিয়াটিকে পাঁচটি ধাপে বিভক্ত করে: বর্তমান কর্মপ্রবাহের বিশ্লেষণ, সমান্তরাল কর্মপ্রবাহের বিশ্লেষণ, খরচের প্রভাব, খরচ-দক্ষতার বিনিময় এবং সিদ্ধান্ত।

চূড়ান্ত সিদ্ধান্তে দ্রুত পৌঁছানো যায়: সমান্তরাল কর্মপ্রবাহ ব্যবহার করা উচিত।

DeepSeek-V3, যা একটি নন-ইনফারেন্স মডেল, এর তুলনায় Qwen2.5-Max আরও সংক্ষিপ্ত এবং দ্রুত প্রতিক্রিয়া প্রদান করে।

অথবা এটি ASCII সংখ্যা দিয়ে তৈরি একটি ঘূর্ণায়মান গোলক তৈরি করতে দিন। দেখার কোণের সবচেয়ে কাছের অঙ্কটি বিশুদ্ধ সাদা, যখন সবচেয়ে দূরে থাকা অঙ্কটি ধীরে ধীরে ধূসর হয়ে যায়, যার পটভূমি কালো।

একটি শব্দে নির্দিষ্ট অক্ষরের সংখ্যা গণনা করা আরও সহজ।

আপনি যদি নিজে চেষ্টা করে দেখতে চান, তাহলে Qwen2.5-Max ইতিমধ্যেই Qwen চ্যাট প্ল্যাটফর্মে অনলাইনে আছে এবং বিনামূল্যে এটি উপভোগ করা যাবে।

এন্টারপ্রাইজ ব্যবহারকারীরা আলিবাবা ক্লাউড বেইলিয়ানে Qwen2.5-Max মডেল API কল করতে পারেন।

অশ্রেণীভুক্ত

প্রথম লঞ্চ! SiliconFlow X Huawei ক্লাউড অ্যাসেন্ড ক্লাউডের উপর ভিত্তি করে যৌথভাবে DeepSeek R1 এবং V3 অনুমান পরিষেবা চালু করেছে!

দ্বারাzddeepseeker অক্টোবর 1, 2025অক্টোবর 1, 2025

DeepSeek-R1 এবং DeepSeek-V3 তাদের ওপেন সোর্স লঞ্চ হওয়ার পর থেকে বিশ্বব্যাপী আলোড়ন সৃষ্টি করেছে। তারা DeepSeek টিমের পক্ষ থেকে সমস্ত মানবতার জন্য একটি উপহার, এবং আমরা তাদের সাফল্যের জন্য আন্তরিকভাবে খুশি। সিলিকন মোবিলিটি এবং হুয়াওয়ে ক্লাউড টিমের কঠোর পরিশ্রমের পর, আজ আমরা চাইনিজ ব্যবহারকারীদের একটি চাইনিজ উপহার দিচ্ছি...

অশ্রেণীভুক্ত

DeepSeek এটা করেছে! OpenAI ক্লোজড সোর্স ভুল স্বীকার করে, অগ্রণী প্রান্ত সুবিধা ছোট হয়ে যায়

দ্বারাzddeepseeker ২ অক্টোবর, ২০২৫২ অক্টোবর, ২০২৫

ওপেনএআই o3-মিনি মডেল প্রকাশ করার পর, এর সিইও স্যাম অল্টম্যান, প্রধান গবেষণা কর্মকর্তা মার্ক চেন, প্রধান পণ্য কর্মকর্তা কেভিন ওয়েইল; ইঞ্জিনিয়ারিং এর ভাইস প্রেসিডেন্ট শ্রীনিবাস নারায়ণন, এপিআই রিসার্চের প্রধান মিশেল পোক্রাস এবং রিসার্চের প্রধান হংইউ রেন, বিশ্বের বৃহত্তম ব্যাপক ফোরামগুলির মধ্যে একটি রেডিটে একটি অনলাইন প্রযুক্তিগত প্রশ্নোত্তর পরিচালনা করেছেন। মূল বিষয়গুলো…

অশ্রেণীভুক্ত

ব্রেকিং নিউজ! OpenAI আজ 2টি নতুন ইনফারেন্স মডেল প্রকাশ করেছে: o3-mini এবং o3-mini-high।

দ্বারাzddeepseeker অক্টোবর 1, 2025অক্টোবর 1, 2025

o3-mini এবং o3-mini (হাই) আজ মুক্তি পাবে। নিয়মিত ব্যবহারকারীরাও o3-mini পাবেন এবং প্লাস ব্যবহারকারীরা o3-mini (উচ্চ) ব্যবহার করতে পারবেন। o3-মিনি (উচ্চ) কোডফোর্সে o1 থেকে প্রায় 200 পয়েন্ট বেশি, o1 থেকে দ্রুত, এবং কোডিং এবং গণিতে আরও ভাল পারফর্ম করে, কিন্তু খরচ এখনও o1-মিনি স্তরে রয়েছে….

অশ্রেণীভুক্ত

জেমিনি ২.০ চার্টে প্রাধান্য পাচ্ছে, অন্যদিকে DeepSeek V3 এর দাম নিয়ে চিৎকার করছে, এবং একজন নতুন সাশ্রয়ী চ্যাম্পিয়নের জন্ম হচ্ছে!

দ্বারাzddeepseeker অক্টোবর 8, 2025অক্টোবর 8, 2025

গুগল জেমিনি ২.০ পরিবার অবশেষে সম্পূর্ণ হল! এটি প্রকাশের সাথে সাথেই চার্টে আধিপত্য বিস্তার করে। ডিপসিক, কিউয়েন এবং o3 এর তাড়াহুড়ো এবং অবরোধের মধ্যে, গুগল আজ সকালে একসাথে তিনটি মডেল প্রকাশ করেছে: জেমিনি ২.০ প্রো, জেমিনি ২.০ ফ্ল্যাশ এবং জেমিনি ২.০ ফ্ল্যাশ-লাইট। বৃহৎ মডেল LMSYS র‍্যাঙ্কিংয়ে, জেমিনি…

অশ্রেণীভুক্ত

গুগলের কম দামের মডেল, জেমিনি ২.০ সিরিজ, আক্রমণাত্মক: বড় মডেলগুলিতে খরচ-কার্যকারিতার লড়াই তীব্রতর হচ্ছে

দ্বারাzddeepseeker অক্টোবর 8, 2025অক্টোবর 8, 2025

বৃহৎ AI মডেল ব্যবহারের উচ্চ খরচ একটি প্রধান কারণ যার ফলে অনেক AI অ্যাপ্লিকেশন এখনও বাস্তবায়িত এবং প্রচারিত হয়নি। চরম কর্মক্ষমতা নির্বাচনের অর্থ হল বিশাল কম্পিউটিং পাওয়ার খরচ, যার ফলে উচ্চ ব্যবহারের খরচ হয় যা সাধারণ ব্যবহারকারীরা মেনে নিতে পারেন না। বৃহৎ AI মডেলের প্রতিযোগিতা ধোঁয়া ছাড়াই যুদ্ধের মতো। পরে…

অশ্রেণীভুক্ত

OpenAI o3-mini বনাম DeepSeek-R1: নতুন প্রজন্মের AI মডেলের রাজা কে?

দ্বারাzddeepseeker অক্টোবর 1, 2025অক্টোবর 1, 2025

o3-mini এখানে, একজন চ্যালেঞ্জারের গতির সাথে 31 জানুয়ারী, OpenAI একেবারে নতুন o3-mini বৃহৎ মডেল প্রকাশ করেছে এবং সমস্ত ChatGPT ব্যবহারকারীদের জন্য বিনামূল্যে এর কিছু ফাংশন প্রদান করেছে। যদিও প্রশ্নের সংখ্যার একটি সীমা রয়েছে, এটি ব্যবহারকারীদের যত তাড়াতাড়ি সম্ভব OpenAI এর সর্বশেষ বাণিজ্যিক মডেলের অভিজ্ঞতা লাভ করতে দেয়।

Ali Qwen2.5-Max DeepSeek-V3 কে ছাড়িয়ে গেছে! নেটিজেন: চীনের AI দ্রুত ব্যবধান কমিয়ে আনছে

চারটি ব্যক্তিগত ক্ষমতা শীর্ষে পৌঁছায়

অসাধারণ কোড/অনুমান, আর্টিফ্যাক্ট সমর্থন করে

প্রথম লঞ্চ! SiliconFlow X Huawei ক্লাউড অ্যাসেন্ড ক্লাউডের উপর ভিত্তি করে যৌথভাবে DeepSeek R1 এবং V3 অনুমান পরিষেবা চালু করেছে!

DeepSeek এটা করেছে! OpenAI ক্লোজড সোর্স ভুল স্বীকার করে, অগ্রণী প্রান্ত সুবিধা ছোট হয়ে যায়

ব্রেকিং নিউজ! OpenAI আজ 2টি নতুন ইনফারেন্স মডেল প্রকাশ করেছে: o3-mini এবং o3-mini-high।

গুগলের কম দামের মডেল, জেমিনি ২.০ সিরিজ, আক্রমণাত্মক: বড় মডেলগুলিতে খরচ-কার্যকারিতার লড়াই তীব্রতর হচ্ছে

OpenAI o3-mini বনাম DeepSeek-R1: নতুন প্রজন্মের AI মডেলের রাজা কে?

মন্তব্য করুন জবাব বাতিল

চারটি ব্যক্তিগত ক্ষমতা শীর্ষে পৌঁছায়

অসাধারণ কোড/অনুমান, আর্টিফ্যাক্ট সমর্থন করে

অনুরূপ পোস্ট

মন্তব্য করুন জবাব বাতিল