ابھی ابھی بگ ماڈل ایرینا کی فہرست میں ایک اور گھریلو ماڈل کا اضافہ ہوا ہے۔

علی سے، Qwen2.5-زیادہ سے زیادہجس نے DeepSeek-V3 کو پیچھے چھوڑ دیا اور 1332 کے کل سکور کے ساتھ مجموعی درجہ بندی میں ساتویں نمبر پر ہے۔

اس نے Claude 3.5 Sonnet اور Llama 3.1 405B جیسے ماڈلز کو بھی ایک ساتھ پیچھے چھوڑ دیا۔

خاص طور پر، یہ پروگرامنگ اور ریاضی میں مہارت رکھتا ہے۔، اور Fullblood o1 اور DeepSeek-R1 کے ساتھ پہلے نمبر پر ہے۔

چیٹ بوٹ ایرینا ایک بڑا ماڈل پرفارمنس ٹیسٹنگ پلیٹ فارم ہے جس کا آغاز کیا گیا ہے۔ LMSYS تنظیم. یہ فی الحال 190 سے زیادہ ماڈلز کو ضم کرتا ہے، اور دو کی ٹیموں میں جوڑا بنائے گئے ماڈلز کا استعمال کرتا ہے جو صارفین کو اندھی جانچ کے لیے دیے جاتے ہیں، صارفین ان کی حقیقی زندگی کی گفتگو کے تجربات کی بنیاد پر ماڈلز کی صلاحیتوں پر ووٹ دیتے ہیں۔

اس وجہ سے، چیٹ بوٹ ایرینا LLM لیڈر بورڈ دنیا کے بڑے ماڈلز کے لیے سب سے زیادہ مستند اور اہم میدان ہے۔

Qwen 2.5-زیادہ سے زیادہ بھی نئے کھلے پر سب سے اوپر دس میں توڑ دیا ویب ڈیو ویب ایپلیکیشن ڈویلپمنٹ کی فہرست۔

اس پر سرکاری ایل ایم ایس ایس کا تبصرہ یہ ہے۔ چینی AI تیزی سے خلا کو ختم کر رہا ہے۔!

ذاتی طور پر استعمال کرنے والے نیٹیزین کا کہنا ہے کہ کیوین کی کارکردگی زیادہ مستحکم ہے۔

کچھ لوگ یہاں تک کہتے ہیں کہ Qwen جلد ہی سلیکون ویلی میں تمام عام ماڈلز کی جگہ لے لے گی۔

چار انفرادی صلاحیتیں اوپر پہنچتی ہیں۔

مجموعی فہرست کے سب سے اوپر تین میں پہلا اور دوسرا مقام گوگل جیمنی فیملی نے حاصل کیا، GPT-4o اور DeepSeek-R1 تیسرے نمبر پر ہیں۔

Qwen2.5-Max ساتویں نمبر پر o1-preview کے ساتھ، مکمل o1 سے تھوڑا پیچھے۔

اس کے بعد ہر انفرادی زمرے میں Qwen2.5-Max کی کارکردگی ہے۔

زیادہ منطقی طور پر ریاضی اور کوڈ کاموں میں، Qwen2.5-Max کے نتائج o1-mini کے نتائج سے بڑھ گئے، اور یہ مکمل طور پر چارج شدہ o1 اور DeepSeek-R1 کے ساتھ پہلے نمبر پر رہا۔

اور ریاضی کی فہرست میں پہلی پوزیشن کے لیے بندھے ہوئے ماڈلز میں، Qwen2.5-Max واحد غیر معقول ماڈل ہے۔

اگر آپ جنگ کے مخصوص ریکارڈز کو قریب سے دیکھیں تو آپ یہ بھی دیکھ سکتے ہیں کہ Qwen2.5-Max میں مکمل خون والے o1 کے مقابلے کوڈ کی صلاحیت میں 69% جیت کی شرح ہے۔

میں پیچیدہ فوری لفظ ٹاسک، Qwen2.5-Max اور o1-preview دوسرے نمبر پر بندھے ہوئے ہیں، اور اگر یہ انگریزی تک محدود ہے، تو یہ o1-preview، DeepSeek-R1، وغیرہ کے برابر، پہلے نمبر پر آ سکتا ہے۔

اس کے علاوہ، Qwen2.5-Max پہلے مقام پر DeepSeek-R1 کے ساتھ برابر ہے۔ کثیر موڑ مکالمہ; اس میں تیسرے نمبر پر ہے۔ طویل متن (500 ٹوکن سے کم نہیں)، o1-پیش نظارہ کو پیچھے چھوڑتے ہوئے۔

اس کے علاوہ، علی نے تکنیکی رپورٹ میں کچھ کلاسک فہرستوں میں Qwen2.5-Max کی کارکردگی کو بھی دکھایا۔

کمانڈ ماڈلز کے مقابلے میں، Qwen2.5-Max بینچ مارکس میں GPT-4o اور Claude 3.5-Sonnet کے برابر یا اس سے زیادہ ہے جیسے Arena-Hard (انسانی ترجیحات سے ملتا جلتا) اور MMLU-Pro (یونیورسٹی کی سطح کا علم)۔

اوپن سورس بیس ماڈل کے مقابلے میں، Qwen2.5-Max نے بھی پورے بورڈ میں DeepSeek-V3 کو پیچھے چھوڑ دیا اور Llama 3.1-405B سے بہت آگے تھا۔

جہاں تک بیس ماڈل کا تعلق ہے، Qwen2.5-Max نے بھی زیادہ تر بینچ مارک ٹیسٹوں میں ایک اہم فائدہ دکھایا (بند سورس ماڈل بیس ماڈل قابل رسائی نہیں ہے، اس لیے صرف اوپن سورس ماڈل کا موازنہ کیا جا سکتا ہے)۔

بقایا کوڈ/انفرنس، نمونے کی حمایت کرتا ہے۔

Qwen2.5-Max کے لانچ ہونے کے بعد، بڑی تعداد میں netizens اسے آزمانے آئے۔

یہ کوڈ اور انفرنس جیسے شعبوں میں بہترین پایا گیا ہے۔

مثال کے طور پر، اسے جاوا اسکرپٹ میں شطرنج کا کھیل لکھنے دیں۔

کا شکریہ نمونے، ایک ہی جملے میں تیار کردہ ایک چھوٹا سا کھیل فوری طور پر کھیلا جا سکتا ہے:

یہ جو کوڈ تیار کرتا ہے اسے پڑھنا اور استعمال کرنا اکثر آسان ہوتا ہے۔

پیچیدہ اشارے کا اندازہ لگاتے وقت Qwen2.5-Max تیز اور درست ہے:

کسٹمر کی درخواستوں کو سنبھالنے کے لیے آپ کی ٹیم کے پاس 3 مراحل ہیں:

ڈیٹا اکٹھا کرنا (مرحلہ A): 5 منٹ فی درخواست۔

پروسیسنگ (مرحلہ B): فی درخواست 10 منٹ۔

تصدیق (مرحلہ C): 8 منٹ فی درخواست۔

ٹیم فی الحال ترتیب وار کام کرتی ہے، لیکن آپ ایک متوازی ورک فلو پر غور کر رہے ہیں۔ اگر آپ ہر مرحلے کے لیے دو افراد کو تفویض کرتے ہیں اور ایک متوازی ورک فلو کی اجازت دیتے ہیں تو فی گھنٹہ آؤٹ پٹ 20% تک بڑھ جائے گا۔ تاہم، ایک متوازی ورک فلو کو شامل کرنے پر آپریٹنگ اوور ہیڈ کے لحاظ سے 15% زیادہ لاگت آئے گی۔ وقت اور لاگت کو مدنظر رکھتے ہوئے، کیا آپ کو کارکردگی کو بہتر بنانے کے لیے متوازی ورک فلو استعمال کرنا چاہیے؟

Qwen2.5-Max 30 سیکنڈ سے بھی کم وقت میں پورے تخمینے کو مکمل کرتا ہے، مجموعی عمل کو واضح طور پر پانچ مراحل میں تقسیم کرتا ہے: موجودہ ورک فلو کا تجزیہ، متوازی ورک فلو کا تجزیہ، لاگت کے مضمرات، لاگت کی کارکردگی کی تجارت، اور نتائج۔

حتمی نتیجے پر جلدی پہنچ جاتی ہے: متوازی ورک فلو استعمال کیا جانا چاہیے۔

DeepSeek-V3 کے مقابلے میں، جو کہ ایک نان انفرنس ماڈل بھی ہے، Qwen2.5-Max زیادہ جامع اور تیز ردعمل فراہم کرتا ہے۔

یا اسے ASCII ہندسوں سے بنا ایک گھومنے والا دائرہ بنانے دیں۔ دیکھنے کے زاویے کے قریب ترین ہندسہ خالص سفید ہے، جب کہ سب سے دور سیاہ پس منظر کے ساتھ آہستہ آہستہ سرمئی ہو جاتا ہے۔

ایک لفظ میں مخصوص حروف کی تعداد گننا اور بھی آسان ہے۔

اگر آپ اسے خود آزمانا چاہتے ہیں تو، Qwen2.5-Max پہلے سے ہی Qwen Chat پلیٹ فارم پر آن لائن ہے اور مفت میں تجربہ کیا جا سکتا ہے۔

انٹرپرائز صارفین علی بابا کلاؤڈ بیلین پر Qwen2.5-Max ماڈل API کو کال کر سکتے ہیں۔

ملتے جلتے پوسٹس

جواب دیں

آپ کا ای میل ایڈریس شائع نہیں کیا جائے گا۔ ضروری خانوں کو * سے نشان زد کیا گیا ہے