قبل قليل، تم إضافة نموذج محلي آخر إلى قائمة Big Model Arena
من علي، Qwen2.5-ماكس، والتي تفوقت على DeepSeek-V3 واحتلت المركز السابع في التصنيف العام بمجموع نقاط بلغ 1332.
كما تفوقت على نماذج مثل Claude 3.5 Sonnet و Llama 3.1 405B بضربة واحدة.

بخاصة، إنه متفوق في البرمجة والرياضيات، ويحتل المرتبة الأولى إلى جانب Fullblood o1 وDeepSeek-R1.

Chatbot Arena عبارة عن منصة اختبار أداء نموذجية كبيرة أطلقتها منظمة LMSYSيضم التطبيق حاليًا أكثر من 190 نموذجًا، ويستخدم نماذج مقترنة في فرق مكونة من شخصين يتم تقديمها للمستخدمين للاختبار الأعمى، مع تصويت المستخدمين على قدرات النماذج بناءً على تجاربهم في المحادثة في الحياة الواقعية.
لهذا السبب، تعد لوحة صدارة Chatbot Arena LLM الساحة الأكثر موثوقية وأهمية لأفضل النماذج الكبيرة في العالم.
كوين 2.5-ماكس كما احتل المركز العاشر في المعرض الذي تم افتتاحه حديثًا تطوير الويب قائمة لتطوير تطبيقات الويب.

التعليق الرسمي لـ lmsys على هذا هو أن الذكاء الاصطناعي الصيني يسد الفجوة بسرعة!

يقول مستخدمو الإنترنت الذين استخدموه شخصيًا أن أداء Qwen أكثر استقرارًا.

ويقول بعض الناس أيضًا أن Qwen سوف تحل قريبًا محل جميع النماذج العادية في وادي السيليكون.

أربع قدرات فردية تصل إلى القمة
حصلت عائلة Google Gemini على المركزين الأول والثاني في المراكز الثلاثة الأولى في القائمة الإجمالية، مع تعادل GPT-4o وDeepSeek-R1 في المركز الثالث.
تعادل Qwen2.5-Max في المركز السابع مع o1-preview، متأخرًا قليلاً عن o1 الكامل.

التالي هو أداء Qwen2.5-Max في كل فئة فردية.
في أكثر منطقية الرياضيات والبرمجة في المهام، تجاوزت نتائج Qwen2.5-Max نتائج o1-mini، وتعادلت في المركز الأول مع o1 المشحونة بالكامل وDeepSeek-R1.
ومن بين النماذج التي احتلت المركز الأول في قائمة الرياضيات، يعد Qwen2.5-Max النموذج غير المنطقي الوحيد.

إذا نظرت عن كثب إلى سجلات المعركة المحددة، يمكنك أيضًا أن ترى أن Qwen2.5-Max لديه معدل فوز 69% في قدرة الكود ضد o1 كامل الدم.

في كلمة سريعة معقدة المهمة، Qwen2.5-Max وo1-preview متعادلان في المركز الثاني، وإذا كانت مقتصرة على اللغة الإنجليزية، فيمكنها أن تحتل المرتبة الأولى، على قدم المساواة مع o1-preview، DeepSeek-R1، وما إلى ذلك.

بالإضافة إلى ذلك، تعادل Qwen2.5-Max في المركز الأول مع DeepSeek-R1 في حوار متعدد الأدوار؛ يحتل المرتبة الثالثة في نص طويل (لا يقل عن 500 رمز)، متجاوزًا معاينة o1.

بالإضافة إلى ذلك، أظهر علي أيضًا أداء Qwen2.5-Max في بعض القوائم الكلاسيكية في التقرير الفني.
في مقارنة نماذج الأوامر، يكون Qwen2.5-Max على نفس المستوى أو أعلى من GPT-4o وClaude 3.5-Sonnet في معايير مثل Arena-Hard (مشابهة للتفضيلات البشرية) وMMLU-Pro (المعرفة على مستوى الجامعة).
في مقارنة النموذج الأساسي مفتوح المصدر، تفوق Qwen2.5-Max أيضًا على DeepSeek-V3 في جميع المجالات وكان متقدمًا بشكل كبير على Llama 3.1-405B.

أما بالنسبة للنموذج الأساسي، فقد أظهر Qwen2.5-Max أيضًا ميزة كبيرة في معظم اختبارات المعايير (لا يمكن الوصول إلى النموذج الأساسي للنموذج المغلق المصدر، لذلك لا يمكن مقارنة سوى النموذج مفتوح المصدر).

كود/استدلال رائع، يدعم القطع الأثرية
بعد إطلاق Qwen2.5-Max، جاء عدد كبير من مستخدمي الإنترنت لاختباره.
وقد وجد أنها تتفوق في مجالات مثل الترميز والاستدلال.
على سبيل المثال، دعه يكتب لعبة شطرنج في JavaScript.
شكرا ل التحف، لعبة صغيرة تم تطويرها في جملة واحدة يمكن لعبها على الفور:

غالبًا ما يكون الكود الذي يولده أسهل للقراءة والاستخدام.
يعد Qwen2.5-Max سريعًا ودقيقًا عند استنتاج المطالبات المعقدة:
لدى فريقك 3 خطوات للتعامل مع طلبات العملاء:
جمع البيانات (المرحلة أ): 5 دقائق لكل طلب.
المعالجة (المرحلة ب): 10 دقائق لكل طلب.
التحقق (المرحلة ج): 8 دقائق لكل طلب.
يعمل الفريق حاليًا بشكل متسلسل، ولكنك تفكر في سير عمل متوازي. إذا قمت بتعيين شخصين لكل مرحلة وسمحت بسير عمل متوازي، فإن الناتج لكل ساعة سيزداد بمقدار 20%. ومع ذلك، فإن إضافة سير عمل متوازي سيكلف 15% أكثر من حيث النفقات العامة التشغيلية. بالنظر إلى الوقت والتكلفة، هل يجب عليك استخدام سير عمل متوازي لتحسين الكفاءة؟
يكمل Qwen2.5-Max الاستدلال بأكمله في أقل من 30 ثانية، ويقسم العملية الإجمالية بوضوح إلى خمس خطوات: تحليل سير العمل الحالي، وتحليل سير العمل الموازي، والآثار المترتبة على التكلفة، والمقايضات بين التكلفة والكفاءة، والاستنتاجات.
تم التوصل بسرعة إلى الاستنتاج النهائي: يجب استخدام سير العمل المتوازي.
بالمقارنة مع DeepSeek-V3، وهو أيضًا نموذج غير استدلالي، يوفر Qwen2.5-Max استجابة أكثر إيجازًا وسرعة.
أو دعه يولد كرة دوارة مكونة من أرقام ASCII. الرقم الأقرب إلى زاوية العرض يكون أبيض نقيًا، بينما الرقم الأبعد يتحول تدريجيًا إلى اللون الرمادي، مع خلفية سوداء.
يعد حساب عدد الحروف المحددة في الكلمة أسهل من ذلك.

إذا كنت تريد تجربته بنفسك، فإن Qwen2.5-Max متاح بالفعل على منصة Qwen Chat ويمكنك تجربته مجانًا.
يمكن لمستخدمي المؤسسات الاتصال بواجهة برمجة التطبيقات الخاصة بنموذج Qwen2.5-Max على Alibaba Cloud Bailian.
