علي كوين 2.5-ماكس يتفوق على DeepSeek-V3! مستخدمو الإنترنت: الذكاء الاصطناعي الصيني يسد الفجوة بسرعة

قبل قليل، تم إضافة نموذج محلي آخر إلى قائمة Big Model Arena

من علي، Qwen2.5-ماكس، والتي تفوقت على DeepSeek-V3 واحتلت المركز السابع في التصنيف العام بمجموع نقاط بلغ 1332.

كما تفوقت على نماذج مثل Claude 3.5 Sonnet و Llama 3.1 405B بضربة واحدة.

بخاصة، إنه متفوق في البرمجة والرياضيات، ويحتل المرتبة الأولى إلى جانب Fullblood o1 وDeepSeek-R1.

Chatbot Arena عبارة عن منصة اختبار أداء نموذجية كبيرة أطلقتها منظمة LMSYSيضم التطبيق حاليًا أكثر من 190 نموذجًا، ويستخدم نماذج مقترنة في فرق مكونة من شخصين يتم تقديمها للمستخدمين للاختبار الأعمى، مع تصويت المستخدمين على قدرات النماذج بناءً على تجاربهم في المحادثة في الحياة الواقعية.

لهذا السبب، تعد لوحة صدارة Chatbot Arena LLM الساحة الأكثر موثوقية وأهمية لأفضل النماذج الكبيرة في العالم.

كوين 2.5-ماكس كما احتل المركز العاشر في المعرض الذي تم افتتاحه حديثًا تطوير الويب قائمة لتطوير تطبيقات الويب.

التعليق الرسمي لـ lmsys على هذا هو أن الذكاء الاصطناعي الصيني يسد الفجوة بسرعة!

يقول مستخدمو الإنترنت الذين استخدموه شخصيًا أن أداء Qwen أكثر استقرارًا.

ويقول بعض الناس أيضًا أن Qwen سوف تحل قريبًا محل جميع النماذج العادية في وادي السيليكون.

جدول المحتويات

أربع قدرات فردية تصل إلى القمة

حصلت عائلة Google Gemini على المركزين الأول والثاني في المراكز الثلاثة الأولى في القائمة الإجمالية، مع تعادل GPT-4o وDeepSeek-R1 في المركز الثالث.

تعادل Qwen2.5-Max في المركز السابع مع o1-preview، متأخرًا قليلاً عن o1 الكامل.

التالي هو أداء Qwen2.5-Max في كل فئة فردية.

في أكثر منطقية الرياضيات والبرمجة في المهام، تجاوزت نتائج Qwen2.5-Max نتائج o1-mini، وتعادلت في المركز الأول مع o1 المشحونة بالكامل وDeepSeek-R1.

ومن بين النماذج التي احتلت المركز الأول في قائمة الرياضيات، يعد Qwen2.5-Max النموذج غير المنطقي الوحيد.

إذا نظرت عن كثب إلى سجلات المعركة المحددة، يمكنك أيضًا أن ترى أن Qwen2.5-Max لديه معدل فوز 69% في قدرة الكود ضد o1 كامل الدم.

في كلمة سريعة معقدة المهمة، Qwen2.5-Max وo1-preview متعادلان في المركز الثاني، وإذا كانت مقتصرة على اللغة الإنجليزية، فيمكنها أن تحتل المرتبة الأولى، على قدم المساواة مع o1-preview، DeepSeek-R1، وما إلى ذلك.

بالإضافة إلى ذلك، تعادل Qwen2.5-Max في المركز الأول مع DeepSeek-R1 في حوار متعدد الأدوار؛ يحتل المرتبة الثالثة في نص طويل (لا يقل عن 500 رمز)، متجاوزًا معاينة o1.

بالإضافة إلى ذلك، أظهر علي أيضًا أداء Qwen2.5-Max في بعض القوائم الكلاسيكية في التقرير الفني.

في مقارنة نماذج الأوامر، يكون Qwen2.5-Max على نفس المستوى أو أعلى من GPT-4o وClaude 3.5-Sonnet في معايير مثل Arena-Hard (مشابهة للتفضيلات البشرية) وMMLU-Pro (المعرفة على مستوى الجامعة).

في مقارنة النموذج الأساسي مفتوح المصدر، تفوق Qwen2.5-Max أيضًا على DeepSeek-V3 في جميع المجالات وكان متقدمًا بشكل كبير على Llama 3.1-405B.

أما بالنسبة للنموذج الأساسي، فقد أظهر Qwen2.5-Max أيضًا ميزة كبيرة في معظم اختبارات المعايير (لا يمكن الوصول إلى النموذج الأساسي للنموذج المغلق المصدر، لذلك لا يمكن مقارنة سوى النموذج مفتوح المصدر).

كود/استدلال رائع، يدعم القطع الأثرية

بعد إطلاق Qwen2.5-Max، جاء عدد كبير من مستخدمي الإنترنت لاختباره.

وقد وجد أنها تتفوق في مجالات مثل الترميز والاستدلال.

على سبيل المثال، دعه يكتب لعبة شطرنج في JavaScript.

شكرا ل التحف، لعبة صغيرة تم تطويرها في جملة واحدة يمكن لعبها على الفور:

غالبًا ما يكون الكود الذي يولده أسهل للقراءة والاستخدام.

يعد Qwen2.5-Max سريعًا ودقيقًا عند استنتاج المطالبات المعقدة:

لدى فريقك 3 خطوات للتعامل مع طلبات العملاء:

جمع البيانات (المرحلة أ): 5 دقائق لكل طلب.

المعالجة (المرحلة ب): 10 دقائق لكل طلب.

التحقق (المرحلة ج): 8 دقائق لكل طلب.

يعمل الفريق حاليًا بشكل متسلسل، ولكنك تفكر في سير عمل متوازي. إذا قمت بتعيين شخصين لكل مرحلة وسمحت بسير عمل متوازي، فإن الناتج لكل ساعة سيزداد بمقدار 20%. ومع ذلك، فإن إضافة سير عمل متوازي سيكلف 15% أكثر من حيث النفقات العامة التشغيلية. بالنظر إلى الوقت والتكلفة، هل يجب عليك استخدام سير عمل متوازي لتحسين الكفاءة؟

يكمل Qwen2.5-Max الاستدلال بأكمله في أقل من 30 ثانية، ويقسم العملية الإجمالية بوضوح إلى خمس خطوات: تحليل سير العمل الحالي، وتحليل سير العمل الموازي، والآثار المترتبة على التكلفة، والمقايضات بين التكلفة والكفاءة، والاستنتاجات.

تم التوصل بسرعة إلى الاستنتاج النهائي: يجب استخدام سير العمل المتوازي.

بالمقارنة مع DeepSeek-V3، وهو أيضًا نموذج غير استدلالي، يوفر Qwen2.5-Max استجابة أكثر إيجازًا وسرعة.

أو دعه يولد كرة دوارة مكونة من أرقام ASCII. الرقم الأقرب إلى زاوية العرض يكون أبيض نقيًا، بينما الرقم الأبعد يتحول تدريجيًا إلى اللون الرمادي، مع خلفية سوداء.

يعد حساب عدد الحروف المحددة في الكلمة أسهل من ذلك.

إذا كنت تريد تجربته بنفسك، فإن Qwen2.5-Max متاح بالفعل على منصة Qwen Chat ويمكنك تجربته مجانًا.

يمكن لمستخدمي المؤسسات الاتصال بواجهة برمجة التطبيقات الخاصة بنموذج Qwen2.5-Max على Alibaba Cloud Bailian.

منشورات مشابهة

غير مصنف

في دائرة الذكاء الاصطناعي، تفوق DeepSeek R1 بثبات على o1 وClaude في الاختبارات الفيزيائية، ودخلنا العصر الذهبي لـ RL.

بواسطةzddeepseeker 1 فبراير 20251 فبراير 2025

لم يتوقع أحد منا أن يبدأ عام 2025 هكذا في مجال الذكاء الاصطناعي. DeepSeek R1 مذهل حقًا! في الآونة الأخيرة، كانت "القوة الشرقية الغامضة" DeepSeek "تسيطر بشدة" على وادي السيليكون. طلبت من R1 شرح نظرية فيثاغورس بالتفصيل. كل هذا تم بواسطة الذكاء الاصطناعي في أقل من 30 ثانية دون أي...

غير مصنف

ألتمان: كنا مخطئين بشأن الذكاء الاصطناعي مفتوح المصدر! DeepSeek جعل OpenAI أقل فائدة، والقادم هو GPT-5

بواسطةzddeepseeker 1 فبراير 20251 فبراير 2025

وصل o3-mini في وقت متأخر من الليل، وكشف OpenAI أخيرًا عن أحدث أوراقه الرابحة. خلال جلسة الأسئلة والأجوبة على موقع Reddit AMA، اعترف ألتمان بعمق أنه وقف في الجانب الخطأ من الذكاء الاصطناعي مفتوح المصدر. وقال إنه يتم النظر في الاستراتيجية الداخلية للمصدر المفتوح، وسيستمر تطوير النموذج، ولكن...

غير مصنف

إنه قريب من DeepSeek-R1-32B ويسحق s1 الخاص بـ Fei-Fei Li! جامعة كاليفورنيا في بيركلي ونماذج استدلال SOTA الجديدة مفتوحة المصدر الأخرى

بواسطةzddeepseeker 14 فبراير 202514 فبراير 2025

يستخدم نموذج الاستدلال 32B 1/8 فقط من البيانات ويتعادل مع DeepSeek-R1 من نفس الحجم! في الوقت الحالي، أصدرت مؤسسات مثل ستانفورد وجامعة كاليفورنيا في بيركلي وجامعة واشنطن نموذج استدلال على مستوى SOTA، OpenThinker-32B، كما قامت أيضًا بتوفير ما يصل إلى 114 ألف بيانات تدريبية مفتوحة المصدر. الصفحة الرئيسية لمشروع OpenThinker: OpenThinker Hugging Face:…

غير مصنف

تم الكشف عن تقنية DeepSeek-R1: تم تحليل المبادئ الأساسية للورقة وتم الكشف عن مفتاح أداء النموذج الرائد

بواسطةzddeepseeker 9 فبراير 20259 فبراير 2025

اليوم سنشارك DeepSeek R1، العنوان: DeepSeek-R1: تحفيز القدرة على التفكير في LLMs عبر التعلم التعزيزي: تحفيز القدرة على التفكير في LLM عبر التعلم التعزيزي. تقدم هذه الورقة الجيل الأول من نماذج التفكير في DeepSeek، DeepSeek-R1-Zero وDeepSeek-R1. تم تدريب نموذج DeepSeek-R1-Zero من خلال التعلم التعزيزي واسع النطاق (RL) دون ضبط دقيق خاضع للإشراف (SFT) كخطوة أولية،...

غير مصنف

مقارنة شاملة بين الإصدار الجديد من OpenAI o3-mini وDeepSeek R1 من OpenAI

بواسطةzddeepseeker 1 فبراير 20251 فبراير 2025

أصدرت OpenAI أحدث نماذجها الاستدلالية، o3-mini، الذي تم تحسينه لمجالات مثل العلوم والرياضيات والبرمجة، مما يوفر استجابة أسرع ودقة أعلى وتكلفة أقل. ومقارنةً بسابقه o1-mini، فقد حسّن o3-mini قدراته الاستدلالية بشكل كبير، خاصةً في حل المشكلات المعقدة. يفضل المختبِرون إجابات o3-mini بمقدار 56%، كما أن معدل الخطأ...

غير مصنف

احتل DeepSeek R1 المركز الأول في اختبار الكتابة الإبداعية، وكان o3 المصغر أسوأ من o1 المصغر!

بواسطةzddeepseeker فبراير 3، 2025فبراير 3، 2025

فازت DeepSeek R1 بالبطولة في الاختبار المعياري لكتابة القصة القصيرة الإبداعية، متجاوزة بنجاح اللاعب المهيمن السابق كلود 3.5 سونيت! اختبار معياري الاختبار المعياري الاختبار المعياري الذي صممه الباحث ليخ مازور ليس مسابقة كتابة عادية. طُلب من كل نموذج ذكاء اصطناعي إكمال 500 قصة قصيرة، وكان على كل قصة أن تدمج بذكاء...

أربع قدرات فردية تصل إلى القمة

كود/استدلال رائع، يدعم القطع الأثرية

منشورات مشابهة

اترك تعليقاً إلغاء الرد