أصدرت OpenAI أحدث نماذجها الاستدلالية, س3-ميني، والتي تم تحسينها لمجالات مثل العلوم والرياضيات والبرمجة، مما يوفر استجابة أسرع ودقة أعلى وتكلفة أقل.

مقارنةً بسابقه o1-mini، فقد حسّن o3-mini من قدراته الاستدلالية بشكل ملحوظ، خاصةً في حل المشكلات المعقدة. يفضل المختبِرون إجابات o3-mini بمقدار 56%، وانخفض معدل الخطأ بمقدار 39%. من اليوم دردشةGPT بلس، فريق و محترف يمكن للمستخدمين استخدام o3-mini، و مستخدمون مجاني أيضاً تجربة بعض ميزاته.

مقارنة بالنموذج الاستدلالي DeepSeek-R1، كم هو أفضل بكثير OpenAI o3-mini من R1؟

ستقدم هذه المقالة أولاً لمحة عامة عن أبرز ميزات o3-mini، ثم سنستخرج البيانات من كلا الجانبين على كل معيار ونقوم بعمل رسم بياني لمقارنتها بصريًا. بالإضافة إلى ذلك، سنقارن أيضًا سعر o3-mini.

الملامح الأساسية

1.تحسين العلوم والتكنولوجيا والهندسة والرياضيات:: تتفوق في مجالات الرياضيات والبرمجة والعلوم وما إلى ذلك، ولا سيما التفوق على o1-mini في وضع الجهد الاستدلالي العالي.

2.وظائف المطور:: يدعم وظائف مثل استدعاءات الدوال، والإخراج المنظم، ورسائل المطورين لتلبية احتياجات بيئة الإنتاج.

3.استجابة سريعة:: 24% أسرع من o1-mini، مع زمن استجابة يبلغ 7.7 ثانية لكل طلب.

4.التحسينات الأمنية:: يضمن إخراجًا آمنًا وموثوقًا من خلال تقنية المحاذاة العميقة.

5.فعالة من حيث التكلفة:: تسير قدرات الاستدلال وتحسين التكلفة جنبًا إلى جنب، مما يقلل إلى حد كبير من عتبة استخدام الذكاء الاصطناعي.

قارن

الذكاء الاصطناعي المفتوح من أجل إبراز فئته، فإن المدونة الرسمية فقط بمقارنتها بنماذجها الخاصة. لذلك، هذه المقالة عبارة عن جدول مستخرج من ورقة DeepSeek R1 والبيانات من مدونة OpenAI الرسمية.

يقارن OpenAI رسمياً س3-ميني في قائمة الإصدارات، وتقسيمها إلى ثلاثة إصدارات: منخفضة ومتوسطة وعالية، والتي تشير إلى قوة الاستدلال. نظرًا لأن DeepSeek يستخدم Math-500 و OpenAI يستخدم مجموعة بيانات Math، فقد تمت إزالة هذه المقارنة هنا.

الرسم البياني أكثر سهولة، وتمت إزالة Codeforces لأن القيم كبيرة جدًا بحيث لا يمكن عرضها بشكل بديهي. ومع ذلك، تُظهر المقارنة على Codeforces أن قوة الاستدلال العالية لـ o3-mini ليست متقدمة كثيرًا.

↑1AIME2024 →2GPQA Diamond →3MMLU →4SWE-المقياس-المتحقق من صحة AIME2024 →2GPQA Diamond →3MMLU →4SWE-المقياس-المتحقق من صحة

من الرسم البياني، هناك ما مجموعه 4 مقارنات، ويتصدر O3-mini (مرتفع) بشكل عام، ولكن الصدارة صغيرة جدًا.

السعر

الطرازسعر المدخلاتإصابة ذاكرة التخزين المؤقتسعر المخرجات
س3-ميني$1.10$0.55$4.40
o1$15.00$7.50$60.00
ديبسيك R1$0.55$0.14$2.19

الملخص

مع تسبب DeepSeek R1 في إثارة ذعر DeepSeek في الولايات المتحدة، كان أول من شعر بالتهديد هو OpenAI، وهو ما يتضح بشكل خاص في تسعير طرازها الجديد o3-mini.

عندما تم إصدار Openai o1 لأول مرة، شكل سعره المرتفع ضغطًا على العديد من المطورين والمستخدمين. ظهور DeepSeek R1 أعطى الجميع المزيد من الخيارات.من فرق السعر الذي يبلغ 30 ضعفًا بين o1 وR1 إلى السعر النهائي لـ o3-mini الذي يبلغ ضعف سعر DeepSeek R1,

يُظهر تأثير DeepSeek R1 على Openai.ومع ذلك، لا يمكن لمستخدمي ChatGPT المجاني إلا تجربة o3-mini بشكل محدود، في حين أن خاصية التفكير العميق DeepSeek متاحة حاليًا لجميع المستخدمين.أتطلع أيضًا إلى أن تقدم Openai المزيد من نماذج الذكاء الاصطناعي الرائدة مع تقليل تكلفة الاستخدام للمستخدمين.

من من منظور التجربة الشخصية للمدون في استخدام R1، أود أن أقول إن التفكير العميق لـ R1 يفتح ذهني دائمًا. أوصي الجميع باستخدامه أكثر للتفكير في المشاكل~

منشورات مشابهة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *