قصة جيميn1 2.0 يتسارع.

قدمت النسخة التجريبية من Flash Thinking في شهر ديسمبر للمطورين نموذج عمل يتميز بزمن انتقال منخفض وأداء عالٍ.

في وقت سابق من هذا العام، تم تحديث 2.0 Flash Thinking Experimental في Google AI Studio لتحسين الأداء بشكل أكبر من خلال الجمع بين سرعة Flash وقدرات الاستدلال المحسّنة.

في الأسبوع الماضي، تم إطلاق الإصدار المحدث 2.0 Flash بالكامل على تطبيقات سطح المكتب والجوال في جهاز Gemini.

اليوم، تم الكشف عن ثلاثة أعضاء جدد في نفس الوقت: النسخة التجريبية من Gemini 2.0 Pro، والتي حققت حتى الآن أفضل أداء في الترميز والمطالبات المعقدة، و2.0 Flash-Lite الفعال من حيث التكلفة، ونسخة 2.0 Flash Thinking المعززة بالتفكير.

يحتل برنامج Gemini 2.0 Pro المرتبة الأولى في جميع الفئات. ويحتل برنامج Gemini-2.0-Flash المرتبة الثالثة في مجال البرمجة والرياضيات والألغاز. ويحتل برنامج Flash-lite المرتبة العاشرة في جميع الفئات.

مخطط مقارنة لقدرات النماذج الثلاثة:

تدعم كافة الموديلات إدخال وإخراج النص متعدد الوسائط.

هناك المزيد من القدرات النموذجية في الطريق. مخطط قوة النموذج في ساحة الترميز

خريطة حرارية لمعدلات الفوز

تعامل Google المستخدمين المجانيين بشكل أفضل من تعامل OpenAI مع مستخدمي Plus. الوصول المجاني إلى Gemini 2.0 Pro Experimental في AI Studio:

انقر للعب

تعرض خدمة Deepseek دائمًا خطأ انتظارًا... تذكر أن أول نموذج خالٍ من الاستدلال كان أيضًا 2.0 Flash Thinking، والذي تم استخدامه في Google aistudio.

بالإضافة إلى ذلك، هناك نسخة الويب من Gemini:

هناك أيضًا نموذج استدلال متصل (فلماذا نفصله إذن...)

أطلقت شركة جوجل النسخة التجريبية من برنامج Gemini 2.0 Pro، وكان التحسن في اختبارات المعايير الرسمية مثيرًا للاهتمام للغاية.

إنها تتمتع بأقوى قدرات الترميز والقدرة على معالجة المطالبات المعقدة، ولديها قدرة أفضل على فهم والتفكير في المعرفة العالمية من أي نموذج أصدرته جوجل حتى الآن.

يحتوي على أكبر نافذة سياق (200 كيلو بايت، وسياقي الطويل هو ميزة كبيرة نسبيًا لنموذج Gemini)، مما يمكنه من تحليل وفهم كمية كبيرة من المعلومات بشكل شامل، واستدعاء أدوات مثل البحث في Google وتنفيذ التعليمات البرمجية.

في اختبار الرياضيات، حصل على 91.8%، بزيادة حوالي 5 نقاط مئوية عن الإصدار 1.5. وصلت قدرة الاستدلال GPQA إلى 64.7%، ووصل اختبار المعرفة العالمية SimpleQA إلى 44.3%.

أبرز ما يميزه هو قدرته على البرمجة. فقد حقق 36.0% في اختبار LiveCodeBench، وتجاوزت دقة تحويل Bird-SQL 59.3%. ومع اقترانه بنافذة السياق الضخمة للغاية التي تحتوي على 2 مليون رمز مميز، فإنه يكفي للتعامل مع مهام تحليل التعليمات البرمجية الأكثر تعقيدًا.

يمكنك تجربته في المؤشر.

كما أن القدرة على فهم اللغات المتعددة مثيرة للإعجاب أيضًا، حيث بلغت درجة اختبار MMLU العالمي 86.5%. ودرجة فهم الصور MMMU هي 72.7%، وقدرة تحليل الفيديو هي 71.9%.

يعد Gemini 2.0 Flash-Lite توازنًا مثيرًا للاهتمام.

إنه يحافظ على سرعة وتكلفة 1.5 Flash، لكنه يوفر أداءً أفضل. تتيح له نافذة السياق التي تحتوي على مليون رمز معالجة المزيد من المعلومات.

الأمر الأكثر عملية هو نسبة السعر إلى الأداء: تكلفة إنشاء التعليقات التوضيحية لـ 40000 صورة أقل من $1. وهذا يجعل الذكاء الاصطناعي أكثر واقعية.

ذكر المدون Shrivastava: ترميز Gemini 2.0 Pro مجنون!

نصيحة: استخدم Three.js لإنشاء محاكاة للنظام الشمسي. أضف مقياسًا زمنيًا وقائمة منسدلة للتركيز وإظهار المدارات وإظهار العلامات. أنشئ كل شيء في ملف واحد حتى أتمكن من لصقه في محرر عبر الإنترنت وعرض الناتج.

بالإضافة إلى ذلك، ذكر بعض المستخدمين أن برنامج Gemini 2.0 Flash أنتج نتائج أفضل في أحد اختبارات المفارقة الخاصة به:

وأخيرًا، ذكرت جوجل أن أمان Gemini 2.0، وليس التصحيح فقط، هو جوهر التصميم منذ البداية.

دع النموذج يتعلم كيفية انتقاد نفسه. استخدم التعلم التعزيزي للسماح لـ Gemini بتقييم إجاباته الخاصة وتقديم ملاحظات أكثر دقة. هذا يجعله أكثر قوة عند التعامل مع الموضوعات الحساسة.

إن اختبار الفريق الأحمر الآلي مثير للاهتمام. فهو مصمم خصيصًا لمنع حقن الكلمات غير المباشرة، وهو ما يشبه تزويد الذكاء الاصطناعي بنظام مناعي لمنع شخص ما من إخفاء الأوامر الضارة في البيانات.

منشورات مشابهة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *