
גרסת Flash Thinking Experimental בדצמבר הביאה למפתחים מודל עבודה עם חביון נמוך וביצועים גבוהים.
מוקדם יותר השנה, 2.0 Flash Thinking Experimental עודכן ב-Google AI Studio כדי לשפר עוד יותר את הביצועים על ידי שילוב מהירות הפלאש עם יכולות הסקה משופרות.
בשבוע שעבר, הגרסה המעודכנת 2.0 Flash הושקה במלואה באפליקציות שולחן העבודה והנייד של Gemini.
היום נחשפו בו זמנית שלושה חברים חדשים: הגרסה הניסיונית של Gemini 2.0 Pro, שהצליחה עד כה בקידוד ובהנחיות מורכבות, ה-2.0 Flash-Lite החסכונית וגרסה 2.0 Flash Thinking המשופרת בחשיבה.
Gemini 2.0 Pro מדורג במקום הראשון בכל הקטגוריות. Gemini-2.0-Flash מדורג בשלושת הראשונים בקידוד, מתמטיקה וחידות. פלאש-לייט מדורגת בעשירייה הראשונה בכל הקטגוריות.


טבלת השוואה של היכולות של שלושת הדגמים:

כל הדגמים תומכים בטקסט קלט ופלט רב-מודאלי.
יכולות מודאליות נוספות בדרך. טבלת חוזק דגם בזירת הקידוד

מפת חום קצב ניצחון

גוגל מתייחסת למשתמשים בחינם טוב יותר מאשר OpenAI מתייחסת למשתמשי פלוס. גישה חופשית ל-Gemini 2.0 Pro Experimental ב-AI Studio:

שירות Deepseek תמיד מציג שגיאה ממתינה... זכור שהדגם הראשון ללא מסקנות היה גם 2.0 Flash Thinking, שהיה בשימוש ב-Google aistudio.

בנוסף, יש את גרסת אינטרנט של Gemini:
יש גם מודל מסקנות מחובר (אז למה להפריד אותו...)

גוגל הוציאה את הגרסה הניסיונית של Gemini 2.0 Pro, והשיפור במבחני הבנצ'מרק הרשמיים די מושך את העין.

יש לו את יכולות הקידוד החזקות ביותר ואת היכולת לעבד הנחיות מורכבות, ויש לו יכולת טובה יותר להבין ולנמק את הידע העולמי מכל מודל שהוציאה גוגל עד כה.
יש לו את חלון ההקשר הגדול ביותר (200k, וההקשר הארוך שלי הוא יתרון גדול יחסית של מודל ה-Gemini), שמאפשר לו לנתח ולהבין באופן מקיף כמות גדולה של מידע, ולקרוא לכלים כמו חיפוש בגוגל וביצוע קוד.
במבחן MATH הוא השיג 91.8%, עלייה של כ-5 נקודות אחוז לעומת גרסה 1.5. יכולת החשיבה של GPQA הגיעה ל-64.7%, ומבחן הידע העולמי של SimpleQA הגיע אפילו ל-44.3%.
הבולטת ביותר היא יכולת התכנות. הוא השיג 36.0% במבחן LiveCodeBench, ודיוק ההמרה של Bird-SQL עלה על 59.3%. יחד עם חלון ההקשר הסופר-גדול של 2 מיליון אסימונים, זה מספיק כדי לטפל במשימות ניתוח הקוד המורכבות ביותר.

אתה יכול לנסות את זה בסמן.
גם יכולת ההבנה מרובת השפות מרשימה, עם ציון מבחן MMLU גלובלי של 86.5%. הבנת תמונה MMMU היא 72.7%, ויכולת ניתוח וידאו היא 71.9%.
Gemini 2.0 Flash-Lite הוא איזון מעניין.
הוא שומר על המהירות והעלות של 1.5 פלאש, אך מביא לביצועים טובים יותר. חלון ההקשר עם מיליון אסימונים מאפשר לו לעבד מידע נוסף.
הדבר הפרקטי ביותר הוא יחס המחיר/ביצועים שלו: יצירת כתוביות ל-40,000 תמונות עולה פחות מ-$1. זה הופך את הבינה המלאכותית ליותר מדוייקת.

הבלוגרית Shrivastava הזכירה: קידוד Gemini 2.0 Pro הוא מטורף!
טיפ: השתמש ב-Three.js כדי ליצור הדמיית מערכת סולארית. הוסף סולם זמן, תפריט נפתח של מיקוד, הצג מסלולים והצג תוויות. צור הכל בקובץ אחד כדי שאוכל להדביק אותו בעורך מקוון ולראות את הפלט.

בנוסף, חלק מהמשתמשים הזכירו ש-Gemini 2.0 Flash הפיק תוצאות טובות יותר באחד ממבחני הפרדוקס שלו:

לבסוף, גוגל ציינה שהאבטחה של Gemini 2.0, לא רק התיקון, היא בליבת העיצוב מההתחלה.
תן למודל ללמוד להיות ביקורתי עצמית. השתמש בלימוד חיזוק כדי לאפשר ל-Gemini להעריך את התשובות שלו ולספק משוב מדויק יותר. זה עושה את זה חזק יותר כאשר עוסקים בנושאים רגישים.
בדיקת הצוות האדום האוטומטית מעניינת. הוא תוכנן במיוחד כדי למנוע הזרקה של מילות הנחיה עקיפות, שזה כמו לצייד את ה-AI במערכת חיסונית כדי למנוע ממישהו להסתיר פקודות זדוניות בנתונים.