ממש עכשיו, נוספה דוגמנית מקומית נוספת לרשימת Big Model Arena

מאת עלי, Qwen2.5-Max, שעבר את DeepSeek-V3 ודורג במקום השביעי בדירוג הכללי עם ציון כולל של 1332.

הוא גם עלה על דגמים כמו קלוד 3.5 סונט ו-Llama 3.1 405B במכה אחת.

בִּפְרָט, הוא מצטיין בתכנות ובמתמטיקה, והוא מדורג במקום הראשון לצד Fullblood o1 ו-DeepSeek-R1.

Chatbot Arena היא פלטפורמת בדיקת ביצועים מדגם גדול שהושקה על ידי LMSYS Org. כיום היא משלבת יותר מ-190 דגמים, ומשתמשת במודלים המותאמים בצוותים של שניים שיינתנו למשתמשים לבדיקה עיוורת, כאשר המשתמשים מצביעים על היכולות של המודלים על סמך חוויות השיחה שלהם בחיים האמיתיים.

מסיבה זו, Chatbot Arena LLM Leaderboard הוא הזירה הסמכותית והחשובה ביותר עבור הדגמים הגדולים המובילים בעולם.

Qwen 2.5-Max גם פרצה לעשירייה הראשונה ברשימה שנפתחה לאחרונה WebDev רשימה לפיתוח אפליקציות אינטרנט.

ההערה הרשמית של lmsys על זה היא כזו בינה מלאכותית סינית מצמצמת את הפער במהירות!

משתמשים ברשת שהשתמשו בו באופן אישי אומרים שהביצועים של Qwen יציבים יותר.

יש אנשים שאפילו אומרים ש-Qwen תחליף בקרוב את כל הדגמים הרגילים בעמק הסיליקון.

ארבע יכולות אישיות מגיעות לפסגה

את המקומות הראשונים והשניים בשלושת המקומות הראשונים של הרשימה הכללית תפסו משפחת Google Gemini, עם GPT-4o ו-DeepSeek-R1 במקום השלישי.

Qwen2.5-Max נמצא במקום השביעי עם תצוגה מקדימה של o1, מעט מאחורי ה-o1 המלא.

הבא הוא הביצועים של Qwen2.5-Max בכל קטגוריה בודדת.

בהגיוני יותר מתמטיקה וקוד משימות, התוצאות של Qwen2.5-Max עלו על אלו של o1-mini, והיא השתוותה במקום הראשון עם ה-o1 הטעון במלואו ו-DeepSeek-R1.

ובין הדגמים המדורגים במקום הראשון ברשימת המתמטיקה, Qwen2.5-Max הוא הדגם היחיד שאינו מנמק.

אם תסתכל מקרוב על שיאי הקרבות הספציפיים, אתה יכול גם לראות של-Qwen2.5-Max יש קצב ניצחון של 69% ביכולת קוד מול o1 מלא.

ב- מילת הנחיה מורכבת task, Qwen2.5-Max ו-o1-preview שוות במקום השני, ואם היא מוגבלת לאנגלית, היא יכולה לדרג במקום הראשון, בדומה ל-o1-preview, DeepSeek-R1 וכו'.

בנוסף, Qwen2.5-Max נמצא במקום הראשון עם DeepSeek-R1 in דיאלוג רב פניות; הוא מדורג במקום השלישי טקסט ארוך (לא פחות מ-500 אסימונים), מעל ה-o1-preview.

בנוסף, עלי גם הראה את הביצועים של Qwen2.5-Max בכמה רשימות קלאסיות בדוח הטכני.

בהשוואה של דגמי פיקוד, Qwen2.5-Max נמצא באותה רמה של GPT-4o או גבוה מ-GPT-4o וקלוד 3.5-Sonnet במדדים כגון Arena-Hard (בדומה להעדפות אנושיות) ו-MMLU-Pro (ידע ברמת האוניברסיטה).

בהשוואת המודלים הבסיסיים של הקוד הפתוח, Qwen2.5-Max גם עלה על DeepSeek-V3 בכל רחבי הלוח והקדים בהרבה את Llama 3.1-405B.

באשר למודל הבסיס, Qwen2.5-Max הראה יתרון משמעותי גם ברוב מבחני הבנצ'מרק (מודל הבסיס של מודל הקוד הסגור אינו נגיש, כך שניתן להשוות רק את מודל הקוד הפתוח).

קוד/מסק יוצא מן הכלל, תומך ב-Artifacts

לאחר השקת Qwen2.5-Max, מספר רב של גולשים ברשת הגיעו לבדוק אותו.

נמצא שהוא מצטיין בתחומים כמו קוד והסקת מסקנות.

לדוגמה, תן לו לכתוב משחק שחמט ב-JavaScript.

בזכות חפצים, משחק קטן שפותח במשפט בודד ניתן לשחק מיד:

הקוד שהוא מייצר לרוב קל יותר לקריאה ולשימוש.

Qwen2.5-Max מהיר ומדויק כאשר מסיקים הנחיות מורכבות:

לצוות שלך יש 3 שלבים לטיפול בבקשות לקוחות:

איסוף נתונים (שלב א'): 5 דקות לכל בקשה.

עיבוד (שלב ב'): 10 דקות לכל בקשה.

אימות (שלב ג'): 8 דקות לכל בקשה.

הצוות כרגע עובד ברצף, אבל אתה שוקל זרימת עבודה מקבילה. אם תקצה שני אנשים לכל שלב ותאפשר זרימת עבודה מקבילה, התפוקה לשעה תגדל ב-20%. עם זאת, הוספת זרימת עבודה מקבילה תעלה 15% יותר במונחים של תקורה תפעולית. בהתחשב בזמן ובעלות, האם עליך להשתמש בזרימת עבודה מקבילה כדי לייעל את היעילות?

Qwen2.5-Max משלים את כל ההסקה בפחות מ-30 שניות, תוך חלוקה ברורה של התהליך הכולל לחמישה שלבים: ניתוח של זרימת העבודה הנוכחית, ניתוח של זרימות עבודה מקבילות, השלכות עלויות, פשרות עלות-תועלת ומסקנות.

המסקנה הסופית מושגת במהירות: יש להשתמש בזרימות עבודה מקבילות.

בהשוואה ל-DeepSeek-V3, שהוא גם דגם ללא מסקנות, Qwen2.5-Max מספק תגובה תמציתית ומהירה יותר.

או לתת לו ליצור כדור מסתובב המורכב מספרות ASCII. הספרה הקרובה ביותר לזווית הצפייה היא לבן טהור, בעוד שהספרה הרחוקה ביותר הופכת לאפורה בהדרגה, עם רקע שחור.

ספירת מספר האותיות הספציפיות במילה היא אפילו קלה יותר.

אם אתה רוצה לנסות את זה בעצמך, Qwen2.5-Max כבר מקוון בפלטפורמת Qwen Chat וניתן להתנסות בו בחינם.

משתמשים ארגוניים יכולים להתקשר ל-API של מודל Qwen2.5-Max ב-Alibaba Cloud Bailian.

פוסטים דומים

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *