Ali Qwen2.5-Max עוקף את DeepSeek-V3! Netizen: ה-AI של סין מצמצם את הפער במהירות

ממש עכשיו, נוספה דוגמנית מקומית נוספת לרשימת Big Model Arena

מאת עלי, Qwen2.5-Max, שעבר את DeepSeek-V3 ודורג במקום השביעי בדירוג הכללי עם ציון כולל של 1332.

הוא גם עלה על דגמים כמו קלוד 3.5 סונט ו-Llama 3.1 405B במכה אחת.

בִּפְרָט, הוא מצטיין בתכנות ובמתמטיקה, והוא מדורג במקום הראשון לצד Fullblood o1 ו-DeepSeek-R1.

Chatbot Arena היא פלטפורמת בדיקת ביצועים מדגם גדול שהושקה על ידי LMSYS Org. כיום היא משלבת יותר מ-190 דגמים, ומשתמשת במודלים המותאמים בצוותים של שניים שיינתנו למשתמשים לבדיקה עיוורת, כאשר המשתמשים מצביעים על היכולות של המודלים על סמך חוויות השיחה שלהם בחיים האמיתיים.

מסיבה זו, Chatbot Arena LLM Leaderboard הוא הזירה הסמכותית והחשובה ביותר עבור הדגמים הגדולים המובילים בעולם.

Qwen 2.5-Max גם פרצה לעשירייה הראשונה ברשימה שנפתחה לאחרונה WebDev רשימה לפיתוח אפליקציות אינטרנט.

ההערה הרשמית של lmsys על זה היא כזו בינה מלאכותית סינית מצמצמת את הפער במהירות!

משתמשים ברשת שהשתמשו בו באופן אישי אומרים שהביצועים של Qwen יציבים יותר.

יש אנשים שאפילו אומרים ש-Qwen תחליף בקרוב את כל הדגמים הרגילים בעמק הסיליקון.

תוֹכֶן הָעִניָנִים

ארבע יכולות אישיות מגיעות לפסגה

את המקומות הראשונים והשניים בשלושת המקומות הראשונים של הרשימה הכללית תפסו משפחת Google Gemini, עם GPT-4o ו-DeepSeek-R1 במקום השלישי.

Qwen2.5-Max נמצא במקום השביעי עם תצוגה מקדימה של o1, מעט מאחורי ה-o1 המלא.

הבא הוא הביצועים של Qwen2.5-Max בכל קטגוריה בודדת.

בהגיוני יותר מתמטיקה וקוד משימות, התוצאות של Qwen2.5-Max עלו על אלו של o1-mini, והיא השתוותה במקום הראשון עם ה-o1 הטעון במלואו ו-DeepSeek-R1.

ובין הדגמים המדורגים במקום הראשון ברשימת המתמטיקה, Qwen2.5-Max הוא הדגם היחיד שאינו מנמק.

אם תסתכל מקרוב על שיאי הקרבות הספציפיים, אתה יכול גם לראות של-Qwen2.5-Max יש קצב ניצחון של 69% ביכולת קוד מול o1 מלא.

ב- מילת הנחיה מורכבת task, Qwen2.5-Max ו-o1-preview שוות במקום השני, ואם היא מוגבלת לאנגלית, היא יכולה לדרג במקום הראשון, בדומה ל-o1-preview, DeepSeek-R1 וכו'.

בנוסף, Qwen2.5-Max נמצא במקום הראשון עם DeepSeek-R1 in דיאלוג רב פניות; הוא מדורג במקום השלישי טקסט ארוך (לא פחות מ-500 אסימונים), מעל ה-o1-preview.

בנוסף, עלי גם הראה את הביצועים של Qwen2.5-Max בכמה רשימות קלאסיות בדוח הטכני.

בהשוואה של דגמי פיקוד, Qwen2.5-Max נמצא באותה רמה של GPT-4o או גבוה מ-GPT-4o וקלוד 3.5-Sonnet במדדים כגון Arena-Hard (בדומה להעדפות אנושיות) ו-MMLU-Pro (ידע ברמת האוניברסיטה).

בהשוואת המודלים הבסיסיים של הקוד הפתוח, Qwen2.5-Max גם עלה על DeepSeek-V3 בכל רחבי הלוח והקדים בהרבה את Llama 3.1-405B.

באשר למודל הבסיס, Qwen2.5-Max הראה יתרון משמעותי גם ברוב מבחני הבנצ'מרק (מודל הבסיס של מודל הקוד הסגור אינו נגיש, כך שניתן להשוות רק את מודל הקוד הפתוח).

קוד/מסק יוצא מן הכלל, תומך ב-Artifacts

לאחר השקת Qwen2.5-Max, מספר רב של גולשים ברשת הגיעו לבדוק אותו.

נמצא שהוא מצטיין בתחומים כמו קוד והסקת מסקנות.

לדוגמה, תן לו לכתוב משחק שחמט ב-JavaScript.

בזכות חפצים, משחק קטן שפותח במשפט בודד ניתן לשחק מיד:

הקוד שהוא מייצר לרוב קל יותר לקריאה ולשימוש.

Qwen2.5-Max מהיר ומדויק כאשר מסיקים הנחיות מורכבות:

לצוות שלך יש 3 שלבים לטיפול בבקשות לקוחות:

איסוף נתונים (שלב א'): 5 דקות לכל בקשה.

עיבוד (שלב ב'): 10 דקות לכל בקשה.

אימות (שלב ג'): 8 דקות לכל בקשה.

הצוות כרגע עובד ברצף, אבל אתה שוקל זרימת עבודה מקבילה. אם תקצה שני אנשים לכל שלב ותאפשר זרימת עבודה מקבילה, התפוקה לשעה תגדל ב-20%. עם זאת, הוספת זרימת עבודה מקבילה תעלה 15% יותר במונחים של תקורה תפעולית. בהתחשב בזמן ובעלות, האם עליך להשתמש בזרימת עבודה מקבילה כדי לייעל את היעילות?

Qwen2.5-Max משלים את כל ההסקה בפחות מ-30 שניות, תוך חלוקה ברורה של התהליך הכולל לחמישה שלבים: ניתוח של זרימת העבודה הנוכחית, ניתוח של זרימות עבודה מקבילות, השלכות עלויות, פשרות עלות-תועלת ומסקנות.

המסקנה הסופית מושגת במהירות: יש להשתמש בזרימות עבודה מקבילות.

בהשוואה ל-DeepSeek-V3, שהוא גם דגם ללא מסקנות, Qwen2.5-Max מספק תגובה תמציתית ומהירה יותר.

או לתת לו ליצור כדור מסתובב המורכב מספרות ASCII. הספרה הקרובה ביותר לזווית הצפייה היא לבן טהור, בעוד שהספרה הרחוקה ביותר הופכת לאפורה בהדרגה, עם רקע שחור.

ספירת מספר האותיות הספציפיות במילה היא אפילו קלה יותר.

אם אתה רוצה לנסות את זה בעצמך, Qwen2.5-Max כבר מקוון בפלטפורמת Qwen Chat וניתן להתנסות בו בחינם.

משתמשים ארגוניים יכולים להתקשר ל-API של מודל Qwen2.5-Max ב-Alibaba Cloud Bailian.

פוסטים דומים

לא מסווג

השוואה מקיפה בין ה-o3-mini וה-DeepSeek R1 החדשים של OpenAI

עַל יְדֵיzddeepseeker 1 בפברואר 20251 בפברואר 2025

OpenAI פרסמה את מודל ההסקה האחרון שלה, o3-mini, המותאם לתחומים כמו מדע, מתמטיקה ותכנות, ומספק תגובה מהירה יותר, דיוק גבוה יותר ועלות נמוכה יותר. בהשוואה לקודמו o1-mini, o3-mini שיפרה משמעותית את יכולות ההסקה שלה, במיוחד בפתרון בעיות מורכבות. בודקים מעדיפים את התשובות של o3-mini לפי 56%, ושיעור השגיאות יש...

לא מסווג

DeepSeek TOP17 האלטרנטיבות הטובות ביותר: ניתוח מקיף (2025)

עַל יְדֵיdeepseeker 6 בפברואר 20256 בפברואר 2025

הקדמה בנוף המתפתח במהירות של בינה מלאכותית, DeepSeek הופיע כמודל שפה רב עוצמה. ניתוח מקיף זה בוחן את 17 החלופות המובילות ל-DeepSeek, תוך בחינת התכונות הייחודיות שלהן, היכולות ומקרי השימוש שלהן. המחקר שלנו מתמקד הן בפלטפורמות בינלאומיות והן בסיניות המציעות אינטגרציה של DeepSeek או יכולות דומות. ניתוח חלופות מובילות 1….

לא מסווג

לה צ'ט עומד בראש הטבלאות, עם השקעה של מאה מיליארד דולר. אחרי ארה"ב וסין, האם היא מעצמת הבינה המלאכותית השלישית?

עַל יְדֵיzddeepseeker 11 בפברואר 202511 בפברואר 2025

ב-9 בפברואר הודיע נשיא צרפת עמנואל מקרון כי צרפת תשקיע 109 מיליארד יורו (113 מיליארד דולר) בתחום הבינה המלאכותית בשנים הקרובות. השקעה זו תשמש לבניית פארק בינה מלאכותית בצרפת, שיפור התשתית והשקעה בסטארט-אפים מקומיים של בינה מלאכותית. בינתיים, מיסטרל, סטארט-אפ צרפתי,...

לא מסווג

השקה ראשונה! SiliconFlow X Huawei Cloud משיק במשותף שירותי הסקת DeepSeek R1 ו-V3 המבוססים על Ascend Cloud!

עַל יְדֵיzddeepseeker 1 בפברואר 20251 בפברואר 2025

DeepSeek-R1 ו-DeepSeek-V3 עוררו סנסציה עולמית מאז השקת הקוד הפתוח שלהם. הם מתנה מצוות DeepSeek לכל האנושות, ואנו שמחים באמת ובתמים על הצלחתם. לאחר ימים של עבודה מאומצת של צוותי Silicon Mobility ו-Huawei Cloud, היום אנחנו גם נותנים למשתמשים סיניים...

לא מסווג

אלטמן: טעינו לגבי AI בקוד פתוח! DeepSeek הפך את OpenAI לפחות יתרון, והבא הבא הוא GPT-5

עַל יְדֵיzddeepseeker 1 בפברואר 20251 בפברואר 2025

o3-mini הגיע בשעת לילה מאוחרת, ו-OpenAI סוף סוף חשפה את כרטיס המנצח האחרון שלה. במהלך שאלה ותשובה של Reddit AMA, אלטמן התוודה עמוקות שהוא עמד בצד הלא נכון של ה-AI בקוד פתוח. הוא אמר כי האסטרטגיה הפנימית של קוד פתוח נבחנת, והמודל ימשיך להתפתח, אבל...

לא מסווג

DeepSeek עשה את זה! OpenAI מודה בטעות בקוד סגור, יתרון הקצה המוביל הופך קטן יותר

עַל יְדֵיzddeepseeker 2 בפברואר 20252 בפברואר 2025

לאחר ש-OpenAI פרסמה את דגם ה-o3-mini, המנכ"ל שלה סם אלטמן, קצין המחקר הראשי מארק צ'ן, קצין המוצר הראשי קווין וייל; סגן הנשיא להנדסה Srinivas Narayanan, ראש מחקר API מישל Pokrass, וראש המחקר Hongyu Ren, ערכו שאלות ותשובות טכניות מקוונות ב-reddit, אחד הפורומים המקיפים הגדולים בעולם. הנושאים העיקריים…

ארבע יכולות אישיות מגיעות לפסגה

קוד/מסק יוצא מן הכלל, תומך ב-Artifacts

פוסטים דומים

כתיבת תגובה לבטל