剛剛,又有一位國產模特兒加入Big Model Arena的名單中
來自阿里, Qwen2.5-Max,超越DeepSeek-V3,以總成績1332分位居總排名第七。
也一舉超越了Claude 3.5 Sonnet、Llama 3.1 405B等車款。

尤其, 它擅長程式設計和數學,與Fullblood o1、DeepSeek-R1並列第一。

Chatbot Arena 是 LMSYS 組織。它目前整合了 190 多個模型,採用兩人一組的模型配對方式提供給用戶進行盲測,用戶根據自己在現實生活中的對話經驗對模型的能力進行投票。
因此,Chatbot Arena LLM Leaderboard 是全球頂尖大模最權威、最重要的競技場。
Qwen 2.5-Max 也闖入了新開幕的前十名 Web開發 用於 Web 應用程式開發的清單。

lmsys 官方對此的評論是 中國人工智慧正迅速縮小差距!

親自使用過的網友都表示Qwen的表現更加穩定。

甚至有人說Qwen很快就會取代矽谷所有普通機型。

四名個人能力登頂
總榜單前三名的第一、第二名皆由GoogleGemini家族包攬,GPT-4o與DeepSeek-R1並列第三。
Qwen2.5-Max 與 o1-preview 並列第七,略微落後於完整 o1。

接下來是Qwen2.5-Max在各個單獨類別中的表現。
更合乎邏輯的是 數學和程式碼 任務中,Qwen2.5-Max的成績超過了o1-mini,並與充滿電的o1、DeepSeek-R1並列第一。
而在數學榜並列第一的模型中,Qwen2.5-Max是唯一的非推理模型。

如果仔細看具體的戰鬥記錄還能看到Qwen2.5-Max在對陣滿血o1的代碼能力上有著69%的勝率。

在 複雜提示詞 任務上,Qwen2.5-Max與o1-preview並列第二,而如果限定為英文的話,則可以排在第一,與o1-preview、DeepSeek-R1等比肩。

此外,Qwen2.5-Max 與 DeepSeek-R1 並列第一 多輪對話;它在 長文字 (不少於 500 個 token),超越 o1-preview。

此外,阿里還在技術報告中展示了Qwen2.5-Max在一些經典榜單上的表現。
在命令模型的比較中,Qwen2.5-Max 在 Arena-Hard(類似人類偏好)、MMLU-Pro(大學水平知識)等基準測試中與 GPT-4o 和 Claude 3.5-Sonnet 處於相同水平,甚至更高。
在開源基礎模型比較中,Qwen2.5-Max也全方面超越DeepSeek-V3,並且遙遙領先Llama 3.1-405B。

而基礎模型方面,Qwen2.5-Max在大多數基準測試中也表現出了明顯的優勢(閉源模型基礎模型無法訪問,因此只能與開源模型進行比較)。

出色的程式碼/推理,支援 Artifacts
Qwen2.5-Max上線之後,就吸引了大批網友前來測試。
人們發現它在程式碼和推理等領域表現出色。
例如讓它用 JavaScript 寫棋遊戲。
由於 工件,一句話開發的小遊戲,立刻就能玩:

它產生的程式碼通常更易於閱讀和使用。
Qwen2.5-Max 在推斷複雜提示時快速且準確:
您的團隊可以透過 3 個步驟來處理客戶請求:
資料收集(階段 A):每個請求 5 分鐘。
處理(階段 B):每個請求 10 分鐘。
驗證(階段 C):每個請求 8 分鐘。
團隊目前按順序工作,但您正在考慮並行工作流程。如果每個階段分配兩個人並允許並行工作流程,則每小時的產量將增加 20%。然而,新增並行工作流程將在營運開銷方面多花費15%。考慮到時間和成本,您是否應該使用並行工作流程來優化效率?
Qwen2.5-Max在不到30秒的時間內完成整個推理過程,將整體流程清晰地分為五個步驟:當前工作流程分析、平行工作流程分析、成本影響、成本效率權衡和結論。
很快就得出了最終結論:應該使用並行工作流程。
比起同為非推理型號的DeepSeek-V3,Qwen2.5-Max提供了更簡潔、更快速的反應。
或讓它產生一個由 ASCII 數字組成的旋轉球體。距離視角最近的數字是純白色,而最遠的數字逐漸變成灰色,背景為黑色。
計算單字中特定字母的數量就更加容易了。

如果您想親自嘗試一下,Qwen2.5-Max已經在Qwen Chat平台上線,可以免費體驗。
企業用戶可以在阿里雲百聯上呼叫Qwen2.5-Max模型API。
