Právě teď přibyl na seznam Big Model Arena další tuzemský model
od Aliho, Qwen2,5-Max, který překonal DeepSeek-V3 a v celkovém hodnocení se umístil na sedmém místě s celkovým skóre 1332.
Jedním tahem překonal i modely jako Claude 3.5 Sonnet a Llama 3.1 405B.

Zejména, vyniká v programování a matematice, a je na prvním místě vedle Fullblood o1 a DeepSeek-R1.

Chatbot Arena je velká platforma pro testování výkonnosti modelů, kterou spustila LMSYS Org. V současné době integruje více než 190 modelů a používá modely spárované ve dvou týmech, které mají být uživatelům poskytnuty k testování naslepo, přičemž uživatelé hlasují o schopnostech modelů na základě jejich skutečných konverzačních zkušeností.
Z tohoto důvodu je žebříček Chatbot Arena LLM nejuznávanější a nejdůležitější arénou pro nejlepší světové velké modely.
Qwen 2,5-Max také pronikl do první desítky na nově otevřeném WebDev seznam pro vývoj webových aplikací.

Oficiální komentář lmsys k tomu je takový Čínská umělá inteligence rychle uzavírá mezeru!

Netizens, kteří jej osobně používali, říkají, že výkon Qwen je stabilnější.

Někteří lidé dokonce říkají, že Qwen brzy nahradí všechny běžné modely v Silicon Valley.

Čtyři individuální schopnosti dosahují vrcholu
První a druhé místo v první trojici celkového seznamu obsadila rodina Google Gemini, na třetím místě se dělily GPT-4o a DeepSeek-R1.
Qwen2.5-Max srovnal na sedmém místě s náhledem o1, mírně za úplným o1.

Další je výkon Qwen2.5-Max v každé jednotlivé kategorii.
V tom logičtějším matematika a kód úkoly, výsledky Qwen2.5-Max překonaly výsledky o1-mini a srovnaly se na prvním místě s plně nabitými o1 a DeepSeek-R1.
A mezi modely dělenými na prvním místě v matematickém seznamu je Qwen2.5-Max jediným neuvažujícím modelem.

Pokud se podíváte pozorně na konkrétní bitevní záznamy, můžete také vidět, že Qwen2.5-Max má 69% win rate ve schopnosti kódu proti plnokrevnému o1.

V složité rychlé slovo task, Qwen2.5-Max a o1-preview se dělí o druhé místo, a pokud je omezena na angličtinu, může být na prvním místě, stejně jako o1-preview, DeepSeek-R1 atd.

Kromě toho je Qwen2.5-Max dělený na prvním místě s DeepSeek-R1 in víceotáčkový dialog; je na třetím místě dlouhý text (ne méně než 500 tokenů), překonávající o1-náhled.

Kromě toho Ali také ukázal výkon Qwen2.5-Max na některých klasických seznamech v technické zprávě.
Ve srovnání velitelských modelů je Qwen2.5-Max na stejné nebo vyšší úrovni než GPT-4o a Claude 3.5-Sonnet v benchmarcích, jako jsou Arena-Hard (podobné lidským preferencím) a MMLU-Pro (znalosti na univerzitní úrovni).
V porovnání základního modelu s otevřeným zdrojovým kódem Qwen2.5-Max také celkově překonal DeepSeek-V3 a byl výrazně před Llamou 3.1-405B.

Pokud jde o základní model, Qwen2.5-Max také ukázal významnou výhodu ve většině benchmarkových testů (základní model uzavřeného zdroje není přístupný, lze tedy porovnávat pouze model s otevřeným zdrojovým kódem).

Vynikající kód / odvození, podporuje artefakty
Poté, co byl Qwen2.5-Max uveden na trh, jej přišlo otestovat velké množství uživatelů sítě.
Bylo zjištěno, že vyniká v oblastech, jako je kód a odvození.
Nechte ho například napsat šachovou hru v JavaScriptu.
Díky Artefakty, lze okamžitě hrát malou hru vyvinutou v jediné větě:

kód, který generuje, je často snazší číst a používat.
Qwen2.5-Max je rychlý a přesný při vyvozování složitých výzev:
Váš tým má 3 kroky ke zpracování požadavků zákazníků:
Sběr dat (fáze A): 5 minut na žádost.
Zpracování (fáze B): 10 minut na žádost.
Ověření (fáze C): 8 minut na žádost.
Tým momentálně funguje sekvenčně, ale uvažujete o paralelním workflow. Pokud ke každé fázi přiřadíte dva lidi a umožníte paralelní pracovní postup, výkon za hodinu se zvýší o 20%. Přidání paralelního workflow však bude stát o 15% více, pokud jde o provozní režii. Měli byste s ohledem na čas a náklady používat paralelní pracovní postup k optimalizaci efektivity?
Qwen2.5-Max dokončí celý závěr za méně než 30 sekund, přičemž celý proces jasně rozděluje do pěti kroků: analýza aktuálního pracovního toku, analýza paralelních pracovních toků, dopady na náklady, kompromisy mezi nákladovou efektivitou a závěry.
Brzy se dosáhne konečného závěru: měly by být použity paralelní pracovní postupy.
Ve srovnání s DeepSeek-V3, což je také neinferenční model, poskytuje Qwen2.5-Max stručnější a rychlejší odezvu.
Nebo nechat vygenerovat rotující kouli složenou z ASCII číslic. Číslice nejblíže zornému úhlu je čistě bílá, zatímco nejvzdálenější číslice postupně zešedne s černým pozadím.
Počítání počtu konkrétních písmen ve slově je ještě jednodušší.

Pokud si to chcete sami vyzkoušet, Qwen2.5-Max je již online na platformě Qwen Chat a můžete si jej vyzkoušet zdarma.
Podnikoví uživatelé mohou volat rozhraní API modelu Qwen2.5-Max na Alibaba Cloud Bailian.
