Токму сега на листата на Биг Модел Арена се додаде уште еден домашен модел

од Али, Qwen2,5-Max, кој го надмина DeepSeek-V3 и се најде на седмото место во севкупното рангирање со вкупен резултат од 1332.

Исто така, ги надмина моделите како Claude 3.5 Sonnet и Llama 3.1 405B со еден удар.

Конкретно, се истакнува во програмирањето и математиката, и е рангирана на прво место заедно со Fullblood o1 и DeepSeek-R1.

Chatbot Arena е голема платформа за тестирање на перформансите на моделот лансирана од LMSYS Орган. Моментално интегрира повеќе од 190 модели и користи модели спарени во тимови од двајца за да им се дадат на корисниците за слепо тестирање, при што корисниците гласаат за способностите на моделите врз основа на нивните искуства од разговори во реалниот живот.

Поради оваа причина, Chatbot Arena LLM Leaderboard е најавторитетната и важна арена за врвните големи модели во светот.

Qwen 2,5-Max исто така се проби во првите десет на новоотворената WebDev листа за развој на веб апликации.

Официјалниот коментар на lmsys за ова е тоа Кинеската вештачка интелигенција брзо го намалува јазот!

Нетизените кои лично го користеле велат дека перформансите на Qwen се постабилни.

Некои луѓе дури велат дека Qwen наскоро ќе ги замени сите обични модели во Силиконската долина.

Четири индивидуални способности го достигнуваат врвот

Првото и второто место во првите три на вкупната листа ги зазеде семејството Google Gemini, со GPT-4o и DeepSeek-R1 изедначени на третото место.

Qwen2.5-Max изедначи на седмото место со o1-преглед, малку зад целосниот o1.

Следно е перформансите на Qwen2.5-Max во секоја поединечна категорија.

Во пологичното математика и код задачите, резултатите на Qwen2.5-Max ги надминаа оние на o1-mini и се изедначи на првото место со целосно наполнетите o1 и DeepSeek-R1.

И меѓу моделите кои се врзани за првото место на математичката листа, Qwen2.5-Max е единствениот модел што не резонира.

Ако внимателно ги погледнете специфичните борбени записи, можете исто така да видите дека Qwen2.5-Max има стапка на победа од 69% во способноста за код во однос на полнокрвниот o1.

Во комплексен брз збор задача, Qwen2.5-Max и o1-preview се изедначија на второто место, а доколку е ограничена на англиски, може да се рангира на прво место, на исто ниво со o1-preview, DeepSeek-R1 итн.

Покрај тоа, Qwen2.5-Max е изедначен за првото место со DeepSeek-R1 во повеќекратен дијалог; се наоѓа на третото место во долг текст (не помалку од 500 токени), надминувајќи го o1-прегледот.

Покрај тоа, Али исто така ги покажа перформансите на Qwen2.5-Max на некои класични листи во техничкиот извештај.

Во споредбата на командните модели, Qwen2.5-Max е на исто ниво или повисоко од GPT-4o и Claude 3.5-Sonnet во одредниците како што се Arena-Hard (слично на човечките преференции) и MMLU-Pro (знаење на ниво на универзитет).

Во споредбата на основните модели со отворен код, Qwen2.5-Max, исто така, го надмина DeepSeek-V3 во целата табла и беше далеку пред Llama 3.1-405B.

Што се однесува до основниот модел, Qwen2.5-Max, исто така, покажа значајна предност во повеќето репери тестови (основниот модел на моделот со затворен код не е достапен, така што може да се споредува само моделот со отворен код).

Извонреден код/заклучок, поддржува артефакти

Откако беше лансиран Qwen2.5-Max, голем број корисници на интернет дојдоа да го тестираат.

Утврдено е дека се истакнува во области како што се кодот и заклучоците.

На пример, нека напише игра шах во JavaScript.

Благодарение на Артефакти, мала игра развиена во една реченица може веднаш да се игра:

кодот што го генерира често е полесен за читање и употреба.

Qwen2.5-Max е брз и прецизен кога заклучува сложени инструкции:

Вашиот тим има 3 чекори за справување со барањата на клиентите:

Собирање податоци (фаза А): 5 минути по барање.

Обработка (фаза Б): 10 минути по барање.

Верификација (фаза В): 8 минути по барање.

Тимот моментално работи последователно, но размислувате за паралелен работен тек. Ако доделите две лица на секоја фаза и дозволите паралелен работен тек, излезот на час ќе се зголеми за 20%. Сепак, додавањето на паралелен работен тек ќе чини 15% повеќе во однос на оперативните трошоци. Со оглед на времето и трошоците, дали треба да користите паралелен работен тек за да ја оптимизирате ефикасноста?

Qwen2.5-Max го комплетира целиот заклучок за помалку од 30 секунди, јасно поделувајќи го целокупниот процес на пет чекори: анализа на тековниот работен тек, анализа на паралелни работни текови, импликации на трошоците, компромиси за економичност и заклучоци.

Крајниот заклучок е брзо постигнат: треба да се користат паралелни работни текови.

Во споредба со DeepSeek-V3, кој исто така е модел без заклучоци, Qwen2.5-Max обезбедува поконцизен и побрз одговор.

Или нека генерира ротирачка сфера составена од ASCII цифри. Цифрата најблиску до аголот на гледање е чиста бела, додека најоддалечената постепено станува сива, со црна позадина.

Броењето на бројот на специфични букви во еден збор е уште полесно.

Ако сакате да го испробате сами, Qwen2.5-Max е веќе онлајн на платформата Qwen Chat и може да се доживее бесплатно.

Корисниците на претпријатијата можат да го повикаат моделот Qwen2.5-Max API на Alibaba Cloud Bailian.

Слични објави

Напишете коментар

Вашата адреса за е-пошта нема да биде објавена. Задолжителните полиња се означени со *