Chiar acum, pe lista Big Model Arena a fost adăugat un alt model autohton
de la Ali, Qwen2,5-Max, care a depășit DeepSeek-V3 și s-a clasat pe locul șapte în clasamentul general cu un scor total de 1332.
De asemenea, a depășit într-o singură lovitură modele precum Claude 3.5 Sonnet și Llama 3.1 405B.

În special, excelează în programare și matematică, și este pe primul loc alături de Fullblood o1 și DeepSeek-R1.

Chatbot Arena este o platformă mare de testare a performanței modelelor lansată de LMSYS Org. În prezent, integrează peste 190 de modele și utilizează modele asociate în echipe de câte doi pentru a fi oferite utilizatorilor pentru testare oarbă, utilizatorii votând abilitățile modelelor pe baza experiențelor lor de conversație din viața reală.
Din acest motiv, Chatbot Arena LLM Leaderboard este cea mai autorizată și importantă arena pentru modelele mari de top din lume.
Qwen 2,5-Max a intrat, de asemenea, în primele zece pe noul deschis WebDev listă pentru dezvoltarea aplicațiilor web.

Comentariul oficial lmsys despre aceasta este că AI chinezesc reduce rapid decalajul!

Internauții care l-au folosit personal spun că performanța lui Qwen este mai stabilă.

Unii oameni spun chiar că Qwen va înlocui în curând toate modelele obișnuite din Silicon Valley.

Patru abilități individuale ajung în vârf
Primul și al doilea loc în primele trei ale listei generale au fost ocupate de familia Google Gemini, cu GPT-4o și DeepSeek-R1 la egalitate pe locul trei.
Qwen2.5-Max la egalitate pe locul al șaptelea cu o1-preview, puțin în spatele completului o1.

Urmează performanța Qwen2.5-Max în fiecare categorie individuală.
În cel mai logic matematică și cod sarcini, rezultatele lui Qwen2.5-Max le-au depășit pe cele ale o1-mini și s-a clasat pe primul loc cu o1 și DeepSeek-R1 complet încărcate.
Iar dintre modelele aflate la egalitate pe primul loc pe lista de matematică, Qwen2.5-Max este singurul model neraționant.

Dacă te uiți îndeaproape la înregistrările specifice de luptă, poți vedea, de asemenea, că Qwen2.5-Max are o rată de câștig de 69% în capacitatea de cod împotriva o1 plin de sânge.

În cuvânt prompt complex task, Qwen2.5-Max și o1-preview la egalitate pe locul doi, iar dacă se limitează la engleză, se poate clasa pe primul loc, la egalitate cu o1-preview, DeepSeek-R1 etc.

În plus, Qwen2.5-Max este la egalitate pe primul loc cu DeepSeek-R1 în dialog cu mai multe ture; ocupă locul trei în text lung (nu mai puțin de 500 de jetoane), depășind o1-preview.

În plus, Ali a arătat și performanța lui Qwen2.5-Max pe unele liste clasice în raportul tehnic.
În comparația modelelor de comandă, Qwen2.5-Max este la același nivel sau mai mare decât GPT-4o și Claude 3.5-Sonnet în benchmark-uri precum Arena-Hard (similar cu preferințele umane) și MMLU-Pro (cunoștințe la nivel universitar).
În comparația modelului de bază open source, Qwen2.5-Max a depășit, de asemenea, DeepSeek-V3 în general și a fost cu mult înaintea Llama 3.1-405B.

În ceea ce privește modelul de bază, Qwen2.5-Max a arătat, de asemenea, un avantaj semnificativ în majoritatea testelor de referință (modelul de bază al modelului cu sursă închisă nu este accesibil, deci doar modelul cu sursă deschisă poate fi comparat).

Cod/inferență remarcabil, acceptă artefacte
După lansarea Qwen2.5-Max, un număr mare de internauți au venit să-l testeze.
S-a descoperit că excelează în domenii precum codul și inferența.
De exemplu, lăsați-l să scrie un joc de șah în JavaScript.
Datorită Artefacte, un mic joc dezvoltat într-o singură propoziție poate fi jucat imediat:

codul pe care îl generează este adesea mai ușor de citit și utilizat.
Qwen2.5-Max este rapid și precis atunci când se deduce solicitări complexe:
Echipa ta are 3 pași pentru a gestiona solicitările clienților:
Colectarea datelor (etapa A): 5 minute per solicitare.
Procesare (etapa B): 10 minute per cerere.
Verificare (etapa C): 8 minute per cerere.
În prezent, echipa lucrează secvenţial, dar vă gândiţi la un flux de lucru paralel. Dacă atribuiți câte două persoane fiecărei etape și permiteți un flux de lucru paralel, producția pe oră va crește cu 20%. Cu toate acestea, adăugarea unui flux de lucru paralel va costa cu 15% mai mult în ceea ce privește cheltuielile generale de operare. Având în vedere timpul și costul, ar trebui să utilizați un flux de lucru paralel pentru a optimiza eficiența?
Qwen2.5-Max completează întreaga inferență în mai puțin de 30 de secunde, împărțind în mod clar procesul general în cinci pași: analiza fluxului de lucru curent, analiza fluxurilor de lucru paralele, implicațiile costurilor, compromisurile cost-eficiență și concluzii.
Se ajunge rapid la concluzia finală: ar trebui folosite fluxuri de lucru paralele.
În comparație cu DeepSeek-V3, care este, de asemenea, un model fără inferență, Qwen2.5-Max oferă un răspuns mai concis și mai rapid.
Sau lăsați-l să genereze o sferă rotativă formată din cifre ASCII. Cifra cea mai apropiată de unghiul de vizualizare este alb pur, în timp ce cea mai îndepărtată devine treptat gri, cu un fundal negru.
Numărarea numărului de litere specifice dintr-un cuvânt este și mai ușoară.

Dacă doriți să îl încercați singur, Qwen2.5-Max este deja online pe platforma Qwen Chat și poate fi experimentat gratuit.
Utilizatorii întreprinderilor pot apela modelul API Qwen2.5-Max pe Alibaba Cloud Bailian.
