Właśnie dodano kolejny model krajowy do listy Big Model Arena
od Aliego, Qwen2.5-Max, który prześcignął DeepSeek-V3 i uplasował się na siódmym miejscu w klasyfikacji generalnej z wynikiem łącznym 1332.
Jednym zamachem prześcignął także takie modele jak Claude 3.5 Sonnet i Llama 3.1 405B.

Zwłaszcza, wyróżnia się w programowaniu i matematycei zajmuje pierwsze miejsce, obok Fullblood o1 i DeepSeek-R1.

Chatbot Arena to duża platforma do testowania wydajności modeli uruchomiona przez Organizacja LMSYSObecnie integruje ponad 190 modeli i wykorzystuje modele dobierane w pary w dwuosobowych zespołach, które są przekazywane użytkownikom do ślepych testów, w których użytkownicy głosują na możliwości modeli w oparciu o swoje doświadczenia z rozmów w prawdziwym życiu.
Z tego powodu ranking Chatbot Arena LLM jest najbardziej wiarygodnym i najważniejszym miejscem dla najlepszych dużych modelek na świecie.
Qwen 2.5-Max również znalazł się w pierwszej dziesiątce nowo otwartego Rozwój sieci lista do tworzenia aplikacji internetowych.

Oficjalny komentarz lmsys na ten temat brzmi: Chińska sztuczna inteligencja szybko nadrabia zaległości!

Internauci, którzy osobiście korzystali z tego rozwiązania, twierdzą, że wydajność Qwen jest bardziej stabilna.

Niektórzy twierdzą nawet, że Qwen wkrótce zastąpi wszystkie zwykłe modelki w Dolinie Krzemowej.

Cztery indywidualne umiejętności docierają na szczyt
Pierwsze i drugie miejsce w pierwszej trójce ogólnej listy przypadło rodzinie Google Gemini, a GPT-4o i DeepSeek-R1 znalazły się ex aequo na trzecim miejscu.
Qwen2.5-Max zajął siódme miejsce ex aequo z o1-preview, nieznacznie za pełnym o1.

Następnie przedstawiono wyniki Qwen2.5-Max w poszczególnych kategoriach.
W bardziej logicznym matematyka i kod Pod względem zadań wyniki Qwen2.5-Max przewyższyły wyniki o1-mini i zajęły pierwsze miejsce ex aequo z w pełni naładowanym o1 i DeepSeek-R1.
A wśród modeli, które ex aequo zajęły pierwsze miejsce na liście matematycznej, Qwen2.5-Max jest jedynym modelem nieracjonalnym.

Jeśli przyjrzysz się uważnie konkretnym zapisom bitew, zobaczysz również, że Qwen2.5-Max ma współczynnik zwycięstw 69% w walce z pełnokrwistym o1.

W złożone słowo podpowiedzi zadanie, Qwen2.5-Max oraz o1-preview zajęły ex aequo drugie miejsce, a gdyby ograniczyć się do języka angielskiego, mogłoby zająć pierwsze miejsce, na równi z o1-preview, DeepSeek-R1 itd.

Ponadto Qwen2.5-Max zajmuje pierwsze miejsce ex aequo z DeepSeek-R1 w dialog wieloetapowy; zajmuje trzecie miejsce w długi tekst (nie mniej niż 500 tokenów), przewyższając o1-preview.

Ponadto Ali w raporcie technicznym pokazał także osiągi Qwen2.5-Max na kilku klasycznych listach.
Porównując modele poleceń, Qwen2.5-Max osiągnął ten sam poziom lub lepszy od GPT-4o i Claude 3.5-Sonnet w testach porównawczych, takich jak Arena-Hard (zbliżone do ludzkich preferencji) i MMLU-Pro (wiedza na poziomie uniwersyteckim).
W porównaniu modeli bazowych open source, Qwen2.5-Max uzyskał także lepsze wyniki niż DeepSeek-V3 pod każdym względem i znacznie wyprzedził Llama 3.1-405B.

Jeśli chodzi o model bazowy, Qwen2.5-Max również wykazał znaczącą przewagę w większości testów porównawczych (model bazowy z zamkniętym kodem źródłowym nie jest dostępny, więc można porównywać jedynie model z otwartym kodem źródłowym).

Wyjątkowy kod/wnioskowanie, obsługuje artefakty
Po premierze Qwen2.5-Max, liczna grupa internautów postanowiła go przetestować.
Udowodniono jego doskonałe właściwości w takich obszarach jak kodowanie i wnioskowanie.
Na przykład, niech napisze grę w szachy w JavaScript.
Dzięki Artefakty, w małą grę opracowaną w jednym zdaniu można zagrać od razu:

generowany przez nią kod jest często łatwiejszy do odczytania i użycia.
Qwen2.5-Max jest szybki i dokładny przy wyciąganiu wniosków na podstawie złożonych monitów:
Aby obsłużyć prośby klientów, Twój zespół musi wykonać 3 kroki:
Zbieranie danych (etap A): 5 minut na każde żądanie.
Przetwarzanie (etap B): 10 minut na żądanie.
Weryfikacja (etap C): 8 minut na każde żądanie.
Zespół obecnie pracuje sekwencyjnie, ale rozważasz równoległy przepływ pracy. Jeśli przypiszesz dwie osoby do każdego etapu i umożliwisz równoległy przepływ pracy, wydajność na godzinę wzrośnie o 20%. Jednak dodanie równoległego przepływu pracy będzie kosztować 15% więcej pod względem narzutu operacyjnego. Biorąc pod uwagę czas i koszt, czy powinieneś użyć równoległego przepływu pracy, aby zoptymalizować wydajność?
Qwen2.5-Max przeprowadza cały proces wnioskowania w czasie krótszym niż 30 sekund, dzieląc cały proces na pięć kroków: analiza bieżącego przepływu pracy, analiza równoległych przepływów pracy, implikacje finansowe, kompromisy pomiędzy efektywnością kosztową a efektywnością kosztową oraz wnioski.
Szybko wyciągnięto wniosek końcowy: należy stosować równoległe przepływy pracy.
W porównaniu do modelu DeepSeek-V3, który również nie jest modelem wnioskowania, Qwen2.5-Max zapewnia bardziej zwięzłą i szybszą odpowiedź.
Albo niech wygeneruje obracającą się kulę złożoną z cyfr ASCII. Cyfra najbliższa kątowi widzenia jest czysto biała, podczas gdy najdalsza stopniowo staje się szara, z czarnym tłem.
Jeszcze łatwiej jest policzyć liczbę konkretnych liter w słowie.

Jeśli chcesz wypróbować grę samodzielnie, Qwen2.5-Max jest już dostępna na platformie Qwen Chat i możesz z niej korzystać bezpłatnie.
Użytkownicy korporacyjni mogą wywołać interfejs API modelu Qwen2.5-Max w usłudze Alibaba Cloud Bailian.
