Upravo je još jedna domaća manekenka dodana na listu Big Model Arene

od Alija, Qwen2,5-Maks, koji je nadmašio DeepSeek-V3 i zauzeo sedmo mjesto u ukupnom poretku s ukupnim rezultatom od 1332.

Također je jednim potezom nadmašio modele kao što su Claude 3.5 Sonnet i Llama 3.1 405B.

Posebno, briljira u programiranju i matematici, te je na prvom mjestu uz Fullblood o1 i DeepSeek-R1.

Chatbot Arena velika je platforma za testiranje performansi modela koju je pokrenuo LMSYS Org. Trenutačno integrira više od 190 modela i koristi modele uparene u timove od dvoje koji se daju korisnicima na slijepo testiranje, pri čemu korisnici glasaju o sposobnostima modela na temelju svojih iskustava u razgovoru iz stvarnog života.

Iz tog razloga, Chatbot Arena LLM Leaderboard najautoritativnija je i najvažnija arena za vrhunske svjetske modele.

Qwen 2,5-Max također se probio među prvih deset na novootvorenom WebDev popis za razvoj web aplikacija.

Službeni lmsysov komentar na ovo je sljedeći Kineska umjetna inteligencija brzo smanjuje jaz!

Korisnici interneta koji su ga osobno koristili kažu da je izvedba Qwena stabilnija.

Neki čak kažu da će Qwen uskoro zamijeniti sve obične modele u Silicijskoj dolini.

Četiri pojedinačne sposobnosti dosežu vrh

Prvo i drugo mjesto u prva tri na ukupnoj listi zauzela je obitelj Google Gemini, s GPT-4o i DeepSeek-R1 izjednačenim na trećem mjestu.

Qwen2.5-Max izjednačen je na sedmom mjestu s o1-pregledom, malo iza punog o1.

Sljedeća je izvedba Qwen2.5-Maxa u svakoj pojedinačnoj kategoriji.

U logičnije matematika i kod zadacima, rezultati Qwen2.5-Maxa nadmašili su rezultate o1-minija i izjednačio se na prvom mjestu s potpuno napunjenim o1 i DeepSeek-R1.

A među modelima koji su izjednačeni s prvim mjestom na matematičkoj listi, Qwen2.5-Max je jedini model koji ne razmišlja.

Ako pažljivo pogledate zapise o određenim bitkama, također možete vidjeti da Qwen2.5-Max ima stopu pobjede od 69% u sposobnosti kodiranja protiv punokrvnog o1.

u složena brza riječ zadatak, Qwen2.5-Max i o1-preview izjednačeni su za drugo mjesto, a ako je ograničen na engleski, može biti prvi, u rangu s o1-preview, DeepSeek-R1 itd.

Osim toga, Qwen2.5-Max je izjednačen na prvom mjestu s DeepSeek-R1 u višestruki dijalog; nalazi se na trećem mjestu dugačak tekst (ne manje od 500 tokena), nadmašujući o1-preview.

Osim toga, Ali je u tehničkom izvješću pokazao i performanse Qwen2.5-Maxa na nekim klasičnim popisima.

U usporedbi naredbenih modela, Qwen2.5-Max je na istoj razini ili višoj od GPT-4o i Claude 3.5-Sonnet u mjerilima kao što su Arena-Hard (slično ljudskim preferencijama) i MMLU-Pro (znanje na sveučilišnoj razini).

U usporedbi osnovnog modela otvorenog koda, Qwen2.5-Max također je nadmašio DeepSeek-V3 u svim aspektima i bio je znatno ispred Llame 3.1-405B.

Što se tiče osnovnog modela, Qwen2.5-Max također je pokazao značajnu prednost u većini benchmark testova (osnovni model zatvorenog koda nije dostupan, tako da se može usporediti samo model otvorenog koda).

Izvanredan kod/zaključak, podržava artefakte

Nakon što je Qwen2.5-Max lansiran, veliki broj netizena ga je došao testirati.

Utvrđeno je da se ističe u područjima kao što su kod i zaključivanje.

Na primjer, neka napiše partiju šaha u JavaScriptu.

zahvaljujući Artefakti, mala igra razvijena u jednoj rečenici može se igrati odmah:

kod koji generira često je lakši za čitanje i korištenje.

Qwen2.5-Max je brz i precizan pri zaključivanju složenih upita:

Vaš tim ima 3 koraka za obradu zahtjeva kupaca:

Prikupljanje podataka (faza A): 5 minuta po zahtjevu.

Obrada (faza B): 10 minuta po zahtjevu.

Verifikacija (faza C): 8 minuta po zahtjevu.

Tim trenutno radi sekvencijalno, ali vi razmišljate o paralelnom tijeku rada. Ako dodijelite dvije osobe svakoj fazi i omogućite paralelni tijek rada, učinak po satu će se povećati za 20%. Međutim, dodavanje paralelnog tijeka rada koštat će 15% više u smislu operativnih troškova. S obzirom na vrijeme i cijenu, trebate li koristiti paralelni tijek rada za optimizaciju učinkovitosti?

Qwen2.5-Max dovršava cjelokupno zaključivanje u manje od 30 sekundi, jasno dijeleći cjelokupni proces u pet koraka: analiza trenutnog tijeka rada, analiza paralelnih tijekova rada, troškovne implikacije, kompromisi troškovne učinkovitosti i zaključci.

Brzo se dolazi do konačnog zaključka: treba koristiti paralelne tijekove rada.

U usporedbi s DeepSeek-V3, koji je također model bez zaključivanja, Qwen2.5-Max pruža koncizniji i brži odgovor.

Ili neka generira rotirajuću sferu sastavljenu od ASCII znamenki. Znamenka najbliža kutu gledanja je čisto bijela, dok najudaljenija postupno postaje siva, s crnom pozadinom.

Brojanje broja određenih slova u riječi još je lakše.

Ako ga želite sami isprobati, Qwen2.5-Max je već online na platformi Qwen Chat i možete ga isprobati besplatno.

Poslovni korisnici mogu pozvati Qwen2.5-Max model API na Alibaba Cloud Bailian.

Slični postovi

Odgovori

Vaša adresa e-pošte neće biti objavljena. Obavezna polja su označena sa * (obavezno)