Ali Qwen2.5-Max prehitel DeepSeek-V3! Netizen: Kitajska umetna inteligenca hitro zapolnjuje vrzel

Pravkar je bil na seznam Big Model Arena dodan še en domači model

od Alija, Qwen2.5-Max, ki je presegel DeepSeek-V3 in se s skupno oceno 1332 uvrstil na sedmo mesto v skupni razvrstitvi.

Z enim zamahom je presegel tudi modele, kot sta Claude 3.5 Sonnet in Llama 3.1 405B.

zlasti blesti v programiranju in matematiki, in je uvrščen na prvo mesto poleg Fullblood o1 in DeepSeek-R1.

Chatbot Arena je velika platforma za testiranje zmogljivosti modelov, ki jo je lansiral LMSYS Org. Trenutno združuje več kot 190 modelov in uporablja modele, združene v skupine po dva, ki se dajo uporabnikom za slepo testiranje, pri čemer uporabniki glasujejo o sposobnostih modelov na podlagi svojih pogovornih izkušenj v resničnem življenju.

Iz tega razloga je Chatbot Arena LLM Leaderboard najbolj avtoritativno in pomembno prizorišče za najboljše svetovne modele.

Qwen 2,5-maks prebil med prvo deseterico tudi na novoodprti WebDev seznam za razvoj spletnih aplikacij.

Uradni komentar lmsys o tem je takšen Kitajska umetna inteligenca hitro zapolnjuje vrzel!

Uporabniki interneta, ki so ga osebno uporabljali, pravijo, da je delovanje Qwen bolj stabilno.

Nekateri celo pravijo, da bo Qwen kmalu zamenjal vse običajne modele v Silicijevi dolini.

Kazalo

Štiri individualne sposobnosti dosežejo vrh

Prvo in drugo mesto med prvimi tremi na skupnem seznamu je zasedla družina Google Gemini, GPT-4o in DeepSeek-R1 pa sta bila na tretjem mestu.

Qwen2.5-Max je izenačen na sedmo mesto s predogledom o1, rahlo zaostaja za polnim o1.

Sledi uspešnost Qwen2.5-Max v vsaki posamezni kategoriji.

V bolj logično matematika in koda nalog, so rezultati Qwen2.5-Max presegli rezultate o1-mini in se je na prvem mestu izenačil s popolnoma napolnjenima o1 in DeepSeek-R1.

In med modeli, ki so na prvem mestu na matematičnem seznamu, je Qwen2.5-Max edini model, ki ne razmišlja.

Če pozorno pogledate zapise o specifičnih bitkah, lahko vidite tudi, da ima Qwen2.5-Max zmagovalno stopnjo 69% v sposobnosti kodiranja proti polnokrvnemu o1.

V zapletena pozivna beseda naloga, Qwen2.5-Max in o1-preview izenačena z drugim mestom, in če je omejena na angleščino, se lahko uvrsti na prvo mesto, enako kot o1-preview, DeepSeek-R1 itd.

Poleg tega je Qwen2.5-Max izenačen na prvem mestu z DeepSeek-R1 v večobratni dialog; se uvršča na tretje mesto dolgo besedilo (ne manj kot 500 žetonov), ki presega o1-preview.

Poleg tega je Ali v tehničnem poročilu pokazal tudi zmogljivost Qwen2.5-Max na nekaterih klasičnih seznamih.

V primerjavi modelov ukazov je Qwen2.5-Max na enaki ali višji ravni kot GPT-4o in Claude 3.5-Sonnet v merilih, kot sta Arena-Hard (podobno človeškim preferencam) in MMLU-Pro (znanje na univerzitetni ravni).

V primerjavi z odprtokodnim osnovnim modelom je Qwen2.5-Max prav tako presegel DeepSeek-V3 na vseh področjih in bil precej pred Llamo 3.1-405B.

Kar zadeva osnovni model, je tudi Qwen2.5-Max pokazal pomembno prednost v večini primerjalnih testov (osnovni model zaprtokodnega modela ni dostopen, zato je mogoče primerjati le odprtokodni model).

Izjemna koda/sklep, podpira artefakte

Po predstavitvi Qwen2.5-Max ga je prišlo preizkusiti veliko število uporabnikov interneta.

Ugotovljeno je bilo, da je odličen na področjih, kot sta koda in sklepanje.

Na primer, naj napiše šahovsko partijo v JavaScriptu.

Hvala za Artefakti, majhno igro, razvito v enem stavku, je mogoče igrati takoj:

kodo, ki jo ustvari, je pogosto lažje brati in uporabljati.

Qwen2.5-Max je hiter in natančen pri sklepanju zapletenih pozivov:

Vaša ekipa ima 3 korake za obravnavo zahtev strank:

Zbiranje podatkov (faza A): 5 minut na zahtevo.

Obdelava (faza B): 10 minut na zahtevo.

Preverjanje (stopnja C): 8 minut na zahtevo.

Ekipa trenutno deluje zaporedno, vendar razmišljate o vzporednem delovnem toku. Če vsaki stopnji dodelite dve osebi in omogočite vzporedni potek dela, se bo proizvodnja na uro povečala za 20%. Vendar bo dodajanje vzporednega delovnega toka stalo 15% več v smislu operativnih režijskih stroškov. Ali bi morali glede na čas in stroške uporabiti vzporedni potek dela za optimizacijo učinkovitosti?

Qwen2.5-Max dokonča celotno sklepanje v manj kot 30 sekundah, pri čemer celoten proces jasno razdeli na pet korakov: analiza trenutnega delovnega toka, analiza vzporednih delovnih tokov, stroškovne posledice, kompromisi glede stroškovne učinkovitosti in zaključki.

Končni sklep je hitro dosežen: uporabiti je treba vzporedne delovne tokove.

V primerjavi z DeepSeek-V3, ki je prav tako model brez sklepanja, Qwen2.5-Max zagotavlja bolj jedrnat in hiter odziv.

Ali pa naj ustvari vrtečo se kroglo, sestavljeno iz števk ASCII. Številka, ki je najbližja kotu gledanja, je čisto bela, medtem ko najbolj oddaljena postopoma postane siva s črnim ozadjem.

Štetje števila določenih črk v besedi je še lažje.

Če ga želite preizkusiti sami, je Qwen2.5-Max že na spletu na platformi Qwen Chat in ga lahko izkusite brezplačno.

Podjetniški uporabniki lahko pokličejo API modela Qwen2.5-Max na Alibaba Cloud Bailian.

Podobne objave

Nekategorizirano

Qwen2.5-max proti DeepSeek R1: Poglobljena primerjava modelov: popolna analiza aplikacijskih scenarijev

Avtor:zddeepseeker 14. februar 202514. februar 2025

Uvod Danes imajo veliki jezikovni modeli (LLM) ključno vlogo. V začetku leta 2025, ko se je konkurenca za AI zaostrila, je Alibaba lansirala nov model AI Qwen2.5-max, DeepSeek, podjetje iz Hangzhouja na Kitajskem, pa model R1, ki predstavlja vrhunec tehnologije LLM. Deepseek R1 je odprtokodni model AI, ki je pritegnil ...

Nekategorizirano

a16z dialog s 27-letnim izvršnim direktorjem: AI Agent ima ogromen učinek finančnega vzvoda, dolgoročne cene pa bodo povezane s stroški dela

Avtor:zddeepseeker 8. februar 20258. februar 2025

Poudarki AI Agent preoblikuje uporabniško izkušnjo Jesse Zhang: Kako je agent pravzaprav sestavljen? Naše mnenje je, da bo sčasoma vse bolj podoben agentu, ki temelji na naravnem jeziku, ker se tako usposabljajo veliki jezikovni modeli (LLM). Dolgoročno, če imate super inteligentnega agenta, ki ...

Nekategorizirano

Udarne novice! OpenAI je danes izdal 2 nova modela sklepanja: o3-mini in o3-mini-high.

Avtor:zddeepseeker 1. februar 20251. februar 2025

o3-mini in o3-mini (visoko) bosta izdana danes. Redni uporabniki bodo dobili tudi o3-mini, uporabniki plus pa bodo lahko uporabljali o3-mini (visoko). o3-mini (visoko) je približno 200 točk višji od o1 na Codeforce, hitrejši od o1 in se bolje obnese pri kodiranju in matematiki, vendar je cena še vedno na ravni o1-mini….

Nekategorizirano

Posodobitev DeepSeek-R1-0528: Globlje razmišljanje, močnejše sklepanje

Avtor:zddeepseeker 29. maj 202529. maj 2025

Model DeepSeek R1 je bil podvržen manjši nadgradnji, trenutna različica je DeepSeek-R1-0528. Ko vstopite na spletno stran ali v aplikacijo DeepSeek, v vmesniku za pogovor omogočite funkcijo »Globoko razmišljanje«, da izkusite najnovejšo različico. Uteži modela DeepSeek-R1-0528 so bile naložene na HuggingFace. V zadnjih štirih mesecih je bil DeepSeek-R1 podvržen…

Nekategorizirano

Paper-DeepSeek-R1: Spodbujanje zmožnosti sklepanja v LLM-jih s krepitvenim učenjem

Avtor:deepseeker 29. januar 202529. januar 2025

Povzetek Ta članek predstavlja modele sklepanja prve generacije DeepSeek: DeepSeek-R1-Zero in DeepSeek-R1. DeepSeek-R1-Zero, usposobljen z obsežnim okrepitvenim učenjem (RL) brez nadzorovane natančne nastavitve (SFT), dokazuje izjemne zmožnosti sklepanja. Skozi RL naravno razvija močna razmišljanja. Vendar pa se sooča z izzivi, kot sta slaba berljivost in mešanje jezikov. Za reševanje teh težav in izboljšanje zmogljivosti razmišljanja je bil razvit DeepSeek-R1,…

Nekategorizirano

V krogu umetne inteligence je DeepSeek R1 v fizičnih testih vztrajno prehitel o1 in Claude in vstopili smo v zlato dobo RL.

Avtor:zddeepseeker 1. februar 20251. februar 2025

Nihče od nas ni pričakoval, da se bo tako začelo leto 2025 na področju umetne inteligence. DeepSeek R1 je res neverjeten! Pred kratkim je "skrivnostna vzhodna sila" DeepSeek "trdo nadzorovala" Silicijevo dolino. Prosil sem R1, da podrobno razloži Pitagorov izrek. Vse to je umetna inteligenca naredila v manj kot 30 sekundah brez kakršnih koli...

Ali Qwen2.5-Max prehitel DeepSeek-V3! Netizen: Kitajska umetna inteligenca hitro zmanjšuje vrzel

Štiri individualne sposobnosti dosežejo vrh

Izjemna koda/sklep, podpira artefakte

Qwen2.5-max proti DeepSeek R1: Poglobljena primerjava modelov: popolna analiza aplikacijskih scenarijev

a16z dialog s 27-letnim izvršnim direktorjem: AI Agent ima ogromen učinek finančnega vzvoda, dolgoročne cene pa bodo povezane s stroški dela

Udarne novice! OpenAI je danes izdal 2 nova modela sklepanja: o3-mini in o3-mini-high.

Posodobitev DeepSeek-R1-0528: Globlje razmišljanje, močnejše sklepanje

Paper-DeepSeek-R1: Spodbujanje zmožnosti sklepanja v LLM-jih s krepitvenim učenjem

V krogu umetne inteligence je DeepSeek R1 v fizičnih testih vztrajno prehitel o1 in Claude in vstopili smo v zlato dobo RL.

Dodaj odgovor Prekliči odgovor