Ali Qwen2.5-Max haal DeepSeek-V3 verby! Netizen: China se KI is vinnig besig om die gaping te verklein

Netnou is nog 'n huishoudelike model by die Big Model Arena-lys gevoeg

van Ali, Qwen2.5-Maks, wat DeepSeek-V3 verbygesteek het en die sewende plek op die algehele ranglys beklee met 'n totale telling van 1332.

Dit het ook modelle soos Claude 3.5 Sonnet en Llama 3.1 405B in een klap verbygesteek.

In die besonder, dit blink uit in programmering en wiskunde, en is eerste gerangskik langs Fullblood o1 en DeepSeek-R1.

Chatbot Arena is 'n groot model prestasietoetsplatform wat deur LMSYS Org. Dit integreer tans meer as 190 modelle, en gebruik modelle wat in spanne van twee gepaar is om aan gebruikers gegee te word vir blinde toetsing, met gebruikers wat oor die vermoëns van die modelle stem op grond van hul werklike gesprekservarings.

Om hierdie rede is die Chatbot Arena LLM Leaderboard die mees gesaghebbende en belangrikste arena vir die wêreld se top groot modelle.

Qwen 2.5-Maks het ook by die toptien ingebreek op die nuut geopen WebDev lys vir webtoepassingsontwikkeling.

Die amptelike lmsys kommentaar hierop is dat Chinese KI is vinnig besig om die gaping te sluit!

Netizens wat dit persoonlik gebruik het, sê dat Qwen se prestasie meer stabiel is.

Sommige mense sê selfs dat Qwen binnekort alle gewone modelle in Silicon Valley gaan vervang.

Inhoudsopgawe

Vier individuele vermoëns bereik die top

Die eerste en tweede plekke in die top drie van die algehele lys is deur die Google Gemini-familie ingeneem, met GPT-4o en DeepSeek-R1 gelykop vir die derde plek.

Qwen2.5-Max gelykop vir die sewende plek met o1-voorskou, effens agter die volle o1.

Volgende is Qwen2.5-Max se prestasie in elke individuele kategorie.

In die meer logiese wiskunde en kode take, het Qwen2.5-Max se resultate dié van o1-mini oortref, en dit het gelykop vir die eerste plek met die volgelaaide o1 en DeepSeek-R1.

En onder die modelle wat gelyk is vir die eerste plek op die wiskundelys, is Qwen2.5-Max die enigste nie-redenerende model.

As jy noukeurig na die spesifieke gevegsrekords kyk, kan jy ook sien dat Qwen2.5-Max 'n 69% wenkoers het in kodevermoë teenoor die volbloed o1.

In die komplekse vinnige woord taak, Qwen2.5-Max en o1-voorskou gelykop vir die tweede plek, en as dit beperk is tot Engels, kan dit eerste rangskik, op gelyke voet met o1-voorskou, DeepSeek-R1, ens.

Daarbenewens is Qwen2.5-Max gelykop vir die eerste plek met DeepSeek-R1 in multi-draai dialoog; dit beklee die derde plek lang teks (nie minder nie as 500 tokens), wat o1-voorskou oortref.

Daarbenewens het Ali ook Qwen2.5-Max se prestasie op 'n paar klassieke lyste in die tegniese verslag gewys.

In die vergelyking van bevelmodelle is Qwen2.5-Max op dieselfde vlak as of hoër as GPT-4o en Claude 3.5-Sonnet in maatstawwe soos Arena-Hard (soortgelyk aan menslike voorkeure) en MMLU-Pro (universiteitsvlakkennis).

In die oopbron-basismodelvergelyking het Qwen2.5-Max ook beter as DeepSeek-V3 oor die hele linie gevaar en was ver voor Llama 3.1-405B.

Wat die basismodel betref, het Qwen2.5-Max ook 'n beduidende voordeel in die meeste maatstaftoetse getoon (die geslotebronmodelbasismodel is nie toeganklik nie, dus kan slegs die oopbronmodel vergelyk word).

Uitstekende kode/afleiding, ondersteun artefakte

Nadat Qwen2.5-Max bekend gestel is, het 'n groot aantal netizens dit kom toets.

Daar is gevind dat dit uitblink op gebiede soos kode en afleiding.

Laat dit byvoorbeeld 'n skaakspeletjie in JavaScript skryf.

Danksy Artefakte, 'n klein speletjie wat in 'n enkele sin ontwikkel is, kan onmiddellik gespeel word:

die kode wat dit genereer is dikwels makliker om te lees en te gebruik.

Qwen2.5-Max is vinnig en akkuraat wanneer komplekse opdragte afgelei word:

Jou span het 3 stappe om kliënteversoeke te hanteer:

Data-insameling (stadium A): 5 minute per versoek.

Verwerking (stadium B): 10 minute per versoek.

Verifikasie (stadium C): 8 minute per versoek.

Die span werk tans opeenvolgend, maar jy oorweeg 'n parallelle werkvloei. As jy twee mense aan elke stadium toewys en voorsiening maak vir 'n parallelle werkvloei, sal die uitset per uur met 20% toeneem. Die byvoeging van 'n parallelle werkvloei sal egter 15% meer kos in terme van bedryfsbokoste. As u die tyd en koste in ag neem, moet u 'n parallelle werkvloei gebruik om doeltreffendheid te optimaliseer?

Qwen2.5-Max voltooi die hele afleiding in minder as 30 sekondes, wat die algehele proses duidelik in vyf stappe verdeel: ontleding van die huidige werkvloei, ontleding van parallelle werkvloeie, koste-implikasies, kostedoeltreffendheid-afwegings en gevolgtrekkings.

Die finale gevolgtrekking word vinnig bereik: parallelle werkstrome moet gebruik word.

In vergelyking met DeepSeek-V3, wat ook 'n nie-afleidingsmodel is, bied Qwen2.5-Max 'n meer bondige en vinnige reaksie.

Of laat dit 'n roterende sfeer genereer wat uit ASCII-syfers bestaan. Die syfer naaste aan die kykhoek is spierwit, terwyl die verste geleidelik grys word, met 'n swart agtergrond.

Om die aantal spesifieke letters in 'n woord te tel is selfs makliker.

As jy dit self wil probeer, is Qwen2.5-Max reeds aanlyn op die Qwen Chat-platform en kan dit gratis ervaar word.

Ondernemingsgebruikers kan die Qwen2.5-Max-model-API op Alibaba Cloud Bailian bel.

Soortgelyke plasings

Ongekategoriseer

Vraestel-DeepSeek-R1: Aansporing van redenasievermoë in LLM's via versterkingsleer

Deurdeepseeker 29 Januarie 202529 Januarie 2025

Opsomming Hierdie vraestel stel DeepSeek se eerstegenerasie redenasiemodelle bekend: DeepSeek-R1-Zero en DeepSeek-R1. DeepSeek-R1-Zero, opgelei deur grootskaalse versterkingsleer (RL) sonder toesig fyninstelling (SFT), toon merkwaardige redenasievermoëns. Deur RL ontwikkel dit natuurlik kragtige redenasiegedrag. Dit staar egter uitdagings in die gesig, soos swak leesbaarheid en taalvermenging. Om hierdie kwessies aan te spreek en redenasieprestasie te verbeter, is DeepSeek-R1 ontwikkel, ...

Ongekategoriseer

Die konfrontasie van die top vier modelle! 'n Oorsig wys hoe kragtig Deepseek R1 is

Deurzddeepseeker 1 Junie 20251 Junie 2025

Oor die afgelope paar dae is Deepseek-R1 0528 amptelik oopbron beskikbaar gestel. Op LiveCodeBench is die werkverrigting daarvan amper gelykstaande aan OpenAI se o3 (hoog); in Aider se veeltalige maatstaftoets staan dit sy eie teen Claude Opus. Toe dit op die amptelike webwerf bekendgestel is, het ons vinnig die voorkantvermoëns daarvan getoets en gevind dat dit buitengewoon is...

Ongekategoriseer

Dit is naby DeepSeek-R1-32B en verpletter Fei-Fei Li se s1! UC Berkeley en ander oopbron nuwe SOTA-afleidingsmodelle

Deurzddeepseeker 14 Februarie 202514 Februarie 2025

Die 32B-afleidingsmodel gebruik slegs 1/8 van die data en is gekoppel aan DeepSeek-R1 van dieselfde grootte! Sopas het instansies soos Stanford, UC Berkeley en die Universiteit van Washington gesamentlik 'n SOTA-vlak afleidingsmodel, OpenThinker-32B, vrygestel en het ook tot 114k opleidingsdata oopbron verkry. OpenThinker Project-tuisblad: OpenThinker Hugging Face:...

Ongekategoriseer

Google het drie nuwe modelle gelyktydig vrygestel: Gemini-2.0-Pro is gratis, het 'n uitstekende telling en is eerste, en is geskik vir die kodering en verwerking van komplekse opdragte!

Deurzddeepseeker 8 Februarie 20258 Februarie 2025

Die verhaal van Gemini 2.0 versnel. Die Flash Thinking Experimental-weergawe in Desember het ontwikkelaars 'n werkende model met lae latensie en hoë werkverrigting gebring. Vroeër vanjaar is 2.0 Flash Thinking Experimental in die Google AI Studio opgedateer om werkverrigting verder te verbeter deur die spoed van Flash met verbeterde afleidingsvermoëns te kombineer. Verlede week,…

Ongekategoriseer

Wat is FlashMLA? 'n Omvattende gids tot die impak daarvan op KI-dekoderingspitte

Deurdeepseeker 24 Februarie 202524 Februarie 2025

FlashMLA het vinnig aandag gekry in die wêreld van kunsmatige intelligensie, veral op die gebied van groot taalmodelle (LLM's). Hierdie innoverende instrument, ontwikkel deur DeepSeek, dien as 'n geoptimaliseerde dekoderingskern wat ontwerp is vir Hopper GPU's - hoëprestasieskyfies wat algemeen in AI-berekeninge gebruik word. FlashMLA fokus op die doeltreffende verwerking van reekse van veranderlike lengte, wat dit besonder goed geskik maak ...

Ongekategoriseer

Die wêreld se hoofstroom KI-produkte fokus op ontleding en omvattende riglyne vir gebruikerservaring (insluitend DeepSeek en GPT)

Deurzddeepseeker 10 Februarie 202510 Februarie 2025

Funksieposisionering en kernvoordeelontleding ChatGPT (OpenAI) – die globale maatstaf vir alledaagse ChatGPT Tegniese gene: generatiewe KI gebaseer op die GPT-reeks groot modelle, met algemene gespreksvaardighede en logiese redenasie as sy kernvoordele. Veeltalige verwerking: presteer die beste in Engels, met voortdurende verbetering in Chinees; maar ons beveel aan om Engels te gebruik om ...

Ali Qwen2.5-Max haal DeepSeek-V3 verby! Netizen: China se KI is vinnig besig om die gaping te sluit

Vier individuele vermoëns bereik die top

Uitstekende kode/afleiding, ondersteun artefakte

Vraestel-DeepSeek-R1: Aansporing van redenasievermoë in LLM's via versterkingsleer

Die konfrontasie van die top vier modelle! 'n Oorsig wys hoe kragtig Deepseek R1 is

Dit is naby DeepSeek-R1-32B en verpletter Fei-Fei Li se s1! UC Berkeley en ander oopbron nuwe SOTA-afleidingsmodelle

Google het drie nuwe modelle gelyktydig vrygestel: Gemini-2.0-Pro is gratis, het 'n uitstekende telling en is eerste, en is geskik vir die kodering en verwerking van komplekse opdragte!

Wat is FlashMLA? 'n Omvattende gids tot die impak daarvan op KI-dekoderingspitte

Die wêreld se hoofstroom KI-produkte fokus op ontleding en omvattende riglyne vir gebruikerservaring (insluitend DeepSeek en GPT)

Maak 'n opvolg-bydrae Kanselleer die opvolg-bydrae