Hivi sasa, mtindo mwingine wa ndani uliongezwa kwenye orodha ya Big Model Arena
kutoka kwa Ali, Qwen2.5-Max, ambayo ilipita DeepSeek-V3 na kushika nafasi ya saba katika viwango vya jumla kwa alama 1332.
Pia ilipita miundo kama vile Claude 3.5 Sonnet na Llama 3.1 405B kwa mkupuo mmoja.

Hasa, ni bora katika programu na hisabati, na imeorodheshwa ya kwanza pamoja na Fullblood o1 na DeepSeek-R1.

Chatbot Arena ni jukwaa kubwa la majaribio ya utendakazi lililozinduliwa na Shirika la LMSYS. Kwa sasa inaunganisha zaidi ya miundo 190, na hutumia miundo iliyooanishwa katika timu za watu wawili ili kutolewa kwa watumiaji kwa ajili ya majaribio ya upofu, huku watumiaji wakipigia kura uwezo wa miundo kulingana na uzoefu wao wa mazungumzo ya maisha halisi.
Kwa sababu hii, Ubao wa Wanaoongoza wa Chatbot Arena LLM ndio uwanja wenye mamlaka na muhimu zaidi kwa wanamitindo wakubwa duniani.
Qwen 2.5-Max pia kuvunja katika kumi bora juu ya wapya kufunguliwa WebDev orodha ya ukuzaji wa programu ya wavuti.

Maoni rasmi ya lmsys juu ya hii ni kwamba AI ya Kichina inaziba pengo haraka!

Wanamtandao ambao wameitumia kibinafsi wanasema kuwa utendakazi wa Qwen ni thabiti zaidi.

Watu wengine hata wanasema kwamba Qwen hivi karibuni atachukua nafasi ya mifano yote ya kawaida katika Silicon Valley.

Uwezo nne wa mtu binafsi hufika kileleni
Nafasi za kwanza na za pili katika tatu za juu za orodha ya jumla zilichukuliwa na familia ya Google Gemini, na GPT-4o na DeepSeek-R1 zimefungwa kwa nafasi ya tatu.
Qwen2.5-Max imefungwa kwa nafasi ya saba na o1-hakikisho, nyuma kidogo ya o1 kamili.

Inayofuata ni utendakazi wa Qwen2.5-Max katika kila aina ya mtu binafsi.
Katika mantiki zaidi hisabati na kanuni tasks, matokeo ya Qwen2.5-Max yalizidi yale ya o1-mini, na ilishikana nafasi ya kwanza na o1 iliyochajiwa kikamilifu na DeepSeek-R1.
Na kati ya mifano iliyofungwa kwa nafasi ya kwanza kwenye orodha ya hesabu, Qwen2.5-Max ndiyo mfano pekee usio na sababu.

Ukiangalia kwa makini rekodi mahususi za vita, unaweza pia kuona kwamba Qwen2.5-Max ina kiwango cha ushindi cha 69% katika uwezo wa msimbo dhidi ya o1 iliyojaa damu.

Katika neno tata haraka task, Qwen2.5-Max na o1-hakikisho iliyofungwa kwa nafasi ya pili, na ikiwa ni mdogo kwa Kiingereza, inaweza kuweka nafasi ya kwanza, kwa usawa na o1-preview, DeepSeek-R1, nk.

Kwa kuongezea, Qwen2.5-Max imefungwa kwa nafasi ya kwanza na DeepSeek-R1 katika mazungumzo ya pande nyingi; inashika nafasi ya tatu maandishi marefu (sio chini ya tokeni 500), ikipita o1-hakikisho.

Kwa kuongeza, Ali pia alionyesha utendaji wa Qwen2.5-Max kwenye baadhi ya orodha za kawaida katika ripoti ya kiufundi.
Kwa kulinganisha na mifano ya amri, Qwen2.5-Max iko katika kiwango sawa na au cha juu zaidi ya GPT-4o na Claude 3.5-Sonnet katika vigezo kama vile Arena-Hard (sawa na matakwa ya binadamu) na MMLU-Pro (maarifa ya kiwango cha chuo kikuu).
Katika ulinganisho wa msingi wa chanzo huria, Qwen2.5-Max pia ilifanya vyema zaidi DeepSeek-V3 kwenye ubao na ilikuwa mbele ya Llama 3.1-405B.

Kuhusu modeli ya msingi, Qwen2.5-Max pia ilionyesha faida kubwa katika majaribio mengi ya kuigwa (mfano wa msingi wa chanzo funge haupatikani, kwa hivyo ni mfano wa chanzo huria pekee unaoweza kulinganishwa).

Nambari bora/maelekezo, inasaidia Vipengee
Baada ya Qwen2.5-Max kuzinduliwa, idadi kubwa ya watumiaji wa mtandao walikuja kuijaribu.
Imepatikana kuwa bora katika maeneo kama vile kanuni na marejeleo.
Kwa mfano, iandike mchezo wa chess kwenye JavaScript.
Shukrani kwa Mabaki, mchezo mdogo ulioendelezwa katika sentensi moja unaweza kuchezwa mara moja:

kanuni inazalisha mara nyingi ni rahisi kusoma na kutumia.
Qwen2.5-Max ni ya haraka na sahihi wakati wa kukisia vidokezo changamano:
Timu yako ina hatua 3 za kushughulikia maombi ya wateja:
Mkusanyiko wa data (hatua A): dakika 5 kwa kila ombi.
Inachakata (hatua B): Dakika 10 kwa kila ombi.
Uthibitishaji (hatua C): Dakika 8 kwa kila ombi.
Timu kwa sasa inafanya kazi kwa kufuatana, lakini unazingatia mtiririko wa kazi sambamba. Ukikabidhi watu wawili kwa kila hatua na kuruhusu mtiririko wa kazi sambamba, matokeo kwa saa yataongezeka kwa 20%. Hata hivyo, kuongeza mtiririko wa kazi sambamba kutagharimu 15% zaidi katika suala la uendeshaji wa uendeshaji. Kwa kuzingatia wakati na gharama, je, unapaswa kutumia mtiririko wa kazi sambamba ili kuongeza ufanisi?
Qwen2.5-Max hukamilisha makisio yote kwa chini ya sekunde 30, ikigawanya kwa uwazi mchakato mzima katika hatua tano: uchanganuzi wa mtiririko wa sasa wa kazi, uchanganuzi wa mtiririko wa kazi sambamba, athari za gharama, maafikiano ya gharama nafuu, na hitimisho.
Hitimisho la mwisho linafikiwa haraka: mtiririko wa kazi sambamba unapaswa kutumika.
Ikilinganishwa na DeepSeek-V3, ambayo pia ni modeli isiyo ya makisio, Qwen2.5-Max hutoa majibu mafupi na ya haraka zaidi.
Au iruhusu itengeneze duara linalozunguka linaloundwa na tarakimu za ASCII. Nambari iliyo karibu zaidi na pembe ya kutazama ni nyeupe kabisa, wakati ya mbali zaidi inabadilika kuwa kijivu, na mandharinyuma nyeusi.
Kuhesabu idadi ya herufi maalum katika neno ni rahisi zaidi.

Ikiwa unataka kuijaribu mwenyewe, Qwen2.5-Max tayari iko mtandaoni kwenye jukwaa la Qwen Chat na inaweza kufanyiwa kazi bila malipo.
Watumiaji wa biashara wanaweza kupiga API ya mfano ya Qwen2.5-Max kwenye Alibaba Cloud Bailian.
