Sebentar tadi, satu lagi model domestik telah ditambahkan ke senarai Big Model Arena
daripada Ali, Qwen2.5-Maks, yang melepasi DeepSeek-V3 dan menduduki tempat ketujuh dalam kedudukan keseluruhan dengan jumlah markah 1332.
Ia juga mengatasi model seperti Claude 3.5 Sonnet dan Llama 3.1 405B dalam satu masa.

khususnya, ia cemerlang dalam pengaturcaraan dan matematik, dan berada di kedudukan pertama bersama Fullblood o1 dan DeepSeek-R1.

Chatbot Arena ialah platform ujian prestasi model besar yang dilancarkan oleh LMSYS Org. Ia kini menyepadukan lebih daripada 190 model, dan menggunakan model yang dipasangkan dalam dua pasukan untuk diberikan kepada pengguna untuk ujian buta, dengan pengguna mengundi kebolehan model berdasarkan pengalaman perbualan kehidupan sebenar mereka.
Atas sebab ini, Papan Pendahulu LLM Arena Chatbot ialah arena yang paling berwibawa dan penting untuk model besar terkemuka di dunia.
Qwen 2.5-Maks juga memecah masuk ke dalam sepuluh teratas pada yang baru dibuka WebDev senarai untuk pembangunan aplikasi web.

Komen rasmi lmsys tentang ini ialah AI Cina sedang menutup jurang dengan pantas!

Netizen yang pernah menggunakannya secara peribadi mengatakan prestasi Qwen lebih stabil.

Malah ada yang mengatakan bahawa Qwen akan menggantikan semua model biasa di Silicon Valley tidak lama lagi.

Empat kebolehan individu mencapai puncak
Tempat pertama dan kedua dalam tiga teratas senarai keseluruhan telah diambil oleh keluarga Google Gemini, dengan GPT-4o dan DeepSeek-R1 terikat untuk tempat ketiga.
Qwen2.5-Max terikat untuk tempat ketujuh dengan o1-pratonton, sedikit di belakang o1 penuh.

Seterusnya ialah prestasi Qwen2.5-Max dalam setiap kategori individu.
Dalam yang lebih logik matematik dan kod tugasan, keputusan Qwen2.5-Max melebihi keputusan o1-mini, dan ia terikat di tempat pertama dengan o1 dan DeepSeek-R1 yang dicas penuh.
Dan antara model yang terikat untuk tempat pertama dalam senarai matematik, Qwen2.5-Max adalah satu-satunya model tanpa alasan.

Jika anda melihat dengan teliti pada rekod pertempuran tertentu, anda juga boleh melihat bahawa Qwen2.5-Max mempunyai kadar kemenangan 69% dalam keupayaan kod terhadap o1 berdarah penuh.

Dalam kata gesaan yang kompleks tugasan, Qwen2.5-Max dan o1-pratonton terikat untuk tempat kedua, dan jika ia terhad kepada bahasa Inggeris, ia boleh menduduki tempat pertama, setanding dengan o1-pratonton, DeepSeek-R1, dsb.

Selain itu, Qwen2.5-Max terikat untuk tempat pertama dengan DeepSeek-R1 in dialog pelbagai pusingan; ia menduduki tempat ketiga dalam teks panjang (tidak kurang daripada 500 token), mengatasi o1-pratonton.

Selain itu, Ali juga menunjukkan prestasi Qwen2.5-Max pada beberapa senarai klasik dalam laporan teknikal.
Dalam perbandingan model arahan, Qwen2.5-Max berada pada tahap yang sama atau lebih tinggi daripada GPT-4o dan Claude 3.5-Sonnet dalam penanda aras seperti Arena-Hard (serupa dengan pilihan manusia) dan MMLU-Pro (pengetahuan peringkat universiti).
Dalam perbandingan model asas sumber terbuka, Qwen2.5-Max juga mengatasi prestasi DeepSeek-V3 secara menyeluruh dan mendahului Llama 3.1-405B.

Bagi model asas, Qwen2.5-Max juga menunjukkan kelebihan ketara dalam kebanyakan ujian penanda aras (model asas model sumber tertutup tidak boleh diakses, jadi hanya model sumber terbuka boleh dibandingkan).

Kod/inferens cemerlang, menyokong Artifak
Selepas Qwen2.5-Max dilancarkan, sebilangan besar netizen datang untuk mengujinya.
Ia didapati cemerlang dalam bidang seperti kod dan inferens.
Sebagai contoh, biarkan ia menulis permainan catur dalam JavaScript.
Terima kasih kepada Artifak, permainan kecil yang dibangunkan dalam satu ayat boleh dimainkan serta-merta:

kod yang dijana selalunya lebih mudah dibaca dan digunakan.
Qwen2.5-Max adalah pantas dan tepat apabila membuat kesimpulan gesaan kompleks:
Pasukan anda mempunyai 3 langkah untuk mengendalikan permintaan pelanggan:
Pengumpulan data (peringkat A): 5 minit setiap permintaan.
Pemprosesan (peringkat B): 10 minit setiap permintaan.
Pengesahan (peringkat C): 8 minit setiap permintaan.
Pasukan pada masa ini bekerja secara berurutan, tetapi anda sedang mempertimbangkan aliran kerja selari. Jika anda menetapkan dua orang untuk setiap peringkat dan membenarkan aliran kerja selari, output sejam akan meningkat sebanyak 20%. Walau bagaimanapun, menambah aliran kerja selari akan menelan kos 15% lebih dari segi overhed operasi. Memandangkan masa dan kos, patutkah anda menggunakan aliran kerja selari untuk mengoptimumkan kecekapan?
Qwen2.5-Max melengkapkan keseluruhan inferens dalam masa kurang daripada 30 saat, dengan jelas membahagikan keseluruhan proses kepada lima langkah: analisis aliran kerja semasa, analisis aliran kerja selari, implikasi kos, pertukaran kecekapan kos dan kesimpulan.
Kesimpulan akhir dicapai dengan cepat: aliran kerja selari harus digunakan.
Berbanding dengan DeepSeek-V3, yang juga merupakan model bukan inferens, Qwen2.5-Max memberikan respons yang lebih ringkas dan pantas.
Atau biarkan ia menjana sfera berputar yang terdiri daripada digit ASCII. Angka yang paling hampir dengan sudut tontonan ialah putih tulen, manakala yang paling jauh secara beransur-ansur bertukar kelabu, dengan latar belakang hitam.
Mengira bilangan huruf tertentu dalam perkataan adalah lebih mudah.

Jika anda ingin mencubanya sendiri, Qwen2.5-Max sudah pun dalam talian di platform Sembang Qwen dan boleh dialami secara percuma.
Pengguna perusahaan boleh menghubungi API model Qwen2.5-Max pada Alibaba Cloud Bailian.
