Baru saja, model domestik lain ditambahkan ke daftar Big Model Arena

dari Ali, Qwen2.5-Maks, yang melampaui DeepSeek-V3 dan menempati peringkat ketujuh dalam peringkat keseluruhan dengan skor total 1332.

Ia juga melampaui model seperti Claude 3.5 Sonnet dan Llama 3.1 405B dalam satu gerakan.

Secara khusus, dia unggul dalam pemrograman dan matematika, dan menduduki peringkat pertama bersama Fullblood o1 dan DeepSeek-R1.

Chatbot Arena adalah platform pengujian kinerja model besar yang diluncurkan oleh Organisasi LMSYSSaat ini, aplikasi ini telah mengintegrasikan lebih dari 190 model, dan menggunakan model yang dipasangkan dalam tim yang terdiri dari dua orang untuk diberikan kepada pengguna guna pengujian buta, dengan pengguna memberikan suara mengenai kemampuan model berdasarkan pengalaman percakapan mereka di dunia nyata.

Karena alasan ini, Papan Peringkat Chatbot Arena LLM merupakan arena yang paling berwenang dan penting bagi para model besar terbaik dunia.

Qwen 2.5-Maks juga masuk ke dalam sepuluh besar di yang baru dibuka Pengembang Web daftar untuk pengembangan aplikasi web.

Komentar resmi lmsys mengenai hal ini adalah AI Tiongkok dengan cepat menutup kesenjangan tersebut!

Netizen yang telah menggunakannya secara pribadi mengatakan bahwa kinerja Qwen lebih stabil.

Beberapa orang bahkan mengatakan bahwa Qwen akan segera menggantikan semua model biasa di Silicon Valley.

Empat kemampuan individu mencapai puncak

Tempat pertama dan kedua dalam tiga teratas daftar keseluruhan ditempati oleh keluarga Google Gemini, dengan GPT-4o dan DeepSeek-R1 terikat pada tempat ketiga.

Qwen2.5-Max berada di posisi ketujuh dengan o1-preview, sedikit di belakang o1 penuh.

Berikut ini adalah performa Qwen2.5-Max pada setiap kategori individu.

Dalam hal yang lebih logis matematika dan kode tugas, hasil Qwen2.5-Max melampaui hasil o1-mini dan menempati posisi pertama bersama dengan o1 yang terisi penuh dan DeepSeek-R1.

Dan di antara model-model yang menempati posisi pertama pada daftar matematika, Qwen2.5-Max adalah satu-satunya model non-penalaran.

Jika Anda mencermati catatan pertempuran spesifik, Anda juga dapat melihat bahwa Qwen2.5-Max memiliki rasio kemenangan 69% dalam kemampuan kode melawan o1 berdarah murni.

Di dalam kata prompt kompleks tugas, Qwen2.5-Max dan o1-preview terikat pada posisi kedua, dan jika dibatasi pada bahasa Inggris, dapat menempati posisi pertama, setara dengan o1-preview, DeepSeek-R1, dst.

Selain itu, Qwen2.5-Max berada di posisi pertama bersama dengan DeepSeek-R1 di dialog multi-putaran; itu peringkat ketiga di teks panjang (tidak kurang dari 500 token), melampaui o1-preview.

Selain itu, Ali juga menunjukkan kinerja Qwen2.5-Max pada beberapa daftar klasik dalam laporan teknis.

Dalam perbandingan model perintah, Qwen2.5-Max berada pada level yang sama atau lebih tinggi dari GPT-4o dan Claude 3.5-Sonnet dalam tolok ukur seperti Arena-Hard (mirip dengan preferensi manusia) dan MMLU-Pro (pengetahuan tingkat universitas).

Dalam perbandingan model dasar sumber terbuka, Qwen2.5-Max juga mengungguli DeepSeek-V3 secara keseluruhan dan jauh di depan Llama 3.1-405B.

Sedangkan untuk model dasar, Qwen2.5-Max juga menunjukkan keunggulan signifikan pada sebagian besar uji benchmark (model dasar model sumber tertutup tidak dapat diakses, sehingga hanya model sumber terbuka yang dapat dibandingkan).

Kode/inferensi yang luar biasa, mendukung Artefak

Setelah Qwen2.5-Max diluncurkan, sejumlah besar netizen datang untuk mengujinya.

Telah ditemukan bahwa ia unggul dalam bidang-bidang seperti kode dan inferensi.

Misalnya, mari kita menulis permainan catur dalam JavaScript.

Berkat Artefak, permainan kecil yang dikembangkan dalam satu kalimat dapat langsung dimainkan:

Kode yang dihasilkan seringkali lebih mudah dibaca dan digunakan.

Qwen2.5-Max cepat dan akurat saat menyimpulkan perintah yang rumit:

Tim Anda memiliki 3 langkah untuk menangani permintaan pelanggan:

Pengumpulan data (tahap A): 5 menit per permintaan.

Pemrosesan (tahap B): 10 menit per permintaan.

Verifikasi (tahap C): 8 menit per permintaan.

Tim saat ini bekerja secara berurutan, tetapi Anda mempertimbangkan alur kerja paralel. Jika Anda menugaskan dua orang untuk setiap tahap dan memungkinkan alur kerja paralel, output per jam akan meningkat sebesar 20%. Namun, menambahkan alur kerja paralel akan menghabiskan biaya 15% lebih banyak dalam hal biaya operasional. Dengan mempertimbangkan waktu dan biaya, haruskah Anda menggunakan alur kerja paralel untuk mengoptimalkan efisiensi?

Qwen2.5-Max menyelesaikan keseluruhan inferensi dalam waktu kurang dari 30 detik, dengan jelas membagi keseluruhan proses menjadi lima langkah: analisis alur kerja saat ini, analisis alur kerja paralel, implikasi biaya, pertimbangan efisiensi biaya, dan kesimpulan.

Kesimpulan akhir segera dicapai: alur kerja paralel harus digunakan.

Dibandingkan dengan DeepSeek-V3, yang juga merupakan model non-inferensi, Qwen2.5-Max memberikan respons yang lebih ringkas dan cepat.

Atau biarkan ia menghasilkan bola berputar yang terdiri dari digit ASCII. Digit yang paling dekat dengan sudut pandang berwarna putih bersih, sedangkan yang terjauh secara bertahap berubah menjadi abu-abu, dengan latar belakang hitam.

Menghitung jumlah huruf tertentu dalam sebuah kata bahkan lebih mudah.

Jika Anda ingin mencobanya sendiri, Qwen2.5-Max sudah tersedia online di platform Qwen Chat dan dapat dicoba secara gratis.

Pengguna perusahaan dapat memanggil API model Qwen2.5-Max di Alibaba Cloud Bailian.

Posting serupa

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *