Ali Qwen2.5-Max menyalip DeepSeek-V3! Netizen: AI Tiongkok dengan cepat menutup celah

Baru saja, model domestik lain ditambahkan ke daftar Big Model Arena

dari Ali, Qwen2.5-Maks, yang melampaui DeepSeek-V3 dan menempati peringkat ketujuh dalam peringkat keseluruhan dengan skor total 1332.

Ia juga melampaui model seperti Claude 3.5 Sonnet dan Llama 3.1 405B dalam satu gerakan.

Secara khusus, dia unggul dalam pemrograman dan matematika, dan menduduki peringkat pertama bersama Fullblood o1 dan DeepSeek-R1.

Chatbot Arena adalah platform pengujian kinerja model besar yang diluncurkan oleh Organisasi LMSYSSaat ini, aplikasi ini telah mengintegrasikan lebih dari 190 model, dan menggunakan model yang dipasangkan dalam tim yang terdiri dari dua orang untuk diberikan kepada pengguna guna pengujian buta, dengan pengguna memberikan suara mengenai kemampuan model berdasarkan pengalaman percakapan mereka di dunia nyata.

Karena alasan ini, Papan Peringkat Chatbot Arena LLM merupakan arena yang paling berwenang dan penting bagi para model besar terbaik dunia.

Qwen 2.5-Maks juga masuk ke dalam sepuluh besar di yang baru dibuka Pengembang Web daftar untuk pengembangan aplikasi web.

Komentar resmi lmsys mengenai hal ini adalah AI Tiongkok dengan cepat menutup kesenjangan tersebut!

Netizen yang telah menggunakannya secara pribadi mengatakan bahwa kinerja Qwen lebih stabil.

Beberapa orang bahkan mengatakan bahwa Qwen akan segera menggantikan semua model biasa di Silicon Valley.

Daftar Isi

Empat kemampuan individu mencapai puncak

Tempat pertama dan kedua dalam tiga teratas daftar keseluruhan ditempati oleh keluarga Google Gemini, dengan GPT-4o dan DeepSeek-R1 terikat pada tempat ketiga.

Qwen2.5-Max berada di posisi ketujuh dengan o1-preview, sedikit di belakang o1 penuh.

Berikut ini adalah performa Qwen2.5-Max pada setiap kategori individu.

Dalam hal yang lebih logis matematika dan kode tugas, hasil Qwen2.5-Max melampaui hasil o1-mini dan menempati posisi pertama bersama dengan o1 yang terisi penuh dan DeepSeek-R1.

Dan di antara model-model yang menempati posisi pertama pada daftar matematika, Qwen2.5-Max adalah satu-satunya model non-penalaran.

Jika Anda mencermati catatan pertempuran spesifik, Anda juga dapat melihat bahwa Qwen2.5-Max memiliki rasio kemenangan 69% dalam kemampuan kode melawan o1 berdarah murni.

Di dalam kata prompt kompleks tugas, Qwen2.5-Max dan o1-preview terikat pada posisi kedua, dan jika dibatasi pada bahasa Inggris, dapat menempati posisi pertama, setara dengan o1-preview, DeepSeek-R1, dst.

Selain itu, Qwen2.5-Max berada di posisi pertama bersama dengan DeepSeek-R1 di dialog multi-putaran; itu peringkat ketiga di teks panjang (tidak kurang dari 500 token), melampaui o1-preview.

Selain itu, Ali juga menunjukkan kinerja Qwen2.5-Max pada beberapa daftar klasik dalam laporan teknis.

Dalam perbandingan model perintah, Qwen2.5-Max berada pada level yang sama atau lebih tinggi dari GPT-4o dan Claude 3.5-Sonnet dalam tolok ukur seperti Arena-Hard (mirip dengan preferensi manusia) dan MMLU-Pro (pengetahuan tingkat universitas).

Dalam perbandingan model dasar sumber terbuka, Qwen2.5-Max juga mengungguli DeepSeek-V3 secara keseluruhan dan jauh di depan Llama 3.1-405B.

Sedangkan untuk model dasar, Qwen2.5-Max juga menunjukkan keunggulan signifikan pada sebagian besar uji benchmark (model dasar model sumber tertutup tidak dapat diakses, sehingga hanya model sumber terbuka yang dapat dibandingkan).

Kode/inferensi yang luar biasa, mendukung Artefak

Setelah Qwen2.5-Max diluncurkan, sejumlah besar netizen datang untuk mengujinya.

Telah ditemukan bahwa ia unggul dalam bidang-bidang seperti kode dan inferensi.

Misalnya, mari kita menulis permainan catur dalam JavaScript.

Berkat Artefak, permainan kecil yang dikembangkan dalam satu kalimat dapat langsung dimainkan:

Kode yang dihasilkan seringkali lebih mudah dibaca dan digunakan.

Qwen2.5-Max cepat dan akurat saat menyimpulkan perintah yang rumit:

Tim Anda memiliki 3 langkah untuk menangani permintaan pelanggan:

Pengumpulan data (tahap A): 5 menit per permintaan.

Pemrosesan (tahap B): 10 menit per permintaan.

Verifikasi (tahap C): 8 menit per permintaan.

Tim saat ini bekerja secara berurutan, tetapi Anda mempertimbangkan alur kerja paralel. Jika Anda menugaskan dua orang untuk setiap tahap dan memungkinkan alur kerja paralel, output per jam akan meningkat sebesar 20%. Namun, menambahkan alur kerja paralel akan menghabiskan biaya 15% lebih banyak dalam hal biaya operasional. Dengan mempertimbangkan waktu dan biaya, haruskah Anda menggunakan alur kerja paralel untuk mengoptimalkan efisiensi?

Qwen2.5-Max menyelesaikan keseluruhan inferensi dalam waktu kurang dari 30 detik, dengan jelas membagi keseluruhan proses menjadi lima langkah: analisis alur kerja saat ini, analisis alur kerja paralel, implikasi biaya, pertimbangan efisiensi biaya, dan kesimpulan.

Kesimpulan akhir segera dicapai: alur kerja paralel harus digunakan.

Dibandingkan dengan DeepSeek-V3, yang juga merupakan model non-inferensi, Qwen2.5-Max memberikan respons yang lebih ringkas dan cepat.

Atau biarkan ia menghasilkan bola berputar yang terdiri dari digit ASCII. Digit yang paling dekat dengan sudut pandang berwarna putih bersih, sedangkan yang terjauh secara bertahap berubah menjadi abu-abu, dengan latar belakang hitam.

Menghitung jumlah huruf tertentu dalam sebuah kata bahkan lebih mudah.

Jika Anda ingin mencobanya sendiri, Qwen2.5-Max sudah tersedia online di platform Qwen Chat dan dapat dicoba secara gratis.

Pengguna perusahaan dapat memanggil API model Qwen2.5-Max di Alibaba Cloud Bailian.

Posting serupa

Uncategorized

Berita terbaru! OpenAI merilis 2 model inferensi baru hari ini: o3-mini dan o3-mini-high.

Olehzddeepseeker 1 Februari 20251 Februari 2025

o3-mini dan o3-mini (high) akan dirilis hari ini. Pengguna biasa juga akan mendapatkan o3-mini, dan pengguna plus akan dapat menggunakan o3-mini (high). o3-mini (high) sekitar 200 poin lebih tinggi daripada o1 di Codeforce, lebih cepat daripada o1, dan memiliki kinerja yang lebih baik dalam pengkodean dan matematika, tetapi biayanya masih di level o1-mini....

Uncategorized

DeepSeek R1 menempati urutan pertama dalam tes menulis kreatif, dan o3 mini bahkan lebih buruk daripada o1 mini!

Olehzddeepseeker 3 Februari 20253 Februari 2025

DeepSeek R1 memenangkan kejuaraan dalam tes tolok ukur penulisan cerita pendek kreatif, berhasil mengungguli pemain dominan sebelumnya, Claude 3.5 Soneta! Tes tolok ukur Tes tolok ukur yang dirancang oleh peneliti Lech Mazur ini bukanlah kompetisi menulis biasa. Setiap model AI diharuskan menyelesaikan 500 cerita pendek, dan setiap cerita harus secara cerdik menggabungkan...

Uncategorized

Interpretasi makalah DeepSeek R1 & poin-poin teknis utama

Olehzddeepseeker 9 Februari 20259 Februari 2025

1 Latar Belakang Selama Festival Musim Semi, DeepSeek R1 sekali lagi menarik perhatian luas, dan bahkan artikel interpretasi DeepSeek V3 yang kami tulis sebelumnya juga disiarkan ulang dan banyak dibahas. Meskipun telah ada banyak analisis dan reproduksi DeepSeek R1, di sini kami telah memutuskan untuk menyusun beberapa catatan bacaan yang sesuai. Kami akan menggunakan tiga…

Uncategorized

Produk AI arus utama dunia berfokus pada analisis dan pedoman pengalaman pengguna yang komprehensif (termasuk DeepSeek dan GPT)

Olehzddeepseeker 10 Februari 202510 Februari 2025

Pemosisian fungsi dan analisis keunggulan inti ChatGPT (OpenAI) – tolok ukur global untuk semua kalangan ChatGPT Gen teknis: AI generatif berdasarkan rangkaian model besar GPT, dengan keterampilan percakapan umum dan penalaran logis sebagai keunggulan intinya. Pemrosesan multibahasa: berkinerja terbaik dalam bahasa Inggris, dengan peningkatan berkelanjutan dalam bahasa Mandarin; tetapi kami sarankan untuk menggunakan bahasa Inggris untuk…

Uncategorized

Pembaruan DeepSeek-R1-0528: Pemikiran yang Lebih Dalam, Penalaran yang Lebih Kuat

Olehzddeepseeker 29 Mei 202529 Mei 2025

Model DeepSeek R1 telah mengalami sedikit peningkatan versi, dengan versi saat ini menjadi DeepSeek-R1-0528. Saat Anda memasuki halaman web atau aplikasi DeepSeek, aktifkan fitur “Deep Thinking” di antarmuka dialog untuk merasakan versi terbaru. Bobot model DeepSeek-R1-0528 telah diunggah ke HuggingFace Selama empat bulan terakhir, DeepSeek-R1 telah mengalami…

Uncategorized

Model berbiaya rendah Google, seri Gemini 2.0, sedang menyerang: pertarungan untuk efektivitas biaya dalam model besar semakin intensif

Olehzddeepseeker 8 Februari 20258 Februari 2025

Biaya tinggi untuk menggunakan model AI yang besar merupakan alasan utama mengapa banyak aplikasi AI belum diimplementasikan dan dipromosikan. Memilih kinerja ekstrem berarti biaya daya komputasi yang besar, yang berujung pada biaya penggunaan tinggi yang tidak dapat diterima oleh pengguna biasa. Persaingan untuk model AI yang besar bagaikan perang tanpa asap. Setelah…

Ali Qwen2.5-Max menyalip DeepSeek-V3! Netizen: AI China dengan cepat menutup celah

Empat kemampuan individu mencapai puncak

Kode/inferensi yang luar biasa, mendukung Artefak

Berita terbaru! OpenAI merilis 2 model inferensi baru hari ini: o3-mini dan o3-mini-high.

DeepSeek R1 menempati urutan pertama dalam tes menulis kreatif, dan o3 mini bahkan lebih buruk daripada o1 mini!

Interpretasi makalah DeepSeek R1 & poin-poin teknis utama

Produk AI arus utama dunia berfokus pada analisis dan pedoman pengalaman pengguna yang komprehensif (termasuk DeepSeek dan GPT)

Pembaruan DeepSeek-R1-0528: Pemikiran yang Lebih Dalam, Penalaran yang Lebih Kuat

Model berbiaya rendah Google, seri Gemini 2.0, sedang menyerang: pertarungan untuk efektivitas biaya dalam model besar semakin intensif

Tinggalkan Balasan Batalkan balasan