Ali Qwen2.5-Max memintas DeepSeek-V3! Netizen: AI China dengan pantas menutup jurang

Sebentar tadi, satu lagi model domestik telah ditambahkan ke senarai Big Model Arena

daripada Ali, Qwen2.5-Maks, yang melepasi DeepSeek-V3 dan menduduki tempat ketujuh dalam kedudukan keseluruhan dengan jumlah markah 1332.

Ia juga mengatasi model seperti Claude 3.5 Sonnet dan Llama 3.1 405B dalam satu masa.

khususnya, ia cemerlang dalam pengaturcaraan dan matematik, dan berada di kedudukan pertama bersama Fullblood o1 dan DeepSeek-R1.

Chatbot Arena ialah platform ujian prestasi model besar yang dilancarkan oleh LMSYS Org. Ia kini menyepadukan lebih daripada 190 model, dan menggunakan model yang dipasangkan dalam dua pasukan untuk diberikan kepada pengguna untuk ujian buta, dengan pengguna mengundi kebolehan model berdasarkan pengalaman perbualan kehidupan sebenar mereka.

Atas sebab ini, Papan Pendahulu LLM Arena Chatbot ialah arena yang paling berwibawa dan penting untuk model besar terkemuka di dunia.

Qwen 2.5-Maks juga memecah masuk ke dalam sepuluh teratas pada yang baru dibuka WebDev senarai untuk pembangunan aplikasi web.

Komen rasmi lmsys tentang ini ialah AI Cina sedang menutup jurang dengan pantas!

Netizen yang pernah menggunakannya secara peribadi mengatakan prestasi Qwen lebih stabil.

Malah ada yang mengatakan bahawa Qwen akan menggantikan semua model biasa di Silicon Valley tidak lama lagi.

Jadual Kandungan

Empat kebolehan individu mencapai puncak

Tempat pertama dan kedua dalam tiga teratas senarai keseluruhan telah diambil oleh keluarga Google Gemini, dengan GPT-4o dan DeepSeek-R1 terikat untuk tempat ketiga.

Qwen2.5-Max terikat untuk tempat ketujuh dengan o1-pratonton, sedikit di belakang o1 penuh.

Seterusnya ialah prestasi Qwen2.5-Max dalam setiap kategori individu.

Dalam yang lebih logik matematik dan kod tugasan, keputusan Qwen2.5-Max melebihi keputusan o1-mini, dan ia terikat di tempat pertama dengan o1 dan DeepSeek-R1 yang dicas penuh.

Dan antara model yang terikat untuk tempat pertama dalam senarai matematik, Qwen2.5-Max adalah satu-satunya model tanpa alasan.

Jika anda melihat dengan teliti pada rekod pertempuran tertentu, anda juga boleh melihat bahawa Qwen2.5-Max mempunyai kadar kemenangan 69% dalam keupayaan kod terhadap o1 berdarah penuh.

Dalam kata gesaan yang kompleks tugasan, Qwen2.5-Max dan o1-pratonton terikat untuk tempat kedua, dan jika ia terhad kepada bahasa Inggeris, ia boleh menduduki tempat pertama, setanding dengan o1-pratonton, DeepSeek-R1, dsb.

Selain itu, Qwen2.5-Max terikat untuk tempat pertama dengan DeepSeek-R1 in dialog pelbagai pusingan; ia menduduki tempat ketiga dalam teks panjang (tidak kurang daripada 500 token), mengatasi o1-pratonton.

Selain itu, Ali juga menunjukkan prestasi Qwen2.5-Max pada beberapa senarai klasik dalam laporan teknikal.

Dalam perbandingan model arahan, Qwen2.5-Max berada pada tahap yang sama atau lebih tinggi daripada GPT-4o dan Claude 3.5-Sonnet dalam penanda aras seperti Arena-Hard (serupa dengan pilihan manusia) dan MMLU-Pro (pengetahuan peringkat universiti).

Dalam perbandingan model asas sumber terbuka, Qwen2.5-Max juga mengatasi prestasi DeepSeek-V3 secara menyeluruh dan mendahului Llama 3.1-405B.

Bagi model asas, Qwen2.5-Max juga menunjukkan kelebihan ketara dalam kebanyakan ujian penanda aras (model asas model sumber tertutup tidak boleh diakses, jadi hanya model sumber terbuka boleh dibandingkan).

Kod/inferens cemerlang, menyokong Artifak

Selepas Qwen2.5-Max dilancarkan, sebilangan besar netizen datang untuk mengujinya.

Ia didapati cemerlang dalam bidang seperti kod dan inferens.

Sebagai contoh, biarkan ia menulis permainan catur dalam JavaScript.

Terima kasih kepada Artifak, permainan kecil yang dibangunkan dalam satu ayat boleh dimainkan serta-merta:

kod yang dijana selalunya lebih mudah dibaca dan digunakan.

Qwen2.5-Max adalah pantas dan tepat apabila membuat kesimpulan gesaan kompleks:

Pasukan anda mempunyai 3 langkah untuk mengendalikan permintaan pelanggan:

Pengumpulan data (peringkat A): 5 minit setiap permintaan.

Pemprosesan (peringkat B): 10 minit setiap permintaan.

Pengesahan (peringkat C): 8 minit setiap permintaan.

Pasukan pada masa ini bekerja secara berurutan, tetapi anda sedang mempertimbangkan aliran kerja selari. Jika anda menetapkan dua orang untuk setiap peringkat dan membenarkan aliran kerja selari, output sejam akan meningkat sebanyak 20%. Walau bagaimanapun, menambah aliran kerja selari akan menelan kos 15% lebih dari segi overhed operasi. Memandangkan masa dan kos, patutkah anda menggunakan aliran kerja selari untuk mengoptimumkan kecekapan?

Qwen2.5-Max melengkapkan keseluruhan inferens dalam masa kurang daripada 30 saat, dengan jelas membahagikan keseluruhan proses kepada lima langkah: analisis aliran kerja semasa, analisis aliran kerja selari, implikasi kos, pertukaran kecekapan kos dan kesimpulan.

Kesimpulan akhir dicapai dengan cepat: aliran kerja selari harus digunakan.

Berbanding dengan DeepSeek-V3, yang juga merupakan model bukan inferens, Qwen2.5-Max memberikan respons yang lebih ringkas dan pantas.

Atau biarkan ia menjana sfera berputar yang terdiri daripada digit ASCII. Angka yang paling hampir dengan sudut tontonan ialah putih tulen, manakala yang paling jauh secara beransur-ansur bertukar kelabu, dengan latar belakang hitam.

Mengira bilangan huruf tertentu dalam perkataan adalah lebih mudah.

Jika anda ingin mencubanya sendiri, Qwen2.5-Max sudah pun dalam talian di platform Sembang Qwen dan boleh dialami secara percuma.

Pengguna perusahaan boleh menghubungi API model Qwen2.5-Max pada Alibaba Cloud Bailian.

Catatan Serupa

Tidak dikategorikan

Paper-DeepSeek-R1: Insentif Keupayaan Penaakulan dalam LLM melalui Pembelajaran Pengukuhan

Olehdeepseeker 29 Januari 202529 Januari 2025

Abstrak Kertas kerja ini memperkenalkan model penaakulan generasi pertama DeepSeek: DeepSeek-R1-Zero dan DeepSeek-R1. DeepSeek-R1-Zero, dilatih melalui pembelajaran tetulang berskala besar (RL) tanpa penyeliaan penalaan halus (SFT), menunjukkan keupayaan penaakulan yang luar biasa. Melalui RL, ia secara semula jadi membangunkan tingkah laku penaakulan yang kuat. Walau bagaimanapun, ia menghadapi cabaran seperti kebolehbacaan yang lemah dan percampuran bahasa. Untuk menangani isu ini dan meningkatkan prestasi penaakulan, DeepSeek-R1 telah dibangunkan,…

Tidak dikategorikan

Dalam bulatan AI, DeepSeek R1 telah melepasi o1 dan Claude secara berterusan dalam ujian fizikal, dan kami telah memasuki zaman kegemilangan RL.

Olehzddeepseeker 1 Februari 20251 Februari 2025

Tiada seorang pun daripada kami menjangkakan bahawa ini adalah bagaimana 2025 akan bermula dalam bidang AI. DeepSeek R1 sungguh menakjubkan! Baru-baru ini, "kuasa Timur misterius" DeepSeek telah "kawal keras" Silicon Valley. Saya meminta R1 untuk menerangkan teorem Pythagoras secara terperinci. Semua ini dilakukan oleh AI dalam masa kurang daripada 30 saat tanpa sebarang…

Tidak dikategorikan

Kemas kini DeepSeek-R1-0528: Pemikiran Lebih Dalam, Penaakulan Lebih Kuat

Olehzddeepseeker 29 Mei 202529 Mei 2025

Model DeepSeek R1 telah melalui peningkatan versi kecil, dengan versi semasa ialah DeepSeek-R1-0528. Apabila anda memasuki halaman web atau apl DeepSeek, dayakan ciri "Pemikiran Dalam" dalam antara muka dialog untuk mengalami versi terkini. Berat model DeepSeek-R1-0528 telah dimuat naik ke HuggingFace Sejak empat bulan lalu, DeepSeek-R1 telah menjalani…

Tidak dikategorikan

Apa yang boleh dicapai oleh Deepseek? Malah OpenAI tidak boleh melakukannya?

Olehzddeepseeker 10 Februari 202510 Februari 2025

Nilai sebenar DeepSeek dipandang remeh! DeepSeek-R1 sudah pasti telah membawa gelombang semangat baru ke pasaran. Bukan sahaja sasaran yang dipanggil benefisiari yang berkaitan meningkat dengan mendadak, malah sesetengah orang telah membangunkan kursus dan perisian berkaitan DeepSeek dalam usaha untuk menjana wang daripadanya. Kami percaya bahawa walaupun fenomena ini mempunyai…

Tidak dikategorikan

dialog a16z dengan CEO berusia 27 tahun: AI Agent mempunyai kesan leverage yang besar, dan harga jangka panjang akan dikaitkan dengan kos buruh

Olehzddeepseeker 8 Februari 20258 Februari 2025

Sorotan Ejen AI membentuk semula pengalaman pelanggan Jesse Zhang: Bagaimanakah Ejen sebenarnya dibina? Pandangan kami ialah dari masa ke masa, ia akan menjadi lebih dan lebih seperti Ejen berasaskan bahasa semula jadi kerana itulah cara model bahasa besar (LLM) dilatih. Dalam jangka panjang, jika anda mempunyai ejen super pintar yang…

Tidak dikategorikan

Gemini 2.0 mendominasi carta, manakala DeepSeek V3 menangis dalam harganya, dan juara kos efektif baharu dilahirkan!

Olehzddeepseeker 8 Februari 20258 Februari 2025

Keluarga Google Gemini 2.0 akhirnya lengkap! Ia mendominasi carta sebaik sahaja ia dikeluarkan. Di tengah-tengah pengejaran dan sekatan Deepseek, Qwen dan o3, Google mengeluarkan tiga model sekali gus awal pagi ini: Gemini 2.0 Pro, Gemini 2.0 Flash dan Gemini 2.0 Flash-Lite. Pada kedudukan LMSYS model besar, Gemini…

Empat kebolehan individu mencapai puncak

Kod/inferens cemerlang, menyokong Artifak

Catatan Serupa

Tinggalkan Balasan Batal balasan