Az önce Big Model Arena listesine bir yerli model daha eklendi
Ali'den, Qwen2.5-MaksimumDeepSeek-V3'ü geride bırakarak toplam 1332 puanla genel sıralamada yedinci sırada yer aldı.
Claude 3.5 Sonnet ve Llama 3.1 405B gibi modelleri de tek hamlede geride bıraktı.

Özellikle, programlama ve matematikte üstündürve Fullblood o1 ve DeepSeek-R1 ile birlikte ilk sırada yer alıyor.

Chatbot Arena, tarafından başlatılan büyük bir model performans test platformudur. LMSYS KuruluşuŞu anda 190'dan fazla modeli entegre ediyor ve kullanıcılara kör test için verilmek üzere ikişerli takımlar halinde eşleştirilen modeller kullanıyor; kullanıcılar, modellerin yetenekleri hakkında gerçek hayattaki konuşma deneyimlerine göre oy kullanıyor.
Bu nedenle Chatbot Arena LLM Liderlik Tablosu dünyanın en büyük modellerinin yer aldığı en yetkili ve önemli arenadır.
Qwen 2.5-Maksimum yeni açılan ilk 10'a da girdi Web Geliştirme web uygulama geliştirme için liste.

Lmsys'in bu konudaki resmi yorumu şu şekilde: Çin yapay zekası hızla açığı kapatıyor!

Qwen'i bizzat kullanan netizen'ler, Qwen'in performansının daha istikrarlı olduğunu söylüyor.

Hatta bazıları Qwen'in yakında Silikon Vadisi'ndeki tüm sıradan modellerin yerini alacağını söylüyor.

Dört bireysel yetenek zirveye ulaşıyor
Genel listenin ilk üçte birinci ve ikinci sırayı Google Gemini ailesi alırken, üçüncülüğü GPT-4o ve DeepSeek-R1 paylaştı.
Qwen2.5-Max, o1-preview ile yedinci sırayı paylaştı, tam o1'in biraz gerisinde.

Sırada Qwen2.5-Max'in her bir kategorideki performansı var.
Daha mantıklı olarak matematik ve kod Görevlerde Qwen2.5-Max'ın sonuçları o1-mini'nin sonuçlarını geçti ve tam şarjlı o1 ve DeepSeek-R1 ile birinciliği paylaştı.
Matematik listesinde ilk sırayı paylaşan modeller arasında ise akıl yürütme becerisine sahip olmayan tek model Qwen2.5-Max oldu.

Belirli savaş kayıtlarına yakından bakarsanız, Qwen2.5-Max'ın safkan o1'e karşı kod yeteneği olarak 69%'lik bir kazanma oranına sahip olduğunu da görebilirsiniz.

İçinde karmaşık istem sözcüğü görev, Qwen2.5-Max ve o1-preview ikinciliği paylaşıyor ve eğer İngilizce ile sınırlıysa, o1-preview, DeepSeek-R1 vb. ile aynı seviyede birinci sıraya yerleşebilir.

Ayrıca, Qwen2.5-Max, DeepSeek-R1 ile birlikte birinciliği paylaşıyor. çok yönlü diyalog; üçüncü sırada yer alıyor uzun metin (en az 500 token), o1-preview'ı geride bırakıyor.

Ayrıca Ali, teknik raporda Qwen2.5-Max'in bazı klasik listelerdeki performansını da gösterdi.
Komuta modellerinin karşılaştırılmasında, Qwen2.5-Max, Arena-Hard (insan tercihlerine benzer) ve MMLU-Pro (üniversite düzeyinde bilgi) gibi ölçütlerde GPT-4o ve Claude 3.5-Sonnet ile aynı seviyede veya daha yüksek seviyededir.
Açık kaynaklı temel model karşılaştırmasında Qwen2.5-Max, DeepSeek-V3'ü de genel olarak geride bıraktı ve Llama 3.1-405B'nin oldukça önünde yer aldı.

Temel model açısından bakıldığında Qwen2.5-Max, çoğu kıyaslama testinde önemli bir üstünlük gösterdi (kapalı kaynak kodlu temel model erişilebilir olmadığından, yalnızca açık kaynak kodlu model karşılaştırılabiliyor).

Üstün kod/çıkarım, Artifacts'ı destekler
Qwen2.5-Max piyasaya sürüldükten sonra çok sayıda internet kullanıcısı onu test etmeye geldi.
Kodlama ve çıkarım gibi alanlarda üstün olduğu görülmüştür.
Örneğin JavaScript'te bir satranç oyunu yazmasını sağlayalım.
Sayesinde Eserler, tek bir cümlede geliştirilen küçük bir oyun hemen oynanabilir:

ürettiği kod genellikle okunması ve kullanılması daha kolaydır.
Qwen2.5-Max karmaşık komutları çıkarırken hızlı ve doğrudur:
Ekibinizin müşteri taleplerini ele almak için 3 adımı vardır:
Veri toplama (A aşaması): İstek başına 5 dakika.
İşlem (B aşaması): İstek başına 10 dakika.
Doğrulama (Aşama C): İstek başına 8 dakika.
Ekip şu anda sıralı olarak çalışıyor, ancak paralel bir iş akışı düşünüyorsunuz. Her aşamaya iki kişi atarsanız ve paralel bir iş akışına izin verirseniz, saat başına çıktı 20% artacaktır. Ancak, paralel bir iş akışı eklemek, işletme genel gideri açısından 15% daha fazla maliyete neden olacaktır. Zaman ve maliyeti göz önünde bulundurarak, verimliliği optimize etmek için paralel bir iş akışı kullanmalı mısınız?
Qwen2.5-Max, tüm çıkarımı 30 saniyeden kısa bir sürede tamamlayarak genel süreci beş adıma açıkça böler: mevcut iş akışının analizi, paralel iş akışlarının analizi, maliyet etkileri, maliyet etkinliği dengeleri ve sonuçlar.
Sonuç olarak şu sonuca varılır: Paralel iş akışları kullanılmalıdır.
Çıkarımsal olmayan bir model olan DeepSeek-V3 ile karşılaştırıldığında Qwen2.5-Max daha özlü ve hızlı bir yanıt sağlıyor.
Veya ASCII rakamlarından oluşan dönen bir küre oluşturmasına izin verin. Görüntüleme açısına en yakın rakam saf beyazdır, en uzak rakam ise siyah bir arka planla kademeli olarak griye döner.
Bir kelimedeki belirli harflerin sayısını saymak daha da kolaydır.

Eğer siz de denemek isterseniz, Qwen2.5-Max halihazırda Qwen Chat platformunda yayında ve ücretsiz olarak deneyimlenebilir.
Kurumsal kullanıcılar Alibaba Cloud Bailian üzerindeki Qwen2.5-Max model API'sini çağırabilirler.
