Vừa rồi, một người mẫu trong nước khác đã được thêm vào danh sách Big Model Arena

từ Ali, Qwen2.5-Tối đa, vượt qua DeepSeek-V3 và xếp thứ bảy trong bảng xếp hạng chung với tổng điểm là 1332.

Nó cũng vượt trội hơn các mẫu như Claude 3.5 Sonnet và Llama 3.1 405B chỉ trong một bước nhảy vọt.

Đặc biệt, nó xuất sắc trong lập trình và toán họcvà được xếp hạng đầu tiên cùng với Fullblood o1 và DeepSeek-R1.

Chatbot Arena là một nền tảng thử nghiệm hiệu suất mô hình lớn được ra mắt bởi Tổ chức LMSYS. Hiện tại, nó tích hợp hơn 190 mô hình và sử dụng các mô hình được ghép nối theo nhóm gồm hai người để giao cho người dùng thử nghiệm mù, trong đó người dùng sẽ bỏ phiếu về khả năng của các mô hình dựa trên trải nghiệm trò chuyện thực tế của họ.

Vì lý do này, Chatbot Arena LLM Leaderboard là đấu trường uy tín và quan trọng nhất dành cho các người mẫu lớn hàng đầu thế giới.

Qwen 2.5-Tối đa cũng lọt vào top 10 trên trang web mới mở Phát triển Web danh sách phát triển ứng dụng web.

Bình luận chính thức của lmsys về điều này là AI của Trung Quốc đang nhanh chóng thu hẹp khoảng cách!

Những cư dân mạng đã trực tiếp sử dụng cho biết hiệu suất của Qwen ổn định hơn.

Một số người thậm chí còn nói rằng Qwen sẽ sớm thay thế tất cả các mô hình thông thường ở Thung lũng Silicon.

Bốn khả năng cá nhân đạt đến đỉnh cao

Vị trí thứ nhất và thứ hai trong top ba của danh sách chung được giành bởi gia đình Google Gemini, với GPT-4o và DeepSeek-R1 đồng hạng ba.

Qwen2.5-Max đồng hạng bảy với o1-preview, kém một chút so với o1 đầy đủ.

Tiếp theo là hiệu suất của Qwen2.5-Max ở từng hạng mục riêng biệt.

Theo logic hơn toán học và mã nhiệm vụ, kết quả của Qwen2.5-Max vượt trội hơn kết quả của o1-mini và cùng chia sẻ vị trí đầu tiên với o1 và DeepSeek-R1 khi sạc đầy.

Trong số các mô hình đồng hạng nhất trong danh sách toán học, Qwen2.5-Max là mô hình duy nhất không có lý luận.

Nếu bạn xem xét kỹ các hồ sơ chiến đấu cụ thể, bạn cũng có thể thấy rằng Qwen2.5-Max có tỷ lệ thắng 69% về khả năng mã hóa trước o1 thuần chủng.

Trong từ gợi ý phức tạp nhiệm vụ, Qwen2.5-Max và o1-preview đồng hạng nhì, và nếu chỉ giới hạn ở tiếng Anh, nó có thể xếp hạng nhất, ngang bằng với o1-preview, DeepSeek-R1, v.v.

Ngoài ra, Qwen2.5-Max được xếp hạng nhất với DeepSeek-R1 trong đối thoại nhiều lượt; nó đứng thứ ba trong văn bản dài (không ít hơn 500 token), vượt qua o1-preview.

Ngoài ra, Ali cũng đã chỉ ra hiệu suất của Qwen2.5-Max trên một số danh sách kinh điển trong báo cáo kỹ thuật.

Khi so sánh các mô hình lệnh, Qwen2.5-Max ở cùng cấp độ hoặc cao hơn GPT-4o và Claude 3.5-Sonnet trong các điểm chuẩn như Arena-Hard (tương tự như sở thích của con người) và MMLU-Pro (kiến thức ở trình độ đại học).

Trong quá trình so sánh mô hình cơ sở nguồn mở, Qwen2.5-Max cũng vượt trội hơn DeepSeek-V3 trên mọi phương diện và vượt xa Llama 3.1-405B.

Đối với mô hình cơ sở, Qwen2.5-Max cũng cho thấy lợi thế đáng kể trong hầu hết các bài kiểm tra chuẩn (mô hình cơ sở của mô hình nguồn đóng không thể truy cập được, do đó chỉ có thể so sánh với mô hình nguồn mở).

Mã/suy luận nổi bật, hỗ trợ Artifacts

Sau khi Qwen2.5-Max được ra mắt, đã có rất nhiều cư dân mạng đến thử nghiệm.

Người ta nhận thấy nó có hiệu quả vượt trội trong các lĩnh vực như mã hóa và suy luận.

Ví dụ, hãy viết một ván cờ vua bằng JavaScript.

Cảm ơn Hiện vật, một trò chơi nhỏ được phát triển trong một câu duy nhất có thể được chơi ngay lập tức:

mã mà nó tạo ra thường dễ đọc và sử dụng hơn.

Qwen2.5-Max nhanh và chính xác khi suy ra các lời nhắc phức tạp:

Nhóm của bạn có 3 bước để xử lý yêu cầu của khách hàng:

Thu thập dữ liệu (giai đoạn A): 5 phút cho mỗi yêu cầu.

Đang xử lý (giai đoạn B): 10 phút cho mỗi yêu cầu.

Xác minh (giai đoạn C): 8 phút cho mỗi yêu cầu.

Nhóm hiện đang làm việc tuần tự, nhưng bạn đang cân nhắc một quy trình làm việc song song. Nếu bạn chỉ định hai người cho mỗi giai đoạn và cho phép quy trình làm việc song song, sản lượng mỗi giờ sẽ tăng thêm 20%. Tuy nhiên, việc thêm quy trình làm việc song song sẽ tốn thêm 15% về mặt chi phí vận hành. Xem xét thời gian và chi phí, bạn có nên sử dụng quy trình làm việc song song để tối ưu hóa hiệu quả không?

Qwen2.5-Max hoàn thành toàn bộ quá trình suy luận trong vòng chưa đầy 30 giây, chia rõ ràng toàn bộ quá trình thành năm bước: phân tích quy trình công việc hiện tại, phân tích quy trình công việc song song, tác động về chi phí, đánh đổi hiệu quả chi phí và kết luận.

Kết luận cuối cùng nhanh chóng được đưa ra: nên sử dụng quy trình làm việc song song.

So với DeepSeek-V3, cũng là mô hình không suy luận, Qwen2.5-Max cung cấp phản hồi nhanh và ngắn gọn hơn.

Hoặc để nó tạo ra một quả cầu xoay được tạo thành từ các chữ số ASCII. Chữ số gần nhất với góc nhìn có màu trắng tinh khiết, trong khi chữ số xa nhất dần chuyển sang màu xám, với nền đen.

Đếm số lượng chữ cái cụ thể trong một từ thậm chí còn dễ hơn.

Nếu bạn muốn tự mình dùng thử, Qwen2.5-Max hiện đã có trên nền tảng Qwen Chat và có thể trải nghiệm miễn phí.

Người dùng doanh nghiệp có thể gọi API mô hình Qwen2.5-Max trên Alibaba Cloud Bailian.

Bài viết tương tự

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *