DeepSeek R1 đứng đầu trong bài kiểm tra viết sáng tạo, và o3 mini thậm chí còn tệ hơn o1 mini!

DeepSeek R1 đã giành chức vô địch trong bài kiểm tra đánh giá sáng tác truyện ngắn, vượt qua đối thủ thống trị trước đó là Claude 3.5 Sonnet!

Mục lục

Kiểm tra chuẩn mực

Bài kiểm tra chuẩn do nhà nghiên cứu Lech Mazur thiết kế không phải là cuộc thi viết thông thường.

Mỗi mô hình AI được yêu cầu hoàn thành 500 truyện ngắn và mỗi truyện phải khéo léo kết hợp 10 yếu tố được chỉ định ngẫu nhiên. Đây là một nhiệm vụ viết mở đầy thử thách đối với AI, không chỉ yêu cầu một cốt truyện hoàn chỉnh mà còn đảm bảo rằng tất cả các yếu tố được chỉ định đều được tích hợp tự nhiên

Phương pháp đánh giá

Bài kiểm tra chuẩn này sử dụng một hệ thống chấm điểm độc đáo: sáu mô hình ngôn ngữ hàng đầu đóng vai trò là giám khảo, chấm điểm các khía cạnh khác nhau của câu chuyện. Nói cách khác, các nhà lãnh đạo ngành AI đang đánh giá chính AI, nhìn chung cung cấp một tiêu chuẩn đánh giá tương đối công bằng và có hệ thống.

Nội dung kiểm tra

Biểu đồ trên cho thấy phân tích tương quan của người đạt điểm trong bài kiểm tra chuẩn về viết sáng tạo. DeepSeek có hệ số tương quan trên 0,93 với các mô hình chính thống khác (Claude, GPT-4o, Gemini và Grok), cho thấy mô hình này có tiêu chí đánh giá rất nhất quán với các mô hình hàng đầu khác khi đánh giá chất lượng bài viết sáng tạo, điều này gián tiếp khẳng định độ tin cậy của mô hình trong bài kiểm tra này.

Biểu đồ trên cho thấy kết quả của bài kiểm tra chuẩn viết truyện ngắn sáng tạo. Mỗi mô hình AI được yêu cầu viết 500 câu chuyện, mỗi câu chuyện phải chứa 10 yếu tố ngẫu nhiên được chỉ định. Các điểm trong biểu đồ cho thấy sự phân bố điểm của từng mô hình AI tham gia cho các mô hình chấm điểm khác nhau (được biểu thị bằng các màu khác nhau).

Trong bài kiểm tra, Sâu S ôi (điểm màu xanh đậm) có kết quả tốt, với hầu hết điểm số tập trung ở nửa trên của biểu đồ và tương đối tập trung, cho thấy khả năng viết sáng tạo ở mức cao và ổn định.

Hiệu suất vượt trội này đã giúp sản phẩm này vượt qua nhà vô địch trước đó là Claude 3.5 Sonnet và trở thành sản phẩm dẫn đầu trong các bài kiểm tra chuẩn mực mới.

Trong biểu đồ này, mỗi hàng biểu diễn một mô hình AI và mỗi cột biểu diễn một chiều đánh giá (như đặc điểm, tính nhất quán của cốt truyện, v.v.). DeepSeek nằm ở giữa phía trên của biểu đồ, với tông màu cam-vàng tổng thể, cho thấy rằng nó đã đạt được kết quả tuyệt vời ở hầu hết các chiều đánh giá. Đặc biệt, nó đạt điểm cao gần 8 điểm ở các chiều chính là thực hiện (Q6), đặc điểm (TA) và phát triển cốt truyện (TJ). Mặc dù nó có thể không phải là màu vàng sáng nhất ở từng chiều riêng lẻ, nhưng nó không có bất kỳ điểm yếu rõ ràng nào.

Như bạn có thể thấy trong biểu đồ, điểm số truyện của DeepSeek chủ yếu được phân bổ trong khoảng từ 7 đến 9 điểm và phân bổ tương đối tập trung. Điều thú vị là đường xu hướng của nó gần như nằm ngang, cho thấy chất lượng truyện của DeepSeek không liên quan chặt chẽ đến độ dài của truyện. Nói cách khác, cho dù viết truyện dài hay truyện ngắn, DeepSeek đều có thể duy trì chất lượng đầu ra cao một cách nhất quán. Điều này cho thấy DeepSeek tập trung nhiều vào chất lượng hơn là số lượng khi sáng tạo và có thể duy trì hiệu suất tuyệt vời trong những câu chuyện có độ dài khác nhau.

Tại sao lại thế? DeepSeek R1 thắng?

Đánh giá từ kết quả thử nghiệm, DeepSeek R1 có hiệu suất đáng kinh ngạc:

Khả năng tích hợp câu chuyện toàn diện:R1 thể hiện sự linh hoạt và sáng tạo đáng kinh ngạc khi xử lý các kết hợp khác nhau của các yếu tố trong câu chuyện.
Chất lượng đầu ra ổn định:Dựa theo biểu đồ phân bổ điểm, R1 không chỉ có điểm trung bình cao mà còn có hiệu suất ổn định, ít biến động.
Hiệu suất sáng tạo nổi bật:Trong bài kiểm tra chuẩn này, các câu chuyện do R1 sáng tác được đánh giá nằm trong top ba, chứng tỏ khả năng sáng tạo vượt trội của tác phẩm.

Các thí sinh khác có màn trình diễn thế nào?

Ngoài cuộc so tài thú vị giữa DeepSeek R1 và Claude 3.5 Sonnet, hiệu suất của các mẫu xe khác cũng đáng chú ý:

Bộ phim Gemini đã thực hiện tốt
Dòng Llama 3.x gặp một chút khó khăn trong bài kiểm tra này
o3-mini không hoạt động tốt, xếp thứ 22

Cuối cùng

Sự đột phá của DeepSeek R1 trong thử nghiệm này đã cho chúng ta thấy khả năng vô hạn của AI trong lĩnh vực sáng tạo. Mặc dù việc tạo ra AI vẫn đang trên con đường cải tiến liên tục, nhưng những kết quả như vậy đã khiến chúng ta tràn đầy kỳ vọng cho tương lai.

Đối với những ai muốn tìm hiểu thêm về chi tiết của bài kiểm tra, bạn có thể truy cập GitHub của Lech Mazur để biết dữ liệu đầy đủ và ví dụ về những câu chuyện hay nhất. Chúng ta hãy cùng nhau mong đợi nhiều đột phá hơn trong sáng tác AI!

Chưa phân loại

Các sản phẩm AI chính thống trên thế giới tập trung vào phân tích và hướng dẫn trải nghiệm người dùng toàn diện (bao gồm DeepSeek và GPT)

Quazddeepseeker Tháng 2 10, 2025Tháng 2 10, 2025

Phân tích vị trí chức năng và lợi thế cốt lõi ChatGPT (OpenAI) – chuẩn mực toàn cầu cho những người toàn diện ChatGPT Các gen kỹ thuật: AI tạo ra dựa trên chuỗi GPT của các mô hình lớn, với các kỹ năng giao tiếp chung và lý luận logic là những lợi thế cốt lõi của nó. Xử lý đa ngôn ngữ: hoạt động tốt nhất bằng tiếng Anh, với sự cải thiện liên tục bằng tiếng Trung; nhưng chúng tôi khuyên bạn nên sử dụng tiếng Anh để…

Chưa phân loại

Tin tức nóng hổi! Nhà nghiên cứu DeepSeek tiết lộ trực tuyến: Quá trình đào tạo R1 chỉ mất hai đến ba tuần và sự tiến hóa mạnh mẽ của R1 zero đã được quan sát thấy trong kỳ nghỉ Tết Nguyên đán của Trung Quốc

Quazddeepseeker Tháng 2 4, 2025Tháng 2 4, 2025

Tin tức nóng hổi! Nhà nghiên cứu DeepSeek tiết lộ trực tuyến: Quá trình đào tạo R1 chỉ mất hai đến ba tuần và sự tiến hóa mạnh mẽ của R1 zero đã được quan sát thấy trong kỳ nghỉ Tết Nguyên đán Vừa rồi, chúng tôi nhận thấy rằng nhà nghiên cứu DeepSeek Daya Guo đã trả lời các câu hỏi của cư dân mạng về DeepSeek R1 và các kế hoạch sắp tới của công ty. Chúng tôi chỉ có thể nói rằng…

Chưa phân loại

Paper-DeepSeek-R1: Khuyến khích khả năng lý luận trong LLM thông qua học tăng cường

Quadeepseeker Tháng 1 29, 2025Tháng 1 29, 2025

Tóm tắt Bài báo này giới thiệu các mô hình lý luận thế hệ đầu tiên của DeepSeek: DeepSeek-R1-Zero và DeepSeek-R1. DeepSeek-R1-Zero, được đào tạo thông qua học tăng cường quy mô lớn (RL) mà không có tinh chỉnh có giám sát (SFT), thể hiện khả năng lý luận đáng chú ý. Thông qua RL, nó tự nhiên phát triển các hành vi lý luận mạnh mẽ. Tuy nhiên, nó phải đối mặt với những thách thức như khả năng đọc kém và pha trộn ngôn ngữ. Để giải quyết những vấn đề này và nâng cao hiệu suất lý luận, DeepSeek-R1 đã được phát triển,…

Chưa phân loại

Lần ra mắt đầu tiên! SiliconFlow X Huawei Cloud cùng ra mắt dịch vụ suy luận DeepSeek R1 & V3 dựa trên Ascend Cloud!

Quazddeepseeker Tháng 2 1, 2025Tháng 2 1, 2025

DeepSeek-R1 và DeepSeek-V3 đã gây chấn động toàn cầu kể từ khi ra mắt mã nguồn mở. Chúng là món quà của nhóm DeepSeek dành tặng cho toàn thể nhân loại và chúng tôi thực sự vui mừng vì thành công của chúng. Sau nhiều ngày làm việc chăm chỉ của nhóm Silicon Mobility và Huawei Cloud, hôm nay chúng tôi cũng tặng người dùng Trung Quốc một…

Chưa phân loại

Trong lĩnh vực AI, DeepSeek R1 đã liên tục vượt qua o1 và Claude trong các bài kiểm tra vật lý và chúng ta đã bước vào thời kỳ hoàng kim của RL.

Quazddeepseeker Tháng 2 1, 2025Tháng 2 1, 2025

Không ai trong chúng ta ngờ rằng năm 2025 sẽ bắt đầu như thế này trong lĩnh vực AI. DeepSeek R1 thực sự tuyệt vời! Gần đây, “quyền lực phương Đông bí ẩn” DeepSeek đã “kiểm soát chặt chẽ” Thung lũng Silicon. Tôi đã yêu cầu R1 giải thích chi tiết về định lý Pythagore. Tất cả những điều này đã được AI thực hiện trong vòng chưa đầy 30 giây mà không có bất kỳ…

Chưa phân loại

Deepseek có thể đạt được điều gì? Ngay cả OpenAI cũng không làm được?

Quazddeepseeker Tháng 2 10, 2025Tháng 2 10, 2025

Giá trị thực sự của DeepSeek bị đánh giá thấp! DeepSeek-R1 chắc chắn đã mang đến một làn sóng nhiệt tình mới cho thị trường. Không chỉ các mục tiêu được gọi là người thụ hưởng có liên quan đang tăng mạnh, mà một số người thậm chí còn phát triển các khóa học và phần mềm liên quan đến DeepSeek để kiếm tiền từ nó. Chúng tôi tin rằng mặc dù những hiện tượng này có…

Kiểm tra chuẩn mực

Phương pháp đánh giá

Nội dung kiểm tra

Tại sao lại thế? DeepSeek R1 thắng?

Các thí sinh khác có màn trình diễn thế nào?

Cuối cùng

Bài viết tương tự

Để lại một bình luận Hủy