DeepSeek R1 đã giành chức vô địch trong bài kiểm tra đánh giá sáng tác truyện ngắn, vượt qua đối thủ thống trị trước đó là Claude 3.5 Sonnet!

Kiểm tra chuẩn mực

Bài kiểm tra chuẩn do nhà nghiên cứu Lech Mazur thiết kế không phải là cuộc thi viết thông thường.

Mỗi mô hình AI được yêu cầu hoàn thành 500 truyện ngắn và mỗi truyện phải khéo léo kết hợp 10 yếu tố được chỉ định ngẫu nhiên. Đây là một nhiệm vụ viết mở đầy thử thách đối với AI, không chỉ yêu cầu một cốt truyện hoàn chỉnh mà còn đảm bảo rằng tất cả các yếu tố được chỉ định đều được tích hợp tự nhiên

Phương pháp đánh giá

Bài kiểm tra chuẩn này sử dụng một hệ thống chấm điểm độc đáo: sáu mô hình ngôn ngữ hàng đầu đóng vai trò là giám khảo, chấm điểm các khía cạnh khác nhau của câu chuyện. Nói cách khác, các nhà lãnh đạo ngành AI đang đánh giá chính AI, nhìn chung cung cấp một tiêu chuẩn đánh giá tương đối công bằng và có hệ thống.

Nội dung kiểm tra

Biểu đồ trên cho thấy phân tích tương quan của người đạt điểm trong bài kiểm tra chuẩn về viết sáng tạo. DeepSeek có hệ số tương quan trên 0,93 với các mô hình chính thống khác (Claude, GPT-4o, Gemini và Grok), cho thấy mô hình này có tiêu chí đánh giá rất nhất quán với các mô hình hàng đầu khác khi đánh giá chất lượng bài viết sáng tạo, điều này gián tiếp khẳng định độ tin cậy của mô hình trong bài kiểm tra này.

Biểu đồ trên cho thấy kết quả của bài kiểm tra chuẩn viết truyện ngắn sáng tạo. Mỗi mô hình AI được yêu cầu viết 500 câu chuyện, mỗi câu chuyện phải chứa 10 yếu tố ngẫu nhiên được chỉ định. Các điểm trong biểu đồ cho thấy sự phân bố điểm của từng mô hình AI tham gia cho các mô hình chấm điểm khác nhau (được biểu thị bằng các màu khác nhau).

Trong bài kiểm tra, SâuSôi (điểm màu xanh đậm) có kết quả tốt, với hầu hết điểm số tập trung ở nửa trên của biểu đồ và tương đối tập trung, cho thấy khả năng viết sáng tạo ở mức cao và ổn định.

Hiệu suất vượt trội này đã giúp sản phẩm này vượt qua nhà vô địch trước đó là Claude 3.5 Sonnet và trở thành sản phẩm dẫn đầu trong các bài kiểm tra chuẩn mực mới.

Trong biểu đồ này, mỗi hàng biểu diễn một mô hình AI và mỗi cột biểu diễn một chiều đánh giá (như đặc điểm, tính nhất quán của cốt truyện, v.v.). DeepSeek nằm ở giữa phía trên của biểu đồ, với tông màu cam-vàng tổng thể, cho thấy rằng nó đã đạt được kết quả tuyệt vời ở hầu hết các chiều đánh giá. Đặc biệt, nó đạt điểm cao gần 8 điểm ở các chiều chính là thực hiện (Q6), đặc điểm (TA) và phát triển cốt truyện (TJ). Mặc dù nó có thể không phải là màu vàng sáng nhất ở từng chiều riêng lẻ, nhưng nó không có bất kỳ điểm yếu rõ ràng nào.

Như bạn có thể thấy trong biểu đồ, điểm số truyện của DeepSeek chủ yếu được phân bổ trong khoảng từ 7 đến 9 điểm và phân bổ tương đối tập trung. Điều thú vị là đường xu hướng của nó gần như nằm ngang, cho thấy chất lượng truyện của DeepSeek không liên quan chặt chẽ đến độ dài của truyện. Nói cách khác, cho dù viết truyện dài hay truyện ngắn, DeepSeek đều có thể duy trì chất lượng đầu ra cao một cách nhất quán. Điều này cho thấy DeepSeek tập trung nhiều vào chất lượng hơn là số lượng khi sáng tạo và có thể duy trì hiệu suất tuyệt vời trong những câu chuyện có độ dài khác nhau.

Tại sao lại thế? DeepSeek R1 thắng?

Đánh giá từ kết quả thử nghiệm, DeepSeek R1 có hiệu suất đáng kinh ngạc:

  • Khả năng tích hợp câu chuyện toàn diện:R1 thể hiện sự linh hoạt và sáng tạo đáng kinh ngạc khi xử lý các kết hợp khác nhau của các yếu tố trong câu chuyện.
  • Chất lượng đầu ra ổn định:Dựa theo biểu đồ phân bổ điểm, R1 không chỉ có điểm trung bình cao mà còn có hiệu suất ổn định, ít biến động.
  • Hiệu suất sáng tạo nổi bật:Trong bài kiểm tra chuẩn này, các câu chuyện do R1 sáng tác được đánh giá nằm trong top ba, chứng tỏ khả năng sáng tạo vượt trội của tác phẩm.

Các thí sinh khác có màn trình diễn thế nào?

Ngoài cuộc so tài thú vị giữa DeepSeek R1 và Claude 3.5 Sonnet, hiệu suất của các mẫu xe khác cũng đáng chú ý:

  • Bộ phim Gemini đã thực hiện tốt
  • Dòng Llama 3.x gặp một chút khó khăn trong bài kiểm tra này
  • o3-mini không hoạt động tốt, xếp thứ 22

Cuối cùng

Sự đột phá của DeepSeek R1 trong thử nghiệm này đã cho chúng ta thấy khả năng vô hạn của AI trong lĩnh vực sáng tạo. Mặc dù việc tạo ra AI vẫn đang trên con đường cải tiến liên tục, nhưng những kết quả như vậy đã khiến chúng ta tràn đầy kỳ vọng cho tương lai.

Đối với những ai muốn tìm hiểu thêm về chi tiết của bài kiểm tra, bạn có thể truy cập GitHub của Lech Mazur để biết dữ liệu đầy đủ và ví dụ về những câu chuyện hay nhất. Chúng ta hãy cùng nhau mong đợi nhiều đột phá hơn trong sáng tác AI!

Bài viết tương tự

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *