Tóm tắt
Bài báo này giới thiệu các mô hình lý luận thế hệ đầu tiên của DeepSeek: DeepSeek-R1-Zero và DeepSeek-R1. DeepSeek-R1-Zero, được đào tạo thông qua học tăng cường quy mô lớn (RL) mà không có tinh chỉnh có giám sát (SFT), thể hiện khả năng lý luận đáng chú ý. Thông qua RL, nó tự nhiên phát triển các hành vi lý luận mạnh mẽ. Tuy nhiên, nó phải đối mặt với những thách thức như khả năng đọc kém và trộn lẫn ngôn ngữ. Để giải quyết những vấn đề này và nâng cao hiệu suất lý luận, DeepSeek-R1 đã được phát triển, kết hợp dữ liệu đào tạo nhiều giai đoạn và dữ liệu khởi động lạnh trước RL. DeepSeek-R1 đạt được hiệu suất tương đương với OpenAI-o1-1217 trên các tác vụ lý luận. Để hỗ trợ nghiên cứu, DeepSeek mở nguồn cả hai mô hình và sáu mô hình dày đặc (1.5B, 7B, 8B, 14B, 32B, 70B) được chắt lọc từ DeepSeek-R1 dựa trên Qwen và Llama.
Những đóng góp chính
Sau đào tạo: Học tăng cường quy mô lớn
- Đã áp dụng thành công RL trực tiếp vào mô hình cơ sở mà không cần SFT
- Đã phát triển DeepSeek-R1-Zero, chứng minh các khả năng như tự xác minh và phản ánh
- Nghiên cứu mở đầu tiên xác nhận rằng khả năng lý luận có thể được khuyến khích hoàn toàn thông qua RL
- Giới thiệu đường ống cho DeepSeek-R1 với hai giai đoạn RL và hai giai đoạn SFT
Chưng cất: Trao quyền cho các mô hình nhỏ hơn
- Đã chứng minh rằng các mô hình lý luận từ các mô hình lớn hơn có thể được chắt lọc hiệu quả thành các mô hình nhỏ hơn
- Mã nguồn mở DeepSeek-R1 và API của nó để mang lại lợi ích cho cộng đồng nghiên cứu
- Tinh chỉnh một số mô hình dày đặc cho thấy hiệu suất chuẩn mực đặc biệt
- Các mô hình chưng cất vượt trội hơn đáng kể so với các mô hình nguồn mở trước đây
Kết quả đánh giá
Nhiệm vụ lý luận
- DeepSeek-R1 đạt 79,8% Pass@1 trên AIME 2024, vượt qua OpenAI-o1-1217
- Điểm 97,3% trên MATH-500, ngang bằng với OpenAI-o1-1217
- Hiệu suất ở cấp độ chuyên gia trong các nhiệm vụ thi mã với xếp hạng Elo 2.029 trên Codeforces
Nhiệm vụ kiến thức
- Kết quả nổi bật trên MMLU (90.8%), MMLU-Pro (84.0%) và GPQA Diamond (71.5%)
- Vượt trội hơn các mô hình nguồn đóng khác trong các nhiệm vụ giáo dục
- Hiệu suất mạnh mẽ trên các tiêu chuẩn thực tế như SimpleQA
Khả năng chung
- Xuất sắc trong việc viết sáng tạo, trả lời câu hỏi, biên tập và tóm tắt
- Tỷ lệ thắng 87,6% trên AlpacaEval 2.0 và 92,3% trên ArenaHard
- Hiệu suất mạnh mẽ trong các nhiệm vụ hiểu ngữ cảnh dài
Công việc tương lai
Nhóm dự định tập trung vào:
- Nâng cao khả năng chung trong các lĩnh vực như gọi hàm và nhập vai phức tạp
- Giải quyết vấn đề pha trộn ngôn ngữ
- Cải thiện kỹ thuật nhắc nhở
- Nâng cao hiệu suất thực hiện các nhiệm vụ kỹ thuật phần mềm
Phần kết luận
DeepSeek-R1 đại diện cho một bước tiến đáng kể trong khả năng suy luận của AI thông qua học tăng cường. Sự thành công của cả mô hình chính và các phiên bản tinh chế của nó chứng minh tiềm năng của phương pháp này trong việc phát triển các hệ thống AI có khả năng hơn. Việc phát hành mã nguồn mở các mô hình này sẽ đóng góp vào nghiên cứu và phát triển sâu hơn trong lĩnh vực này.