Paper-DeepSeek-R1: Khuyến khích khả năng lý luận trong LLM thông qua học tăng cường
Tóm tắt Bài báo này giới thiệu các mô hình lý luận thế hệ đầu tiên của DeepSeek: DeepSeek-R1-Zero và DeepSeek-R1. DeepSeek-R1-Zero, được đào tạo thông qua học tăng cường quy mô lớn (RL) mà không có tinh chỉnh có giám sát (SFT), thể hiện khả năng lý luận đáng chú ý. Thông qua RL, nó tự nhiên phát triển các hành vi lý luận mạnh mẽ. Tuy nhiên, nó phải đối mặt với những thách thức như khả năng đọc kém và pha trộn ngôn ngữ. Để giải quyết những vấn đề này và nâng cao hiệu suất lý luận, DeepSeek-R1 đã được phát triển,…