Hôm nay chúng tôi sẽ chia sẻ DeepSeek R1Tiêu đề: DeepSeek-R1: Khuyến khích khả năng suy luận trong LLM thông qua học tăng cường: Khuyến khích khả năng suy luận của LLM thông qua học tăng cường.

Bài báo này giới thiệu thế hệ đầu tiên của các mô hình lý luận DeepSeek, DeepSeek-R1-KhôngDeepSeek-R1. Mô hình DeepSeek-R1-Zero đã được đào tạo thông qua học tăng cường quy mô lớn (RL) mà không có điều chỉnh có giám sát (SFT) như một bước đầu tiên, chứng minh tiềm năng của RL và khả năng suy luận vượt trội nó mang lại. Thông qua việc học tăng cường, DeepSeek-R1-Zero tự nhiên xuất hiện với nhiều hành vi lý luận mạnh mẽ và thú vị. Để tối ưu hóa thêm một số vấn đề với R1-Zero (nhầm lẫn ngôn ngữ, cải thiện khả năng khái quát hóa), họ đã phát hành DeepSeek-R1, kết hợp đào tạo nhiều giai đoạn và tinh chỉnh dữ liệu khởi động lạnh trước khi học tăng cường. DeepSeek-R1 đạt được hiệu suất tương đương về nhiệm vụ lý luận với OpenAI-01-1217. Để hỗ trợ cộng đồng nghiên cứu, họ đã mã nguồn mở DeepSeek-R1-Zero, DeepSeek-R1 và sáu mô hình dày đặc (1.5B, 7B, 8B, 14B, 32B, 70B) được chưng cất từ DeepSeek-R1, dựa trên Qwen và Llama.

Các đặc điểm của phương pháp được tóm tắt như sau:

  1. Học tăng cường được áp dụng trực tiếp vào mô hình cơ sở, mà không cần dựa vào điều chỉnh có giám sát (SFT) như bước đầu tiên.
  2. Quá trình phát triển DeepSeek-R1 được giới thiệu, kết hợp hai giai đoạn học tăng cường và hai giai đoạn điều chỉnh có giám sát để đặt nền tảng cho khả năng suy luận và không suy luận của mô hình.
  3. Hiệu suất của các mô hình nhỏ trên các nhiệm vụ lý luận được cải thiện bằng cách chuyển các mô hình lý luận của các mô hình lớn sang các mô hình nhỏ thông qua kỹ thuật chưng cất.

Tổng quan

Động lực

  • Các mô hình ngôn ngữ lớn (LLM) hiện tại đã có những tiến bộ đáng kể trong các nhiệm vụ suy luận, nhưng vẫn còn phải đối mặt với nhiều thách thức.
  • Tiềm năng của tinh khiết học tăng cường (RL) trong việc cải thiện khả năng lý luận của LLM vẫn chưa được khám phá đầy đủ, đặc biệt là khi không dựa vào dữ liệu có giám sát.
  • Các mô hình được đào tạo thông qua RL, chẳng hạn như DeepSeek-R1-Zero, có vấn đề về khả năng đọc và trộn lẫn ngôn ngữ (ví dụ, nói tiếng Trung và tiếng Anh lẫn lộn) và cần cải thiện thêm để nâng cao tính thân thiện với người dùng.

Phương pháp

DeepSeek-R1-Số không: Sử dụng DeepSeek-V3-Base làm mô hình cơ sở và GRPO (Tối ưu hóa chính sách tương đối nhóm) như là học tăng cường khung, không có dữ liệu được giám sát để cải thiện hiệu suất của mô hình trong suy luận.

DeepSeek-R1:

  • Khởi động nguội: Thu thập một lượng nhỏ dữ liệu CoT (Chuỗi suy nghĩ) dài chất lượng cao và tinh chỉnh Mô hình cơ sở DeepSeek-V3 là tác nhân ban đầu cho việc học tăng cường.
  • Học tăng cường theo hướng lý luận: Giống nhau quá trình đào tạo học tăng cường khi áp dụng DeepSeek-R1-Zero, nhưng tập trung vào việc tăng cường khả năng suy luận của mô hình trong các lĩnh vực như mã hóa, toán học, khoa học và lý luận logic. Phần thưởng về tính nhất quán ngôn ngữ được đưa ra để giảm thiểu vấn đề pha trộn ngôn ngữ xảy ra trong CoT.
  • Lấy mẫu từ chối và điều chỉnh có giám sát: Sử dụng điểm kiểm tra hội tụ của việc học tăng cường để thu thập dữ liệu Điều chỉnh tinh chỉnh có giám sát (SFT) cho việc đào tạo tiếp theo.
  • Học tăng cường cho tất cả các tình huống: Triển khai giai đoạn học tăng cường cấp độ thứ hai, nhằm mục đích cải thiện tính hữu ích và vô hại của mô hình trong khi tối ưu hóa khả năng suy luận của nó.
  • Chắt lọc kiến thức: Tinh chỉnh các mô hình nguồn mở Qwen và Llama trực tiếp bằng cách sử dụng 800.000 mẫu được tuyển chọn bởi DeepSeek-R1.

Phương pháp và quy trình chi tiết:

DeepSeek-R1-Zero: Học tăng cường cho các mô hình cơ sở

  • Thuật toán học tăng cường: Sử dụng thuật toán Tối ưu hóa chính sách tương đối nhóm (GRPO), không yêu cầu một nhà phê bình mô hình, ước tính đường cơ sở theo điểm số nhóm và giảm chi phí đào tạo.
  • Mô hình phần thưởng: Sử dụng một hệ thống khen thưởng dựa trên quy tắc, bao gồm
  • phần thưởng cho độ chính xác: Đánh giá xem câu trả lời có đúng không, chẳng hạn như tính đúng đắn của kết quả cuối cùng của câu trả lời bài toán, phản hồi từ trình biên dịch cho các vấn đề về mã.
  • Định dạng phần thưởng: Khuyến khích mô hình đặt quá trình suy nghĩ giữa thẻ.

Mẫu đào tạo: Một mẫu có chứa thẻ được thiết kế để hướng dẫn mô hình đưa ra quá trình suy nghĩ trước, sau đó là câu trả lời cuối cùng.

  • Quá trình tự tiến hóa: DeepSeek-R1-Zero đã được chứng minh đặc điểm tự tiến hóa trong quá trình đào tạo và có thể tự học các chiến lược lý luận phức tạp hơn, chẳng hạn như phản ánh và khám phá nhiều con đường giải quyết vấn đề.

DeepSeek-R1: Học tăng cường kết hợp với khởi động lạnh

  • Khởi động nguội: Để giải quyết DeepSeek-R1-Zero vấn đề khả năng đọc, DeepSeek-R1 đầu tiên thu thập một lượng nhỏ dữ liệu CoT chất lượng cao và tinh chỉnh mô hình DeepSeek-V3-Base để đóng vai trò là tác nhân ban đầu cho việc học tăng cường. Dữ liệu khởi động lạnh chứa các thẻ tóm tắt và các phản hồi không thân thiện được lọc ra.
    • Phương pháp: 1) Chọn dữ liệu COT dài chất lượng cao. 2) Thêm và gắn thẻ.
    • Ưu điểm: 1) Khả năng đọc được tối ưu hóa (giải quyết vấn đề đa ngôn ngữ của R1-Zero hoặc vấn đề định dạng giảm giá). 2) Dữ liệu được con người ưa thích được lựa chọn cẩn thận có thể tiếp tục cải thiện hiệu suất trên R1-Zero.
    • Câu hỏi: Tại sao phải giải quyết vấn đề khả năng đọc? Không phải có thể làm tốt hơn mà không cần giải quyết vấn đề đó sao (ví dụ, giảm độ dài của đầu ra và suy ra hiệu quả hơn)?
  • RL hướng tới lý luận: Dựa trên mô hình khởi động lạnh, một quá trình học tăng cường tương tự như DeepSeek-R1-Zero được áp dụng, tập trung vào việc cải thiện khả năng của mô hình trong các nhiệm vụ như mã hóa, toán học, suy luận khoa học và logic. Để giải quyết vấn đề ngôn ngữ hỗn hợp (lý luận đa ngôn ngữ), phần thưởng về tính nhất quán của ngôn ngữ được giới thiệu.
    • Câu hỏi: Các nhiệm vụ và tập dữ liệu lý luận khoa học và logic được đào tạo như thế nào?
  • Lấy mẫu từ chối và SFT: Sau khi quá trình học tăng cường được hướng dẫn bằng suy luận hội tụ, điểm kiểm tra thu được được sử dụng cho lấy mẫu loại trừ để tạo dữ liệu SFT mới, được kết hợp với dữ liệu từ DeepSeek-V3 để nâng cao khả năng viết, nhập vai và các nhiệm vụ chung của mô hình.
    • Mục đích:
      • Giai đoạn này được bắt đầu sau khi quá trình học tăng cường hướng suy luận (RL) hội tụ.
      • Mục tiêu chính là thu thập dữ liệu điều chỉnh có giám sát (SFT) để sử dụng trong các đợt huấn luyện tiếp theo.
      • Không giống như dữ liệu khởi động lạnh ban đầu, chỉ tập trung vào suy luận, giai đoạn này nhằm mục đích mở rộng khả năng của mô hình để bao gồm việc viết, nhập vai và các nhiệm vụ có mục đích chung khác, không chỉ là suy luận.
    • Thu thập dữ liệu – Dữ liệu suy luận:
      • Phương pháp: Sử dụng các điểm kiểm tra thu được từ giai đoạn RL định hướng suy luận để tạo ra các quỹ đạo suy luận bằng cách lấy mẫu từ chối.
      • Mở rộng tập dữ liệu: Không giống như giai đoạn RL trước đó, chỉ sử dụng dữ liệu phần thưởng dựa trên quy tắc, dữ liệu phần thưởng không dựa trên quy tắc được giới thiệu ở đây. Trong một số trường hợp, mô hình phần thưởng tạo ra (DeepSeek-V3) được sử dụng để xác định phản hồi.
      • Lọc dữ liệu: Để đảm bảo chất lượng và khả năng đọc, đầu ra được lọc để loại bỏ:
        • chuỗi suy nghĩ chứa đựng nhiều ngôn ngữ hỗn hợp
        • đoạn văn dài
        • khối mã
      • Lấy mẫu và lựa chọn: Đối với mỗi lời nhắc, nhiều phản hồi được tạo ra. Chỉ có phản hồi "đúng" được giữ lại cho tập dữ liệu.
      • Kích thước tập dữ liệu: Khoảng 600.000 mẫu đào tạo liên quan đến suy luận được thu thập theo cách này.
    • Thu thập dữ liệu – dữ liệu không suy luận:
      • Phạm vi: Viết, trả lời câu hỏi thực tế (QA), tự nhận thức và biên dịch.
      • Bài báo đề cập đến việc sử dụng Quy trình DeepSeek-V3 và tái sử dụng một phần của tập dữ liệu SFT DeepSeek-V3 để xử lý các nhiệm vụ không suy luận này. Về 200.000 mẫu suy luận độc lập đã được thu thập. (Lưu ý: Chi tiết về việc thu thập dữ liệu không suy luận được mô tả thêm trong Phần 2.3.4)
    • Sử dụng dữ liệu thu thập được:
      • Dữ liệu lý luận và phi lý luận được thu thập (tổng cộng khoảng 800.000 mẫu – 600.000 mẫu lý luận + 200.000 mẫu phi lý luận) sau đó được sử dụng để tinh chỉnh mô hình DeepSeek-V3-Base cho hai thời đại. Mô hình tinh chỉnh này sau đó được sử dụng trong giai đoạn RL cuối cùng được mô tả trong Phần 2.3.4.
    • Bản tóm tắt Bước này sử dụng khả năng suy luận được học thông qua RL để tạo ra một tập dữ liệu SFT đa dạng và chất lượng cao. Tập dữ liệu này tăng cường khả năng suy luận và cũng mở rộng khả năng chung của mô hình đào tạo trong giai đoạn điều chỉnh và cải tiến cuối cùng.
  • Học tăng cường cho mọi tình huống: Để phù hợp hơn với sở thích của con người, giai đoạn học tăng cường thứ hai được triển khai để cải thiện tính hữu ích và vô hại của mô hình.
    • Dữ liệu suy luận: ví dụ toán học, mã, suy luận logic hoặc phương pháp giám sát bằng quy tắc cơ sở.
    • Dữ liệu chung: các mô hình phần thưởng vẫn được sử dụng để cung cấp thông tin ưu tiên cho các tình huống phức tạp và tinh tế. Các mô hình được đào tạo với dữ liệu từng cặp cũng được ước tính.
    • Tính hữu ích: chỉ tập trung vào kết quả tóm tắt cuối cùng, giảm thiểu sự can thiệp vào quá trình suy luận.
    • Vô hại: giám sát toàn bộ phản ứng để giảm thiểu mọi rủi ro.

Mô hình chưng cất (Distillation):

  • Để có được một mô hình suy luận nhỏ hiệu quả hơn, bài báo đã chắt lọc khả năng suy luận của DeepSeek-R1 thành các mô hình nguồn mở của loạt Qwen và Llama. Quá trình chắt lọc chỉ sử dụng điều chỉnh có giám sát (SFT) và không sử dụng giai đoạn học tăng cường.

Phần kết luận

DeepSeek-R1-Không: Thể hiện tiềm năng của học tăng cường thuần túy trong việc thúc đẩy khả năng suy luận LLM và có thể đạt được hiệu suất mạnh mẽ mà không cần dựa vào dữ liệu có giám sát.

  • Khoảnh khắc Aha: Vẻ đẹp của việc học tăng cường (khoảnh khắc giác ngộ của mô hình, nơi nó phân bổ nhiều thời gian suy nghĩ hơn cho một vấn đề bằng cách học cách đánh giá lại cách tiếp cận ban đầu)
  • Chiều dài đầu ra tiếp tục tăng (thời gian suy nghĩ tiếp tục tăng)
  • Độ chính xác tiếp tục được cải thiện (lấy mẫu 16 phản hồi để tính độ chính xác)
  • DeepSeek-R1:Cải thiện hiệu suất mô hình hơn nữa bằng cách kết hợp dữ liệu khởi động lạnh và tinh chỉnh học tăng cường lặp lại, đạt được mức độ tương đương với OpenAI-01-1217 trong nhiều nhiệm vụ khác nhau.
  • Chắt lọc kiến thức: Sử dụng DeepSeek-R1 làm mô hình giáo viên, 800K mẫu đào tạo đã được tạo ra và một số mô hình nhỏ, dày đặc đã được tinh chỉnh. Kết quả cho thấy rằng phương pháp chưng cất có thể cải thiện đáng kể khả năng suy luận của mô hình nhỏ.

Giới hạn

  • Hạn chế 1: Khả năng chung của DeepSeek-R1 cần được cải thiện. DeepSeek-R1 vẫn kém hơn DeepSeek-V3 trong các tác vụ như gọi hàm, đối thoại nhiều lượt, nhập vai phức tạp và xuất JSON.
  • Hạn chế 2: Vấn đề pha trộn ngôn ngữ. DeepSeek-R1 có thể gặp phải sự cố trộn lẫn ngôn ngữ khi xử lý các truy vấn không phải tiếng Trung và không phải tiếng Anh, ví dụ như lý luận và trả lời bằng tiếng Anh.
  • Hạn chế 3: Độ nhạy tức thời. DeepSeek-R1 rất nhạy với các từ nhắc, và việc nhắc ít lần sẽ làm giảm hiệu suất của nó.
  • Hạn chế 4: Ứng dụng hạn chế vào các nhiệm vụ kỹ thuật phần mềm. Do thời gian đánh giá dài nên phương pháp học tăng cường quy mô lớn chưa được áp dụng đầy đủ vào các tác vụ kỹ thuật phần mềm và DeepSeek-R1 có cải tiến hạn chế so với DeepSeek-V3 trong các điểm chuẩn kỹ thuật phần mềm.

Bài viết tương tự

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *