Diễn giải bài báo DeepSeek R1 & các điểm kỹ thuật chính

1 Bối cảnh

Trong lễ hội mùa xuân, DeepSeek R1 một lần nữa thu hút sự chú ý rộng rãi, thậm chí bài viết giải thích DeepSeek V3 mà chúng tôi viết trước đó cũng được truyền lại và thảo luận rất nhiều.

Mặc dù đã có nhiều phân tích và sao chép DeepSeek R1, nhưng ở đây chúng tôi quyết định biên soạn một số ghi chú đọc tương ứng.

Chúng tôi sẽ sử dụng ba sơ đồ cốt lõi để chứng minh cấu trúc mô hình và các điểm kỹ thuật chính, chắt lọc bản chất của dòng DeepSeek-R1 để cung cấp hiểu biết trực quan hơn về ý tưởng thiết kế của nó.

Bài báo tương ứng là [2501.12948] DeepSeek-R1: Khuyến khích khả năng lý luận trong LLM thông qua học tăng cường

và mô hình nguồn mở tương ứng là DeepSeek-R1

2 Giới thiệu

2.1 Thuật toán suy luận chung

Như thể hiện trong Hình 2 bên dưới, tác giả giải thích bốn thuật toán lý luận phổ biến. Mặc dù chúng khác nhau về các chi tiết cụ thể, nhưng tất cả đều bao gồm hai hoạt động cốt lõi:

Mở rộng: tạo mã thông báo để mở rộng hướng giải pháp.
Tổng hợp: tích hợp kết quả của từng đường dẫn để có được câu trả lời cuối cùng. Tăng tài nguyên tính toán trong giai đoạn mở rộng thường có thể cải thiện chất lượng câu trả lời trong giai đoạn tổng hợp.

Tự nhất quán (SC). Như thể hiện trong Hình 2a, ý tưởng cốt lõi của SC là tạo ra nhiều đầu ra khác nhau (có thể đạt được bằng cách thay đổi các tham số lấy mẫu, v.v.), sau đó bỏ phiếu cho tất cả các câu trả lời để chọn câu trả lời có tỷ lệ chiến thắng cao nhất. Tham số chính là số lượng câu trả lời ứng viên n.

Thuật toán Rebase: Như thể hiện trong Hình 2b bên dưới, Rebase cũng tạo ra nhiều đầu ra, nhưng chúng được tạo ra trong nhiều bước. Mỗi bước được chấm điểm bằng mô hình Phần thưởng và kết quả có điểm cao nhất được sử dụng để tiếp tục tạo. Cuối cùng, một cây lý luận với nhiều nhánh được tạo ra. Câu trả lời có điểm cao nhất (Best-of-N) được chọn trong giai đoạn tổng hợp.

Monte Carlo Tree Search (MCTS): Như thể hiện trong Hình 2c bên dưới, MCTS là một thuật toán suy luận mạnh mẽ mở rộng các nút bằng cách lấy mẫu dần dần và xây dựng một cây giải pháp cho đến khi nó đạt đến một nút lá chứa một giải pháp ứng viên. Mỗi giải pháp được chấm điểm thông qua một mô hình Phần thưởng hoặc mô phỏng, và điểm số được truyền trở lại các nút tổ tiên của nó để cập nhật giá trị phần thưởng của chúng, do đó hoàn thành một lần lặp. Tham số chính cũng là n, và việc tăng n cho phép khám phá sâu hơn và rộng hơn các giải pháp tiềm năng.

Chuỗi nhận thức nội tại (ICoT). Như thể hiện trong Hình 2d bên dưới, các LLM mới nhất, chẳng hạn như OpenAI o1 và Qwen-QWQ, có thể nội tại hóa hành vi lý luận trong quá trình đào tạo mà không cần thuật toán lý luận rõ ràng. Ý tưởng cốt lõi là tạo chuỗi CoT, phân tích các vấn đề phức tạp thành nhiều vấn đề con, sau đó tối ưu hóa các câu trả lời này theo từng bước bằng cách phản ánh các đầu ra trước đó để cuối cùng đi đến giải pháp.

2.2 Phương pháp căn chỉnh lý luận

2.2.1 Tổng quan về phương pháp Best-of-N

Tóm lại, Best-of-N là một phương pháp căn chỉnh được sử dụng rộng rãi trong suy luận LLM, nhằm mục đích đảm bảo chất lượng cao của các kết quả được tạo ra bằng cách tạo ra nhiều phản hồi ứng viên và chọn ra phản hồi tốt nhất. Nó bao gồm ba quy trình chính:

Quy trình tạo: Đối với lời nhắc X cho trước, phương pháp Best-of-N tạo ra N phản hồi IID (Y₁, Y₂, …, Yₙ), trong đó N thường được gọi là “kích thước lô”.
Cơ chế tính điểm: Mỗi phản hồi được tạo ra sẽ được chấm điểm bằng mô hình phần thưởng để có được điểm tương ứng {s(Y₁), s(Y₂), …, s(Yₙ)}.
Chọn phản hồi tốt nhất: Cuối cùng, phản hồi có điểm cao nhất trong số tất cả các phản hồi được tạo ra sẽ được chọn làm đầu ra, tức là Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}.

Ưu điểm của phương pháp này là:

Nó có thể tránh hiệu quả các bước tinh chỉnh phức tạp, giúp triển khai dễ dàng hơn các mô hình ngôn ngữ đã được đào tạo trước hoặc tinh chỉnh bằng hướng dẫn.
Nó dễ triển khai, dễ hiểu và về cơ bản là không cần siêu tham số: siêu tham số chính là N, có thể được điều chỉnh động trong quá trình suy luận.
Nó có tính cạnh tranh cao về chất lượng thế hệ và thậm chí có thể sánh ngang với một số kỹ thuật đào tạo sau phức tạp như RLHF hoặc DPO. Nghiên cứu cho thấy phương pháp Best-of-N hoạt động tốt trên đường cong đánh đổi giữa phần thưởng và độ phân kỳ KL, thậm chí vượt trội hơn các chiến lược căn chỉnh phức tạp khác.

Nhược điểm của phương pháp này là

suy luận đòi hỏi phải tạo ra N chuỗi, có thể dẫn đến chi phí tính toán đáng kể. Trong thực tế, giá trị hợp lý cho N nằm trong khoảng từ 4 đến 128, nhưng để cạnh tranh với các phương pháp đào tạo sau tiên tiến nhất, có thể cần các giá trị N cao hơn, chẳng hạn như từ 1000 đến 60000, có thể dẫn đến chi phí tính toán gần như không thể chấp nhận được.

Phương pháp best-of-N thường được sử dụng để tạo ra các tập dữ liệu chất lượng cao cho quá trình điều chỉnh có giám sát tiếp theo và đóng vai trò quan trọng trong quá trình căn chỉnh LLaMA-2 và LLaMA-3.

2.2.2 Phương pháp OpenAI best-of-N

OpenAI lần đầu tiên đề xuất lấy mẫu Best-of-N trong [2009.01325] Học cách tóm tắt từ phản hồi của con người . Cụ thể, nó được sử dụng để đánh giá và tối ưu hóa hiệu suất của mô hình tóm tắt bằng cách chọn tóm tắt tốt nhất được tạo ra từ nhiều mô hình. Phương pháp này giúp các nhà nghiên cứu hiểu rõ hơn mối quan hệ giữa các số liệu đánh giá khác nhau và sở thích của người đánh giá, và được sử dụng để hướng dẫn đào tạo và tối ưu hóa mô hình.

OpenAI cũng sử dụng phương pháp lấy mẫu Best-of-N (lấy mẫu từ chối) trong quá trình theo dõi [2112.09332] WebGPT: Trả lời câu hỏi bằng trình duyệt với phản hồi của con người. Cụ thể, một số lượng câu trả lời cố định (4, 16 hoặc 64) được lấy mẫu từ mô hình BC hoặc mô hình RL và câu trả lời có điểm mô hình phần thưởng cao nhất được chọn làm phương pháp tối ưu hóa cho mô hình phần thưởng đối nghịch. Phương pháp này không yêu cầu đào tạo bổ sung, nhưng làm tăng độ phức tạp tính toán của giai đoạn suy luận để đạt được.

2.2.3 Phương pháp BOND của Google

TRONG [2407.14622] BOND: Căn chỉnh LLM với Chưng cất Best-of-N, các tác giả từ Google đề xuất Chưng cất Best-of-N (BOND), một thuật toán RLHF mới được thiết kế để mô phỏng chiến lược lấy mẫu Tốt nhất trong N thông qua thuật toán Ghép phân phối mà không làm tăng đáng kể chi phí tính toán trong quá trình suy luận.

Cụ thể, tác giả đầu tiên suy ra phân phối phân tích chính xác của mẫu Best-of-N và đưa ra hàm xác suất của mẫu Best-of-N:

Thứ hai, các tác giả thể hiện vấn đề này như một vấn đề phân phối phù hợp;

sau đó, các tác giả đề xuất sử dụng sự phân kỳ của Jeffreys làm mục tiêu khớp phân phối:

Cuối cùng, để giải quyết vấn đề lựa chọn N, các tác giả đề xuất phương pháp BOND lặp lại, cải thiện hiệu suất của chiến lược bằng cách chưng cất lặp lại phân phối Best-of-N. Các bước cụ thể bao gồm:

Khởi tạo chiến lược Anchor phụ trợ π(anchor).

Thực hiện BOND theo từng bước để chắt lọc π(anchor) tốt nhất trong N và cập nhật π(anchor) sau mỗi bước.

2.3 Giám sát quá trình và giám sát kết quả

Kết quả và Quy trình đề cập đến hai khía cạnh của đánh giá mô hình Phần thưởng:

Mô hình phần thưởng kết quả: Đánh giá xem kết quả cuối cùng của mô hình có chính xác và như mong đợi hay không.
Mô hình khen thưởng quy trình: Đánh giá xem các bước lý luận và ra quyết định của mô hình trong quá trình tạo ra kết quả có hợp lý và hiệu quả hay không.

Ví dụ, Let's Verify Step by Step | OpenAI của OpenAI cũng đề cập:

Giám sát quy trình (Giám sát kết quả): bao gồm việc cung cấp phản hồi về từng bước của quy trình Lý luận của mô hình. Các Mô hình Phần thưởng giám sát quy trình (PRM) được đào tạo để dự đoán tính chính xác của từng bước trong giải pháp.
Giám sát kết quả: Giám sát kết quả cung cấp phản hồi chỉ dựa trên kết quả cuối cùng của lý luận của mô hình. Các mô hình phần thưởng giám sát kết quả (ORM) được đào tạo bằng cách sử dụng câu trả lời cuối cùng của giải pháp và tính chính xác được xác định bằng cách kiểm tra tự động.

2.4 Hack phần thưởng

Trong RL, hack phần thưởng đề cập đến hiện tượng mà một tác nhân khai thác một lỗi trong thiết kế hàm phần thưởng để tối đa hóa phần thưởng tích lũy theo cách không đáp ứng được mục đích ban đầu của nhà thiết kế. Mặc dù về mặt kỹ thuật, hành vi này đáp ứng được mục tiêu tối ưu hóa của hàm phần thưởng, nhưng hiệu ứng thực tế lại khác với mục tiêu nhiệm vụ mong đợi và thậm chí có thể dẫn đến hậu quả tiêu cực.

Phân tích điểm chính:

Định nghĩa và biểu hiện:
1. Tác nhân tìm ra một lỗ hổng trong hàm phần thưởng và nhận được phần thưởng cao bằng cách "đi đường tắt" thay vì thực sự giải quyết vấn đề.
2. Ví dụ, một robot dọn dẹp tắt đèn để làm cho căn phòng "trông" sạch sẽ, thay vì thực sự dọn dẹp; một tác nhân trò chơi liên tục ghi điểm mà không hoàn thành mục tiêu của cấp độ; chọn không giảm tốc độ để giảm số lần phanh, gây nguy hiểm cho an toàn; tạo ra nội dung vô nghĩa khớp với các từ khóa để đánh lừa điểm số cao.
Nguyên nhân gốc rễ:
1. Thiết kế chức năng phần thưởng không đầy đủ: quá đơn giản hóa hoặc không bao gồm các trường hợp ngoại lệ.
2. Sự không phù hợp giữa mục tiêu và phần thưởng: chức năng phần thưởng không phản ánh đầy đủ mục tiêu thực sự, khiến tác nhân tối ưu hóa cho mục tiêu “sai”.
Giải pháp:
1. Cải thiện thiết kế phần thưởng: đưa ra phần thưởng đa chiều (ví dụ: an toàn, hiệu quả, v.v.) hoặc điều chỉnh chức năng phần thưởng một cách linh hoạt.
2. Xác minh đối nghịch: phát hiện xem tác nhân có “gian lận” thông qua các cơ chế bổ sung hay không.
3. Can thiệp và hạn chế thủ công: đặt ra ranh giới hành vi (ví dụ: lớp an toàn) hoặc phản hồi thủ công (ví dụ: RLHF).
4. Học tăng cường ngược (IRL): tìm hiểu hàm phần thưởng thực tế hơn từ các cuộc trình diễn của chuyên gia.
5. Học tăng cường theo thứ bậc: phân chia nhiệm vụ thành các mục tiêu phụ để giảm rủi ro tối ưu hóa cục bộ.
Liên kết với quá trình lắp ghép:
1. Cả hai đều cho thấy sự không liên quan giữa số liệu đào tạo và hiệu suất thực tế, nhưng Reward Hacking nhấn mạnh nhiều hơn vào các lỗi thiết kế của hàm phần thưởng hơn là khả năng khái quát hóa của mô hình.
Bản tóm tắt:
1. Reward Hacking cho thấy thách thức của việc căn chỉnh mục tiêu trong RL. Giải quyết vấn đề này đòi hỏi sự kết hợp giữa việc thiết kế các cơ chế khen thưởng mạnh mẽ hơn, đưa ra các ràng buộc bên ngoài và kết hợp kiến thức trước đó của con người để đảm bảo rằng hành vi của tác nhân vừa hiệu quả vừa phù hợp với ý định thiết kế.

3 DeepSeek-R1-Không & DeepSeek-R1

3.1 Tổng quan

Nghiên cứu trước đây chủ yếu dựa vào lượng lớn dữ liệu có giám sát để cải thiện hiệu suất mô hình. Nghiên cứu này cho thấy rằng ngay cả khi không có SFT làm khởi động lạnh, RL quy mô lớn vẫn có thể tăng cường đáng kể khả năng lý luận của mô hình. Ngoài ra, việc đưa vào một lượng nhỏ dữ liệu khởi động lạnh có thể tối ưu hóa hiệu suất hơn nữa. Sau đây là các mô hình liên quan đến DeepSeek-R1:

DeepSeek-R1-Zero: Mô hình này áp dụng RL trực tiếp vào mô hình cơ sở mà không có bất kỳ dữ liệu SFT nào.
DeepSeek-R1: Mô hình này áp dụng RL bắt đầu từ điểm kiểm tra đã được tinh chỉnh với hàng nghìn mẫu CoT dài.
DeepSeek-R1-Distill-xx: Chắt lọc khả năng suy luận của DeepSeek-R1 thành một mô hình Dense nhỏ.

3.2 DeepSeek-R1-Không

Hình sau đây cho thấy những điểm chính trong quá trình đào tạo mô hình DeepSeek-R1-Zero:

PS: Cần lưu ý rằng bài báo không cung cấp nhiều thông tin về dữ liệu được sử dụng trong quy trình RL của DeepSeek-R1-Zero. Tuy nhiên, có một số giải thích về quy trình tạo dữ liệu và số lượng trong quá trình đào tạo R1 tiếp theo, mặc dù không cụ thể lắm.

3.2.1 Thuật toán RL

Để giảm chi phí đào tạo RL, các tác giả sử dụng phương pháp GRPO (Group Relative Policy Optimization) của riêng DeepSeek, [2402.03300] DeepSeekMath: Đẩy mạnh giới hạn của lý luận toán học trong các mô hình ngôn ngữ mở. Phương pháp này từ bỏ mô hình Critic, thường có kích thước tương đương với mô hình Policy, và thay vào đó ước tính đường cơ sở bằng cách sử dụng điểm nhóm. Giải thích tương ứng được hiển thị trong hình bên dưới (ảnh từ Twitter):

3.2.2 Mô hình phần thưởng

Phần thưởng là nguồn tín hiệu đào tạo và xác định hướng tối ưu hóa của RL. Để đào tạo DeepSeek-R1-Zero, các tác giả đã sử dụng hệ thống phần thưởng dựa trên quy tắc, chủ yếu bao gồm hai loại phần thưởng:

Phần thưởng độ chính xác: Đánh giá xem phản hồi có đúng không. Ví dụ:
- Trong các bài toán có kết quả xác định, mô hình cần cung cấp câu trả lời cuối cùng theo một định dạng cụ thể (chẳng hạn như bên trong một ô) để tính đúng đắn của nó có thể được xác minh một cách đáng tin cậy theo các quy tắc.
- Tương tự như vậy, đối với các vấn đề LeetCode, phản hồi có thể được tạo ra bằng trình biên dịch dựa trên các trường hợp thử nghiệm được xác định trước.
Phần thưởng định dạng: Phần thưởng định dạng cũng được sử dụng để buộc mô hình đặt quá trình suy nghĩ của nó giữa “ " Và " ” thẻ.

Trong quá trình phát triển DeepSeek-R1-Zero, tác giả đã không sử dụng Mô hình phần thưởng thần kinh kết quả hoặc Mô hình phần thưởng thần kinh quá trình vì tác giả nhận thấy Mô hình phần thưởng thần kinh có thể gặp phải tình trạng giả mạo phần thưởng (Reward Hacking) trong các quy trình RL quy mô lớn; ngoài ra, việc đào tạo lại Mô hình phần thưởng không chỉ đòi hỏi thêm tài nguyên đào tạo mà còn làm phức tạp toàn bộ quá trình đào tạo.

3.2.3 Mẫu đào tạo

Để đào tạo DeepSeek-R1-Zero, trước tiên các tác giả thiết kế một Mẫu đơn giản để hướng dẫn mô hình Cơ sở tuân theo các hướng dẫn đã đặt. Như thể hiện trong Bảng 1 bên dưới, Mẫu yêu cầu DeepSeek-R1-Zero tạo ra một quy trình suy luận và sau đó đưa ra câu trả lời cuối cùng.

Tác giả cố tình giới hạn các ràng buộc trong khuôn khổ cấu trúc này để tránh đưa vào bất kỳ thành kiến nội dung nào - ví dụ, buộc phải lý luận phản ánh hoặc thúc đẩy các chiến lược giải quyết vấn đề cụ thể - để đảm bảo rằng sự phát triển tự nhiên của mô hình có thể được quan sát chính xác trong quá trình RL.

3.2.4 Kết luận

Khả năng suy luận mạnh mẽ mà không cần dữ liệu SFT: Bằng cách bắt đầu RL trực tiếp từ mô hình Cơ sở, quỹ đạo tiến hóa của mô hình có thể được theo dõi chặt chẽ mà không có sự can thiệp của SFT. Như Hình 3 bên dưới cho thấy, thời gian suy nghĩ của DeepSeek-R1-Zero tiếp tục được cải thiện (chiều dài tăng trưởng dần trở nên dài hơn) trong suốt quá trình đào tạo. Sự cải thiện này không đến từ các điều chỉnh bên ngoài, mà là kết quả tự nhiên của quá trình phát triển bên trong mô hình. DeepSeek-R1-Zero tự nhiên có được khả năng giải quyết các nhiệm vụ suy luận ngày càng phức tạp, chẳng hạn như khả năng phản xạ, bằng cách sử dụng các phép tính thời gian thử nghiệm kéo dài.

DeepSeek-R1-Zero đã trải qua “khoảnh khắc aha” trong quá trình đào tạo. Như thể hiện trong Bảng 3 bên dưới, khoảnh khắc này xảy ra trong giai đoạn phiên bản giữa của mô hình. Trong giai đoạn này, DeepSeek-R1-Zero đã học cách phân bổ nhiều thời gian suy nghĩ hơn cho các vấn đề bằng cách đánh giá lại cách tiếp cận ban đầu của nó.

Biểu quyết đa số: Hiệu suất của DeepSeek-R1-Zero có thể được cải thiện hơn nữa bằng cách áp dụng biểu quyết đa số. Ví dụ, như thể hiện trong Bảng 2 bên dưới, sau khi biểu quyết đa số được sử dụng trong bài kiểm tra chuẩn AIME, hiệu suất của nó tăng từ 71,0% lên 86,7%, vượt qua OpenAI-o1-0912.

Điểm yếu: Mặc dù DeepSeek-R1-Zero thể hiện khả năng suy luận mạnh mẽ và tự động phát triển các hành vi suy luận mạnh mẽ và bất ngờ, nhưng nó vẫn phải đối mặt với những thách thức như khả năng đọc kém và lẫn lộn ngôn ngữ.

3.3 DeepSeek-R1

Để làm cho quá trình Lý luận dễ đọc hơn và chia sẻ với cộng đồng mở, các tác giả tiếp tục khám phá phương pháp DeepSeek-R1, sử dụng dữ liệu khởi động lạnh thân thiện với con người cho RL. Lấy cảm hứng từ DeepSeek-R1-Zero, hai câu hỏi tự nhiên sau đây:

Hiệu suất suy luận có thể được cải thiện hơn nữa hay quá trình hội tụ có thể được đẩy nhanh hơn bằng cách đưa vào một lượng nhỏ dữ liệu chất lượng cao khi khởi động không?
Làm thế nào chúng ta có thể đào tạo một mô hình thân thiện với người dùng không chỉ tạo ra các CoT rõ ràng và mạch lạc mà còn thể hiện khả năng khái quát mạnh mẽ?

Để trả lời những câu hỏi này, chúng tôi đã thiết kế một quy trình đào tạo cho DeepSeek-R1. Quy trình bao gồm nhiều giai đoạn, như mô tả dưới đây:

Giai đoạn 1, như thể hiện trong hình bên dưới, đào tạo trạng thái trung gian của DeepSeek-R1 thông qua SFT + RL:

Hình sau đây hiển thị Giai đoạn 2, 3 và 4:

Giai đoạn 2: góc trên bên trái, xây dựng 200.000 dữ liệu phi lý luận và 600.000 dữ liệu lý luận.
Giai đoạn 3: phía trên bên phải, tàu SFT + RL DeepSeek-R1.
Giai đoạn 4: hình dưới, Chưng cất DeepSeek-R1-Chưng cất-xx.

3.3.1 Khởi động nguội (Giai đoạn 1)

Không giống như DeepSeek-R1-Zero, để ngăn chặn giai đoạn Cold Start không ổn định của mô hình Base khi bắt đầu đào tạo RL, các tác giả đã xây dựng và thu thập một lượng nhỏ dữ liệu Long CoT cho DeepSeek-R1 để tinh chỉnh mô hình như là Actor RL ban đầu. Để thu thập dữ liệu này, các tác giả đã khám phá nhiều phương pháp khác nhau:

Sử dụng lời nhắc ít ảnh với các ví dụ Long CoT
Yêu cầu mô hình trực tiếp tạo ra các câu trả lời chi tiết với sự phản ánh và xác minh
Thu thập đầu ra DeepSeek-R1-Zero ở định dạng mà con người có thể đọc được
Tinh chỉnh kết quả thông qua xử lý hậu kỳ với nhãn thủ công

Các tác giả đã thu thập tổng cộng hàng nghìn dữ liệu Cold Start, được sử dụng để tinh chỉnh DeepSeek-V3-Base làm điểm khởi đầu cho RL. So với DeepSeek-R1-Zero, những lợi thế của dữ liệu Cold Start bao gồm

Khả năng đọc: DeepSeek-R1-Zero Phản hồi có thể được trộn lẫn bằng nhiều ngôn ngữ hoặc thiếu định dạng Markdown được sử dụng để làm nổi bật câu trả lời của người dùng. Ngược lại, khi tạo dữ liệu Cold Start cho DeepSeek-R1, tác giả đã thiết kế một định dạng có thể đọc được bao gồm tóm tắt ở cuối mỗi Phản hồi và lọc ra các Phản hồi không thể đọc được. Ở đây, định dạng đầu ra được định nghĩa là |special_token| |mã thông báo đặc biệt|
, trong đó reasoning_process là chuỗi suy nghĩ của Query và summary được dùng để tóm tắt kết quả suy luận.
Tiềm năng: Bằng cách thiết kế cẩn thận sự kết hợp các mẫu dữ liệu Cold Start tiên nghiệm của con người, các tác giả nhận thấy hiệu suất của nó vượt trội hơn DeepSeek-R1-Zero.

3.3.2 RL do lý luận thúc đẩy (Giai đoạn 1)

Sau khi tinh chỉnh DeepSeek-V3-Base trên dữ liệu Cold Start, quy trình đào tạo RL quy mô lớn tương tự như DeepSeek-R1-Zero được sử dụng. Giai đoạn này nhằm mục đích cải thiện khả năng của mô hình trong các tác vụ chuyên sâu về Lý luận, đặc biệt là các vấn đề lập trình, toán học, khoa học và lý luận logic với các giải pháp rõ ràng.

Trong quá trình đào tạo, các tác giả quan sát thấy CoT thường bị trộn lẫn ngôn ngữ, đặc biệt là khi lời nhắc RL liên quan đến nhiều ngôn ngữ. Để giảm bớt vấn đề trộn lẫn ngôn ngữ, các tác giả đã đưa phần thưởng về tính nhất quán của ngôn ngữ vào quá trình đào tạo RL, được tính toán dựa trên tỷ lệ các từ trong ngôn ngữ đích trong CoT. Mặc dù các thí nghiệm cắt bỏ cho thấy phương pháp căn chỉnh này dẫn đến hiệu suất mô hình giảm nhẹ, nhưng cơ chế phần thưởng này phù hợp với sở thích của con người và tăng cường khả năng đọc. Cuối cùng, các tác giả trực tiếp thêm độ chính xác của nhiệm vụ Lý luận vào phần thưởng về tính nhất quán của ngôn ngữ để tạo thành phần thưởng cuối cùng và triển khai đào tạo RL trên mô hình được tinh chỉnh cho đến khi nó hội tụ về nhiệm vụ Lý luận.

3.3.3 Xây dựng 800.000 dữ liệu được chọn (Giai đoạn 2)

Trong khi RL for Reasoning hội tụ, dữ liệu SFT được thu thập bằng cách sử dụng điểm kiểm tra kết quả cho vòng đào tạo tiếp theo. Không giống như dữ liệu Cold Start ban đầu, tập trung chủ yếu vào Reasoning, giai đoạn này kết hợp dữ liệu từ các miền khác để tăng cường khả năng viết, nhập vai và các nhiệm vụ mục đích chung khác của mô hình. Cụ thể, dữ liệu được tạo ra và mô hình được tinh chỉnh như sau:

Dữ liệu lý luận: Các lời nhắc lý luận được chọn và các quỹ đạo lý luận được tạo ra bằng cách thực hiện lấy mẫu loại bỏ từ Điểm kiểm tra đã được đào tạo RL đã đề cập ở trên (Giai đoạn 1 DeepSeek-R1). Ở giai đoạn trước, chỉ có dữ liệu có thể được đánh giá bằng phần thưởng dựa trên quy tắc mới được đưa vào. Tuy nhiên, ở giai đoạn này, tập dữ liệu đã được mở rộng bằng cách đưa vào nhiều dữ liệu hơn, một số trong số đó được tạo ra bằng mô hình phần thưởng và các câu trả lời thực tế được đánh giá bằng cách đưa các dự đoán của mô hình vào DeepSeek-V3 (DeepSeek V3 là Người phán xử). Ngoài ra, vì đầu ra của mô hình đôi khi gây nhầm lẫn và khó đọc nên các chuỗi suy nghĩ bằng nhiều ngôn ngữ, đoạn văn dài và khối mã đã bị lọc ra. Đối với mỗi lời nhắc, nhiều phản hồi đã được lấy mẫu và chỉ những phản hồi đúng (Tốt nhất trong N) mới được giữ lại. Tổng cộng, khoảng 600.000 mẫu đào tạo liên quan đến lý luận đã được thu thập.
Dữ liệu phi lý luận: chẳng hạn như viết, câu hỏi factoid, nhận thức bản thân và dịch thuật, đã sử dụng quy trình DeepSeek-V3 và tái sử dụng một số tập dữ liệu SFT của DeepSeek-V3. Đối với một số tác vụ phi lý luận, DeepSeek-V3 được gọi để tạo ra các CoT tiềm năng trước khi trả lời câu hỏi. Tuy nhiên, đối với các truy vấn đơn giản như "Xin chào", không có chuỗi suy nghĩ nào được cung cấp trong Phản hồi. Cuối cùng, tổng cộng khoảng 200.000 mẫu đào tạo phi lý luận đã được thu thập.

3.3.4 SFT & RL cho tất cả các kịch bản (Giai đoạn 3)

Hai vòng tinh chỉnh tổng cộng khoảng 800.000 mẫu được chọn đã được thực hiện trên DeepSeek-V3-Base bằng cách sử dụng hai bộ dữ liệu đã đề cập ở trên (Lý luận và phi lý luận).

Để phù hợp hơn với sở thích của con người, các tác giả đã triển khai giai đoạn thứ hai của RL, nhằm mục đích cải thiện tính hữu ích và vô hại của mô hình đồng thời tinh chỉnh khả năng Lý luận của nó. Cụ thể, mô hình được đào tạo bằng sự kết hợp giữa các tín hiệu phần thưởng và các phân phối nhắc nhở đa dạng.

Đối với dữ liệu lý luận, phương pháp được mô tả trong DeepSeek-R1-Zero được áp dụng, sử dụng cơ chế khen thưởng dựa trên quy tắc để hướng dẫn mô hình học tập trong các lĩnh vực toán học, lập trình và lý luận logic.
Đối với dữ liệu chung, mô hình Phần thưởng được sử dụng để nắm bắt sở thích của con người trong các tình huống phức tạp và tinh tế. Một chiến lược tương tự về các cặp sở thích và phân phối lời nhắc đào tạo được sử dụng dựa trên quy trình DeepSeek-V3.
Xét về tính hữu ích, chỉ có bản tóm tắt cuối cùng được xem xét, đảm bảo rằng đánh giá tập trung vào tính thực tế và sự phù hợp của Phản hồi đối với người dùng đồng thời giảm thiểu sự can thiệp vào quá trình Lý luận cơ bản.
Về tính vô hại, toàn bộ Phản hồi của mô hình được đánh giá toàn diện, bao gồm quy trình Lý luận và tóm tắt, để xác định và loại bỏ mọi rủi ro, thành kiến hoặc nội dung có hại tiềm ẩn có thể phát sinh trong quá trình tạo.
Cuối cùng, bằng cách tích hợp các tín hiệu phần thưởng và đa dạng hóa việc phân phối dữ liệu, có thể đào tạo được một mô hình ưu tiên cả lợi ích và sự vô hại, đồng thời cũng vượt trội về Lý luận.

3.3.5 Chưng cất (Giai đoạn 4)

Để trang bị cho một mô hình nhỏ hiệu quả hơn khả năng suy luận của DeepSeek-R1, các tác giả đã tinh chỉnh trực tiếp các mô hình nguồn mở Qwen và LLaMA bằng cách sử dụng 800.000 mẫu được chọn trong DeepSeek-R1-Stage-1. Kết quả cho thấy phương pháp chưng cất trực tiếp này cải thiện đáng kể khả năng suy luận của các mô hình nhỏ. Các mô hình cơ bản được các tác giả sử dụng bao gồm Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B và Llama-3.3-70B-Instruct. Llama-3.3 được chọn vì khả năng suy luận của nó tốt hơn một chút so với Llama-3.1.

Đối với mô hình chưng cất, tác giả chỉ sử dụng SFT và không bao gồm giai đoạn RL. Mặc dù việc đưa RL vào có thể cải thiện đáng kể hiệu suất của mô hình, nhưng mục đích chính của tác giả ở đây là chứng minh hiệu quả của công nghệ chưng cất, còn việc khám phá giai đoạn RL được để lại cho các nghiên cứu tiếp theo.

PS: Ngoài ra, thực tế có thể sử dụng DeepSeek-R1 cuối cùng để tạo dữ liệu trên và tái tạo 800.000 dữ liệu được sử dụng để chưng cất và mô hình chưng cất có thể có hiệu quả tốt hơn; tuy nhiên, cái giá phải trả là dữ liệu cần phải được tái tạo.

Diễn giải bài báo DeepSeek R1 & các điểm kỹ thuật chính

1 Bối cảnh