Bí mật đằng sau DeepSeek 1 | DeepSeekMath và chi tiết GRPO

Hôm nay tôi muốn chia sẻ một bài viết từ DeepSeek, có tựa đề DeepSeekMath: Đẩy mạnh giới hạn của lý luận toán học trong mô hình ngôn ngữ mở.

Bài viết này giới thiệu DeepSeekMath 7B, được đào tạo trước trên DeepSeek-Coder-Base-v1.5 7B dựa trên bộ sưu tập 120 tỷ mã thông báo liên quan đến toán học, ngôn ngữ tự nhiên và dữ liệu mã.

Mô hình đạt được số điểm đáng kinh ngạc là 51,7% trong các chuẩn MATH cấp độ cạnh tranh mà không cần dựa vào bộ công cụ bên ngoài và các kỹ thuật bỏ phiếu, gần bằng mức hiệu suất của Gemini-Ultra và GPT-4.

Khả năng suy luận toán học của DeepSeekMath 7B được quy cho hai yếu tố chính: Đầu tiên, thông qua đường ống lựa chọn dữ liệu được thiết kế cẩn thận, dữ liệu toán học chất lượng cao được khai thác liên tục từ dữ liệu web có sẵn công khai.

Thứ hai, tối ưu hóa chính sách tương đối nhóm (GRPO) là được giới thiệu, đây là một biến thể của tối ưu hóa chính sách gần đúng (PPO) có thể tăng cường khả năng suy luận toán học đồng thời tối ưu hóa việc sử dụng bộ nhớ của PPO.

Các tính năng của phương pháp được tóm tắt như sau:Một kho dữ liệu tiền đào tạo toán học chất lượng cao đã được xây dựng và một đường ống được thiết kế cẩn thận đã được sử dụng để khai thác dữ liệu toán học chất lượng cao từ Common Crawl.
Thuật toán GRPO đã được đề xuất, giúp giảm bớt các nguồn lực cần thiết cho việc đào tạo và cải thiện khả năng suy luận toán học của mô hình. 3) Hiệu suất hiện đại đã từng là đạt được trong nhiều bài kiểm tra chuẩn lý luận toán học.

Mục lục

Tổng quan

Tiêu đề: DeepSeekMath: Đẩy mạnh giới hạn của lý luận toán học trong các mô hình ngôn ngữ mở

Địa chỉ URL: nhấp vào đây

Tác giả: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y. Wu, Daya Guo

Mã số: nhấp vào đây

Động lực

Lý luận toán học đặt ra một thách thức đáng kể đối với các mô hình ngôn ngữ do tính phức tạp và bản chất có cấu trúc của toán học. Các mô hình tiên tiến nhất, chẳng hạn như GPT-4 và Gemini-Ultra, rất mạnh mẽ nhưng không được công khai. Do đó, có nhiều chỗ để cải thiện hiệu suất của mô hình nguồn mở.

Độ phức tạp và cấu trúc: Suy luận toán học đặt ra thách thức đáng kể đối với các mô hình ngôn ngữ do tính phức tạp và bản chất có cấu trúc của toán học.

Tiềm năng của dữ liệu công khai: Dữ liệu web công khai có thể chứa nhiều thông tin toán học chưa được khai thác và sử dụng.

Phương pháp

Thu thập dữ liệu: Kho dữ liệu DeepSeekMath gồm 120 tỷ mã thông báo đã được xây dựng bằng cách thu thập dữ liệu web liên quan đến toán học chất lượng cao từ Common Crawl thông qua một đường ống lặp lại.

Đào tạo người mẫu: Ngữ liệu được sử dụng để đào tạo trước trên DeepSeek-Coder-Base-v1.5 7B và thuật toán điều chỉnh hướng dẫn toán học và tối ưu hóa chính sách tương đối nhóm (GRPO) được áp dụng.

Thuật toán GRPO: GRPO là thuật toán học tăng cường cải tiến loại bỏ mô hình Critic trong PPO và ước tính giá trị cơ sở từ điểm số của nhóm, do đó giảm đáng kể tài nguyên đào tạo.

Phương pháp và quy trình chi tiết:

Thu thập và xử lý dữ liệu:

Xây dựng Corpus DeepSeekMath: Sử dụng trình phân loại dựa trên fastText, trích xuất 120B mã thông báo liên quan đến toán học từ Common Crawl để xây dựng một kho dữ liệu được đào tạo trước chất lượng cao, quy mô lớn, DeepSeekMath Corpus.

Lọc dữ liệu lặp lại: Một chiến lược lặp đi lặp lại được sử dụng, sử dụng OpenWebMath làm dữ liệu hạt giống để đào tạo bộ phân loại ban đầu, sau đó sử dụng bộ phân loại này để khai thác nhiều ví dụ tích cực hơn từ Common Crawl, được chú thích thủ công để liên tục tối ưu hóa hiệu suất phân loại.

Tính năng đa ngôn ngữ: DeepSeekMath Corpus chứa dữ liệu đa ngôn ngữ, giúp cải thiện hiệu suất của mô hình theo chuẩn toán học của Trung Quốc.

Xử lý khử ô nhiễm: De-xử lý ô nhiễm được thực hiện trên dữ liệu đào tạo để tránh chồng chéo với chuẩn mực kiểm tra.

Đào tạo trước:

Khởi tạo mô hình dựa trên mã: Khởi tạo sử dụng DeepSeek-Coder-Base-v1.5 7B mô hình được cho là hiệu quả hơn so với khởi tạo từ LLM chung.

Thành phần dữ liệu tiền đào tạo: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% Mã Github, 10% Dữ liệu ngôn ngữ tự nhiên Common Crawl.

Các thông số tiền đào tạo: Trình tối ưu hóa AdamW được sử dụng, với tốc độ học là 4,2e-4, quy mô lô là 10 triệu mã thông báo và đào tạo 500 tỷ mã thông báo.

Hướng dẫn tinh chỉnh:

Xây dựng một tập dữ liệu điều chỉnh hướng dẫn: Xây dựng một tập dữ liệu tinh chỉnh hướng dẫn toán học có chứa 776K mẫu, bao gồm nhiều lĩnh vực toán học và mức độ khó khác nhau, bao gồm CoT, PoT và các định dạng suy luận tích hợp công cụ để giải các bước.

Các thông số đào tạo: Kích thước lô 256, tốc độ học 5e-5, đào tạo trong 500 bước.

Học tăng cường – Tối ưu hóa chính sách tương đối nhóm (GRPO):

Đề xuất thuật toán GRPO: Đề xuất một Thuật toán biến thể PPO GRPO, tránh nhu cầu về mô hình Critic bằng cách sử dụng điểm số theo nhóm để ước tính đường cơ sở, do đó giảm tài nguyên đào tạo.

Hàm mục tiêu: GRPO tối ưu hóa mô hình chính sách bằng cách tối đa hóa hàm mục tiêu tính đến lợi thế tương đối của các đầu ra trong nhóm và trực tiếp thêm độ phân kỳ KL như một thuật ngữ chính quy hóa.

Tính toán lợi thế: GRPO tính toán lợi thế thông qua phần thưởng tương đối trong nhóm, tránh so sánh giữa các nhóm và phù hợp hơn với bản chất so sánh của mô hình phần thưởng.

Hỗ trợ cả giám sát kết quả và quá trình: GRPO có thể hỗ trợ cả giám sát kết quả và quá trình, và giám sát chính sách hiệu quả hơn bằng cách cung cấp phần thưởng vào cuối mỗi bước suy luận.

RL lặp lại: Sử dụng một chiến lược RL lặp đi lặp lại để tạo ra một bộ huấn luyện mới dựa trên kết quả lấy mẫu của mô hình chính sách, liên tục huấn luyện mô hình phần thưởng cũ và sử dụng mô hình phần thưởng mới để cập nhật mô hình chính sách.

Dữ liệu đào tạo: Sử dụng các bài toán định dạng CoT liên quan đến GSM8K và MATH trong dữ liệu SFT, khoảng 144K bài toán.

Các thông số đào tạo: Tốc độ học của mô hình chính sách là 1e-6, hệ số KL là 0,04, 64 đầu ra được lấy mẫu cho mỗi vấn đề, độ dài tối đa là 1024 và quy mô lô đào tạo là 1024.

Phần kết luận

Kết luận 1:DeepSeekMath 7B vượt trội hơn tất cả các mô hình nguồn mở về khả năng suy luận toán học. Trong bài kiểm tra chuẩn MATH cạnh tranh, DeepSeekMath 7B đạt độ chính xác là 51,7%, gần với mức hiệu suất của Gemini-Ultra và GPT-4.

Kết luận 2:Dữ liệu đào tạo trước được thiết kế tốt và thuật toán GRPO là chìa khóa thành công của mô hình. Sự kết hợp giữa ngữ liệu toán học chất lượng cao và thuật toán GRPO cho phép mô hình đạt được hiệu suất tăng đáng kể trong các tác vụ suy luận toán học.

Kết luận 3:Đào tạo lập trình giúp cải thiện khả năng suy luận toán học. Việc thêm dữ liệu mã vào giai đoạn tiền đào tạo có thể cải thiện khả năng giải quyết các vấn đề toán học của mô hình, cả khi có và không có công cụ.

Kết luận 4: Tính hữu ích hạn chế của dữ liệu arXiv: Trái ngược với quan niệm trước đây, dữ liệu arXiv được phát hiện có tác dụng hạn chế trong việc cải thiện khả năng lập luận toán học.

Giới hạn

Khả năng hình học và chứng minh tương đối yếu: Mặc dù DeepSeekMath vượt trội về mặt lý luận định lượng, khả năng về hình học và chứng minh của nó vẫn kém hơn các mô hình nguồn đóng. Điều này có thể là do lựa chọn dữ liệu thiên vị trong giai đoạn tiền đào tạo và tinh chỉnh.

Điểm yếu về khả năng lấy mẫu nhỏ: DeepSeekMath kém hơn GPT-4 về khả năng học mẫu nhỏ, điều này có thể là do hạn chế về quy mô mô hình.

Cần có những phương pháp học tăng cường hiệu quả hơn: Mặc dù các phương pháp học tăng cường được đề xuất trong bài báo có hiệu quả, vẫn còn chỗ để cải thiện, ví dụ, cách sử dụng hiệu quả hơn phản hồi từ mô hình phần thưởng và cách xử lý các tín hiệu phần thưởng nhiễu.

Chi tiết

Khám phá và phân tích học tăng cường

Tổng quan:

Giới thiệu về Tối ưu hóa chính sách tương đối nhóm (GRPO): Bài báo đề xuất một thuật toán học tăng cường mới, GRPO, như một biến thể của Proximal Policy Optimization (PPO). Tính năng chính của GRPO là nó từ bỏ mô hình Critic thường được sử dụng trong PPO và ước tính đường cơ sở thông qua điểm số nhóm, do đó giảm đáng kể tài nguyên tính toán cần thiết cho quá trình đào tạo.

Trình diễn hiệu quả của GRPO: Bài báo chứng minh bằng thực nghiệm rằng GRPO có thể cải thiện hiệu quả hiệu suất của các mô hình điều chỉnh lệnh, bao gồm cả các tác vụ toán học trong miền và ngoài miền.

Khung thống nhất cho các phương pháp học tăng cường: Bài báo đề xuất một khuôn khổ thống nhất để hiểu các phương pháp học tăng cường khác nhau, chẳng hạn như Tinh chỉnh lấy mẫu từ chối (RFT), Tối ưu hóa sở thích trực tiếp (DPO), PPO và GRPOKhung này coi những phương pháp này là kỹ thuật học tăng cường trực tiếp hoặc đơn giản hóa.

Khám phá sâu hơn các yếu tố của học tăng cường: Bài báo khám phá sâu sắc các yếu tố chính của học tăng cường, chẳng hạn như đào tạo trực tuyến và đào tạo ngoại tuyến, giám sát kết quả và giám sát quy trình, học tăng cường một vòng và học tăng cường lặp đi lặp lại, thông qua các thí nghiệm chi tiết và tóm tắt các hướng tiềm năng để cải thiện hiệu quả của việc học tăng cường.

Thuật toán GRPO (Tối ưu hóa chính sách tương đối nhóm)

Những hạn chế của PPO: PPO là một thuật toán học tăng cường được sử dụng phổ biến, nhưng nó đòi hỏi phải đào tạo một Mô hình phê bình bổ sung để ước tính hàm giá trị, áp đặt một gánh nặng tính toán và bộ nhớ bổ sung. Ngoài ra, trong kịch bản LLM, Đào tạo mô hình phê bình có thể phức tạp vì nó đòi hỏi phải đánh giá đầu ra của mỗi mã thông báo.

Ý tưởng cốt lõi của GRPO: Ý tưởng cốt lõi của GRPO là từ bỏ mô hình Critic và thay vào đó sử dụng điểm trung bình của một tập hợp các đầu ra cho cùng một vấn đề làm đường cơ sở. Đường cơ sở này có thể được sử dụng để ước tính hàm lợi thế và để tối ưu hóa chính sách. Cách tiếp cận này làm giảm đáng kể độ phức tạp của quá trình đào tạo.

Tính toán hàm lợi thế: GRPO tính toán hàm lợi thế bằng tính toán thứ hạng tương đối của từng đầu ra trong cùng một tập hợp đầu ra, thay vì dựa vào một hàm giá trị riêng biệt như trong PPO.

Hình phạt phân kỳ KL: GRPO không thêm hình phạt phân kỳ KL vào phần thưởng như PPO, mà thay vào đó thêm phân kỳ KL giữa mô hình chính sách và mô hình tham chiếu trực tiếp vào hàm mất mát. Điều này tránh được tính toán hàm lợi thế phức tạp.

Ý tưởng cốt lõi của GRPO

không yêu cầu một Critic (hàm giá trị): GRPO tránh nhu cầu về một hàm giá trị và sử dụng điểm số trong nhóm để ước tính đường cơ sở, do đó làm giảm nguồn lực đào tạo.

Lợi thế tương đối trong nhóm: Đối với mỗi vấn đề q, GRPO lấy mẫu một tập hợp các đầu ra {o(1), o(2), …, o(G)} từ chính sách cũ π(θold) rồi tối ưu hóa mô hình chính sách bằng cách tối đa hóa phương trình sau làm hàm mục tiêu.

Cụ thể:

Chìa khóa ở đây là Â(i,t), biểu thị lợi thế và được tính toán bởi phần thưởng tương đối của sản lượng nội nhóm, thay vì dựa vào hàm giá trị riêng biệt như trong PPO.

Hàm mục tiêu cũng trực tiếp thêm Sự phân kỳ KL như một thuật ngữ chính quy để kiểm soát độ lớn của cập nhật chính sách

và phù hợp với bản chất so sánh của mô hình phần thưởng: GRPO sử dụng phần thưởng nội nhóm tương đối để tính toán lợi thế, phù hợp hơn với bản chất của mô hình phần thưởng, thường được đào tạo dựa trên so sánh từng cặp.

Mô hình phần thưởng của GRPO có thể được thiết kế như thế nào (tham khảo DeepSeek R1)?

Đặc trưng:

định dạng phần thưởng: buộc phải tạo ra thế hệ dài cũi kết quả có thể thúc đẩy mô hình tạo ra các quá trình suy luận và cải thiện hiệu quả suy luận của mô hình.

phần thưởng cho độ chính xác: toán học có thể sử dụng kết quả cuối cùng và mã có thể sử dụng phản hồi của trình biên dịch.

Ưu điểm của GRPO

Ít chiếm dụng bộ nhớ hơn: không cần mô hình Critic, giảm yêu cầu về bộ nhớ.

Đào tạo hiệu quả hơn: tính toán sử dụng lợi thế tương đối trong nhóm giúp đơn giản hóa quá trình đào tạo.

Phù hợp hơn với bản chất của mô hình phần thưởng: cải thiện tính ổn định và hiệu quả của việc đào tạo.

Tóm tắt mô hình thống nhất RL

Đề xuất mô hình thống nhất

Các tác giả đề xuất một mô hình thống nhất để hiểu các phương pháp đào tạo khác nhau như SFT (Điều chỉnh có giám sát), RFT (Điều chỉnh lấy mẫu từ chối), DPO (Tối ưu hóa sở thích trực tiếp), PPO, GRPO, v.v. Các yếu tố chính của RL: Các yếu tố chính của khuôn khổ thống nhất bao gồm: nguồn dữ liệu, hàm thưởng và thuật toán.

Nguồn dữ liệu: Điều này đề cập đến dữ liệu được sử dụng để đào tạo, có thể được lấy từ nhãn thủ công, mô hình SFT hoặc mô hình chính sách thời gian thực.
Chức năng phần thưởng: Đây là chức năng được sử dụng để đánh giá chất lượng đầu ra, có thể là quy tắc hoặc mô hình.
Thuật toán: Điều này đề cập đến phương pháp được sử dụng để xử lý dữ liệu và tín hiệu phần thưởng và cập nhật các tham số mô hình.

Phân tích các phương pháp khác nhau dựa trên một mô hình thống nhất

Bảng 10 tóm tắt những điểm giống và khác nhau giữa SFT, RFT, DPO, RFT trực tuyến, PPO và GRPO về mặt nguồn dữ liệu, hàm phần thưởng và hệ số gradient.

Phương pháp	Dữ liệu đào tạo	Chức năng thưởng	Hệ số građien	Phương pháp đào tạo	Ưu điểm/tính năng	Các tình huống áp dụng
SFT	Dữ liệu SFT được gắn nhãn thủ công	Được chọn thủ công (phần thưởng ngầm định)	Đã sửa thành 1	Học có giám sát	Đơn giản và ổn định, phụ thuộc vào dữ liệu được gắn nhãn chất lượng cao	Đào tạo mô hình cơ bản, nhiệm vụ căn chỉnh ban đầu
RFT	Vấn đề tập dữ liệu SFT + Mẫu đầu ra của mô hình SFT	Dựa trên tính đúng đắn của câu trả lời (phán đoán luật)	0 (sai) hoặc 1 (đúng)	Tối ưu hóa chính sách ngoại tuyến	Tính toán hiệu quả, sử dụng trực tiếp phản hồi quy tắc	Nhiệm vụ toán học/logic có quy tắc rõ ràng
DPO	Vấn đề tập dữ liệu SFT + mô hình đầu ra cho	Nhãn sở thích của con người hoặc so sánh quy tắc	Dựa trên tính toán xác suất ưu tiên (ví dụ, mô hình Bradley-Terry)	Học so sánh	Tránh mô hình phần thưởng rõ ràng, tối ưu hóa trực tiếp sở thích	Nhiệm vụ căn chỉnh sở thích của con người (ví dụ: tạo hội thoại)
RFT trực tuyến	Lấy mẫu mô hình chính sách thời gian thực cặp vấn đề-đầu ra	Dựa trên tính đúng đắn của câu trả lời (phán đoán luật)	0 (sai) hoặc 1 (đúng)	Tối ưu hóa chính sách trực tuyến	Cập nhật chính sách một cách năng động với khả năng tối ưu hóa phản hồi theo thời gian thực	Các tình huống yêu cầu tương tác trực tuyến (ví dụ: AI trò chơi)
PPO	Vấn đề tập dữ liệu SFT + đầu ra mẫu mô hình chính sách	Mô hình phần thưởng (RM) được đào tạo	Chức năng thống trị (dựa trên ước tính phần thưởng)	Phương pháp chính sách gradient	Hiệu quả và ổn định, hỗ trợ tối ưu hóa nhiều bước	Nhiệm vụ phức tạp (ví dụ tạo văn bản, điều khiển robot)
GRPO	Vấn đề tập dữ liệu SFT + đầu ra mẫu mô hình chính sách	Mô hình phần thưởng (RM) được đào tạo	Phần thưởng tương đối trong nhóm (so sánh chuẩn hóa)	Tối ưu hóa chính sách nhóm	Giảm sự khác biệt về phần thưởng và cải thiện sự so sánh trong nhóm	Các nhiệm vụ có độ biến thiên cao (ví dụ tạo văn bản dài)

Quan sát về nguồn dữ liệu

Đào tạo trực tuyến và ngoại tuyến: Đào tạo trực tuyến đề cập đến việc sử dụng đầu ra của mô hình chính sách thời gian thực làm dữ liệu đào tạo, trong khi đào tạo ngoại tuyến đề cập đến việc sử dụng đầu ra của mô hình cố định (như mô hình SFT) làm dữ liệu đào tạo. Kết quả thử nghiệm cho thấy rằng đào tạo trực tuyến thường tốt hơn đào tạo ngoại tuyến.

Giám sát kết quả so với giám sát quy trình: Giám sát kết quả chỉ đề cập đến việc thưởng cho bước cuối cùng của đầu ra, trong khi giám sát quy trình đề cập đến việc thưởng cho từng bước của quy trình lý luận. Kết quả thực nghiệm cho thấy rằng giám sát quy trình hiệu quả hơn trong các nhiệm vụ phức tạp.

Học tăng cường theo từng tập so với học tăng cường theo từng lần lặp lại: Học tăng cường từng tập đề cập đến tối ưu hóa một chiến lược duy nhất, trong khi học tăng cường lặp lại đề cập đến việc cập nhật liên tục mô hình phần thưởng sau nhiều lần tối ưu hóa chiến lược. Kết quả thử nghiệm cho thấy rằng học tăng cường lặp đi lặp lại có thể cải thiện đáng kể hiệu suất, đặc biệt là trong lần lặp đầu tiên.

Quan sát hệ số gradient

Dựa trên quy tắc so với dựa trên mô hình: Quy tắc đề cập đến việc xác định phần thưởng dựa trên tính đúng đắn của câu trả lời, còn Mô hình đề cập đến việc đào tạo mô hình phần thưởng để chấm điểm.

Sự khác biệt trong hệ số gradient: Sự khác biệt chính giữa GRPO và RFT trực tuyến là GRPO điều chỉnh hệ số gradient dựa trên các giá trị phần thưởng do mô hình phần thưởng cung cấp, trong khi RFT trực tuyến thì không.

Ưu điểm của GRPO: Các thí nghiệm cho thấy rằng GRPO vượt trội hơn RFT trực tuyến, chứng minh hiệu quả của việc thay đổi dấu của các hệ số gradient. GRPO+PS vượt trội hơn GRPO+OS, chứng minh lợi ích của việc sử dụng các hệ số gradient có nhận thức từng bước, chi tiết.

Hiệu quả RL và hướng cải thiện

Tại sao RL lại hiệu quả?

Kết quả thực nghiệm: RL cải thiện hiệu suất Maj@K nhưng không cải thiện hiệu suất Pass@K.

Giải thích: RL cải thiện hiệu suất tổng thể của mô hình bằng cách làm cho phân phối đầu ra mạnh mẽ hơn, nghĩa là nó cải thiện xác suất trả lời đúng trong TopK, thay vì tăng cường khả năng cơ bản của mô hình.

Làm thế nào để đạt được RL hiệu quả hơn?

Dựa trên mô hình thống nhất, các tác giả đề xuất các hướng đi trong tương lai để cải thiện RL theo ba khía cạnh: nguồn dữ liệu, thuật toán và chức năng thưởng.

Nguồn dữ liệu:
- Khám phá các vấn đề vượt ra ngoài giai đoạn SFT.
- Sử dụng các chiến lược lấy mẫu (giải mã) tiên tiến hơn, chẳng hạn như các phương pháp dựa trên tìm kiếm cây.
- Sử dụng các kỹ thuật suy luận hiệu quả để cải thiện hiệu quả khám phá của mô hình chính sách.
Thuật toán:
- Khám phá các thuật toán học tăng cường có khả năng chống lại các tín hiệu phần thưởng nhiễu.
- Nghiên cứu các phương pháp căn chỉnh loại YẾU-ĐẾN-MẠNH.
Chức năng phần thưởng:
- Nâng cao khả năng tổng quát của mô hình phần thưởng để xử lý các vấn đề ngoài phân phối và đầu ra giải mã nâng cao.
- Phản ánh sự không chắc chắn của mô hình phần thưởng và sử dụng nó như một cầu nối để kết nối các mô hình phần thưởng yếu và các thuật toán học tập YẾU ĐẾN MẠNH.
- Xây dựng hiệu quả các mô hình phần thưởng quy trình chất lượng cao để cung cấp tín hiệu đào tạo chi tiết cho quá trình suy luận.

Bản tóm tắt

DeepSeekMath đã cải thiện đáng kể khả năng của các mô hình ngôn ngữ nguồn mở trong suy luận toán học bằng cách xây dựng một ngữ liệu toán học quy mô lớn và đề xuất một thuật toán học tăng cường mới. Những điểm nổi bật của bài báo này là

việc xây dựng và xác thực DeepSeekMath Corpus, một kho dữ liệu toán học đa ngôn ngữ, chất lượng cao và quy mô lớn.
Một thuật toán học tăng cường hiệu quả, GRPO, được đề xuất để giảm việc sử dụng bộ nhớ đồng thời cải thiện khả năng suy luận toán học của mô hình.
Tác động của việc đào tạo mã đối với khả năng suy luận toán học được thảo luận sâu sắc và thấy rằng dữ liệu arXiv có tác động hạn chế. Giá trị của DeepSeekMath:
Nó cung cấp cho cộng đồng nguồn mở một mô hình lý luận toán học mạnh mẽ và thúc đẩy sự phát triển của AI toán học.
Nó cung cấp kinh nghiệm và phương pháp có giá trị để xây dựng tập hợp toán học và đào tạo các mô hình lý luận toán học.
Thuật toán GRPO được đề xuất cung cấp những ý tưởng mới cho việc đào tạo học tăng cường trong các lĩnh vực khác.

Bí mật đằng sau DeepSeek 1 | DeepSeekMath và chi tiết GRPO