Mô hình suy luận 32B chỉ sử dụng 1/8 dữ liệu và được liên kết với DeepSeek-R1 có cùng kích thước!
Ngay bây giờ, các tổ chức như Stanford, UC Berkeley và Đại học Washington đã cùng nhau phát hành một mô hình suy luận cấp SOTA, OpenThinker-32Bvà cũng đã mở nguồn tới 114k dữ liệu đào tạo.

Trang chủ của Dự án OpenThinker:
Khám phá nhóm: Sử dụng tập dữ liệu chất lượng cao quy mô lớn với chú thích đã được xác minh DeepSeek-R1 (dựa trên chưng cất R1), có thể đào tạo mô hình suy luận SOTA.
Phương pháp cụ thể là mở rộng dữ liệu, xác minh quá trình suy luận và mở rộng mô hình.
OpenThinker-32B thu được có hiệu suất vượt trội hơn các mô hình s1 và s1.1 của Li Fei-Fei trong nhiều bài kiểm tra chuẩn về toán học, mã hóa và khoa học, và gần bằng R1-Distill-32B.
Điều đáng nói là so với R1-Distill-32B, sử dụng 800k dữ liệu (bao gồm 600k mẫu suy luận), OpenThinker-32B chỉ sử dụng 114k dữ liệu để đạt được kết quả tuyệt vời gần như tương tự.

Ngoài ra, OpenThinker-32 còn công khai toàn bộ trọng số mô hình, tập dữ liệu, mã tạo dữ liệu và mã đào tạo!

Quản lý dữ liệu
Các nhà nghiên cứu đã đào tạo OpenThinker-32B bằng cách sử dụng cùng tập dữ liệu OpenThoughts-114k như họ đã đào tạo OpenThinker-7B trước đó.
Họ đã sử dụng mô hình DeepSeek-R1 để thu thập các quá trình lý luận và các nỗ lực trả lời cho một bộ 173.000 câu hỏi được lựa chọn cẩn thận. Dữ liệu thô này sau đó được công bố dưới dạng tập dữ liệu OpenThoughts-Unverified-173k.
Bước cuối cùng trong quy trình là lọc ra các mẫu dữ liệu tương ứng nếu quá trình suy luận không vượt qua được bước xác minh.
Hình sau đây hiển thị trực quan toàn bộ quá trình.
Đầu tiên, nhóm nghiên cứu nhập dữ liệu nguồn hoặc câu hỏi gợi ý, có thể đến từ nhiều lĩnh vực và nền tảng khác nhau, chẳng hạn như BAAI/TACO, DeepMind, bài nộp Python, v.v., bao gồm nhiều khía cạnh khác nhau như mã, câu đố, khoa học và toán học.
Những đầu vào đa dạng này sau đó được chuyển đến mô-đun xử lý cốt lõi, DeepSeek-R1, nơi dữ liệu được phân tích và xử lý. Các câu hỏi được chia thành ba loại: câu hỏi khoa học, toán học và câu đố, và mã.
Một số kết quả không yêu cầu xác minh và có thể là các phân tích đơn giản hoặc đầu ra trực tiếp. Đối với một số nội dung yêu cầu xác minh chuyên sâu, mô hình ngôn ngữ lớn (LLM) được sử dụng để đánh giá theo cách tương đương với GT (Ground Truth). Nếu đó là mã, mã sẽ được thực thi và các bài kiểm tra đơn vị sẽ được thực hiện để đảm bảo tính chính xác và hiệu quả của mã.
Cuối cùng, kết quả từ nhiều hướng khác nhau có thể được kết hợp để tạo ra tư duy cởi mở và các giải pháp toàn diện hơn.

Nhóm nghiên cứu đã cập nhật tập dữ liệu OpenThoughts-114k cuối cùng bằng cấu hình có tên là “siêu dữ liệu” chứa một số cột bổ sung được sử dụng để xây dựng tập dữ liệu:
- vấn đề
- giải pháp thực tế
- test_cases (chỉ mã)
- starter_code (chỉ mã)
- DeepSeek_lý luận
- DeepSeek_giải pháp
- lãnh địa
- nguồn
Các siêu dữ liệu bổ sung này sẽ giúp việc sử dụng tập dữ liệu này trong các tình huống mới trở nên dễ dàng hơn, chẳng hạn như lọc dữ liệu, chuyển đổi miền, kiểm tra xác minh và thay đổi mẫu quy trình suy luận.
Những siêu dữ liệu bổ sung này sẽ giúp việc sử dụng tập dữ liệu này dễ dàng hơn và có thể thực hiện chỉ bằng một dòng mã, chẳng hạn như lọc, thay đổi tên miền, kiểm tra xác minh và thay đổi mẫu theo dõi suy luận.
load_dataset("open-thoughts/OpenThoughts-114k", "siêu dữ liệu", split="train")
Nhóm nghiên cứu cho biết họ mong muốn thấy cộng đồng tận dụng những câu hỏi và câu trả lời chuẩn này cho nghiên cứu về học tăng cường (RL) trên mô hình OpenThinker. DeepScaleR đã chứng minh rằng cách tiếp cận này hoạt động đặc biệt tốt ở quy mô nhỏ hơn.
Xác minh
Để đưa ra bộ dữ liệu OpenThoughts-114k cuối cùng, nhóm nghiên cứu đã xác minh các câu trả lời và loại bỏ những câu trả lời không chính xác.
Như thể hiện trong bảng dưới đây, việc giữ lại các suy luận không vượt qua xác minh có thể gây ảnh hưởng đến hiệu suất, mặc dù mô hình chưa được xác minh vẫn hoạt động tốt so với 32 mô hình suy luận khác.
Vai trò của việc xác minh là duy trì chất lượng của chú thích R1 trong khi mở rộng tính đa dạng và kích thước của bộ nhắc nhở đào tạo. Mặt khác, dữ liệu chưa được xác minh có thể được mở rộng dễ dàng hơn và do đó cũng đáng để khám phá thêm.

Đối với các vấn đề về mã, chúng tôi hoàn tất quá trình xác minh suy luận bằng cách xác minh các nỗ lực trả lời với các trường hợp kiểm tra hiện có.
Lấy cảm hứng từ những thách thức gặp phải trong quá trình thực thi mã, chúng tôi đã triển khai một khuôn khổ thực thi mã trong Curator cho phép người dùng thực thi mã ở quy mô lớn, an toàn và xác minh mã đó với kết quả mong đợi.
Đối với các bài toán, nhóm nghiên cứu đã sử dụng một giám khảo LLM (Mô hình ngôn ngữ lớn) để xác minh, nhận được cả câu trả lời chuẩn và nỗ lực giải quyết DeepSeek-R1.
Người ta nhận thấy rằng việc sử dụng trình đánh giá LLM để tạo dữ liệu thay vì công cụ phân tích cú pháp nghiêm ngặt hơn (Math-Verify) mang lại tốc độ dữ liệu hiệu quả cao hơn và cho phép đào tạo các mô hình hạ lưu với hiệu suất tốt hơn.

Đào tạo
Nhóm nghiên cứu đã sử dụng LLaMa-Factory để tinh chỉnh Qwen2.5-32B-Instruct ba lần trên tập dữ liệu OpenThoughts-114k với độ dài ngữ cảnh là 16k. Cấu hình đào tạo đầy đủ có thể được tìm thấy trên GitHub.
OpenThinker-32B đã được đào tạo trong 90 giờ bằng cách sử dụng bốn nút P5 8xH100 trên cụm AWS SageMaker, tổng cộng là 2.880 giờ H100.
Trong khi đó, OpenThinker-32B-Unverified đã được đào tạo trong 30 giờ trên siêu máy tính Leonardo bằng cách sử dụng 96 nút 4xA100 (64GB cho mỗi GPU), tích lũy được 11.520 giờ A100.
Sự đánh giá
Nhóm nghiên cứu đã sử dụng thư viện đánh giá nguồn mở Evalchemy để đánh giá tất cả các mô hình.
Đối với AIME24 và AIME25, họ đã tính toán độ chính xác bằng cách lấy trung bình kết quả của năm lần chạy. Cấu hình đánh giá sử dụng tham số nhiệt độ là 0,7, giới hạn phản hồi của mô hình ở 32.768 mã thông báo, không thêm bất kỳ từ nhắc nhở nào của hệ thống hoặc người dùng và không sử dụng bất kỳ chiến lược giải mã đặc biệt nào (chẳng hạn như ép buộc ngân sách).
Khi dự án OpenThoughts được ra mắt, họ đặt mục tiêu tạo ra một mô hình dữ liệu mở có hiệu suất có thể sánh ngang với DeepSeek-R1-Distill-Qwen-32B.
Bây giờ khoảng cách đó gần như đã được xóa bỏ.
Cuối cùng, nhóm nghiên cứu rất phấn khởi trước tiến độ nhanh chóng mà cộng đồng đã đạt được trong việc xây dựng các mô hình suy luận dữ liệu mở trong vài tuần qua và mong muốn tiếp tục tiến lên dựa trên hiểu biết của mỗi người.
Bản phát hành mã nguồn mở OpenThinker-32B chứng minh rằng sự phối hợp giữa dữ liệu, xác thực và quy mô mô hình là chìa khóa để cải thiện khả năng suy luận.
Kết quả này không chỉ thúc đẩy sự phát triển của các mô hình suy luận nguồn mở mà còn cung cấp nguồn tài nguyên và nguồn cảm hứng có giá trị cho toàn bộ cộng đồng AI.