Các Mô hình DeepSeek R1 đã trải qua một bản nâng cấp phiên bản nhỏ, với phiên bản hiện tại là DeepSeek-R1-0528. Khi bạn vào trang web hoặc ứng dụng DeepSeek, hãy bật tính năng “Deep Thinking” trong giao diện đối thoại để trải nghiệm phiên bản mới nhất.

Trọng lượng của mô hình DeepSeek-R1-0528 đã được tải lên HuggingFace

Trong bốn tháng qua, DeepSeek-R1 đã trải qua quá trình tiến hóa siêu việt, đạt được khả năng mã hóa vượt trội và thời gian suy nghĩ dài hơn đáng kể. Mặc dù có thể không phải là DeepSeek-R2 Mọi người đều mong đợi, những cải tiến trong model DeepSeek-R1-0528 là đáng kể.

Theo báo cáo, mô hình mới được đào tạo trên DeepSeek-V3-0324 (với tham số 660B).

Trước tiên, chúng ta hãy xem nhanh các bản cập nhật chính trong bản phát hành này thông qua bảng

Kích thước năng lựcdeepseek-R1Tìm kiếm sâu-R1-0528
Bối cảnh tối đa64k(API)128K(API)thậm chí còn nhiều hơn
Tạo mãliveCodeBench đóng openai O1Gần O3
Độ sâu lý luậnNhững câu hỏi phức tạp đòi hỏi phải có lời nhắc phân đoạn.Hỗ trợ 30-60 phút suy nghĩ sâu sắc
Ngôn ngữ tự nhiênkhá dàiCấu trúc nhỏ gọn, viết tương tự như O3
Chi phí sử dụngMã nguồn mở hoặc API$0.5/MMã nguồn mở hoặc API$0.5/M

Khả năng suy nghĩ sâu sắc được nâng cao

DeepSeek-R1-0528 vẫn sử dụng mô hình cơ sở DeepSeek V3 được phát hành vào tháng 12 năm 2024 làm nền tảng, nhưng trong quá trình đào tạo sau, nhiều sức mạnh tính toán hơn đã được đầu tư, nâng cao đáng kể chiều sâu tư duy và khả năng lập luận của mô hình.

Phiên bản R1 cập nhật đã đạt hiệu suất hàng đầu trong số tất cả các phiên bản trong nước trong nhiều đánh giá chuẩn, bao gồm toán học, lập trình và logic chung, và hiệu suất tổng thể của nó hiện ngang bằng với các phiên bản quốc tế hàng đầu khác như o3 và Gemini-2.5-Pro.

  • Khả năng toán học và lập trình: Trong cuộc thi toán học AIME 2025, độ chính xác được cải thiện từ 70% trong phiên bản trước lên 87,5%; khả năng tạo mã trong bài kiểm tra chuẩn LiveCodeBench gần ngang bằng với mô hình o3-high của OpenAI, đạt điểm pass@1 là 73,3%.

Các bài kiểm tra của người dùng cho thấy khả năng lập trình của DeepSeek-R1 mới thực sự đáng kinh ngạc!

Chuyên gia AI “karminski-dentist” đã thử nghiệm DeepSeek-R1-0528 và Claude 4 Sonnet bằng cùng một lời nhắc và phát hiện ra rằng:

Cho dù đó là sự phản chiếu khuếch tán của ánh sáng trên tường, hướng chuyển động của quả bóng sau khi va chạm hay tính thẩm mỹ của bảng điều khiển, R1 rõ ràng vượt trội hơn so với các đối thủ cạnh tranh.

Người dùng Haider. đã yêu cầu mô hình xây dựng một hệ thống chấm điểm từ. R1 đã xem xét sơ qua nhiệm vụ này và ngay lập tức tạo ra hai tệp—một tệp cho mã và một tệp khác để thử nghiệm công việc—chạy hoàn hảo ngay từ lần thử đầu tiên.

Trước đây, o3 là mô hình duy nhất có khả năng hoàn thành nhiệm vụ này. Bây giờ, R1 chắc chắn là mô hình tốt nhất cho nhiệm vụ này.

Lưu ý rằng hiệu suất của R1 rất đáng chú ý vì hai tệp mà nó trả về chạy hoàn hảo ngay lần thử đầu tiên, không cần chỉnh sửa hoặc thử lại, điều này cực kỳ hiếm gặp.

Trước đây, hầu hết các mô hình đều dừng lại ở các trường hợp ngoại lệ, làm cho giải pháp trở nên quá phức tạp hoặc thiếu phạm vi kiểm tra đầy đủ.

  • Độ sâu suy luận: Thời gian suy nghĩ cho một nhiệm vụ được kéo dài đến 30–60 phút, với khả năng giải quyết vấn đề phức tạp được cải thiện đáng kể (ví dụ: mô phỏng vật lý, câu đố logic nhiều bước).

Thời gian suy nghĩ dài hơn đã trở thành tính năng được thảo luận nhiều nhất trên mạng. Một số người dùng báo cáo rằng thời gian suy nghĩ của R1 vượt quá 25 phút trong các bài kiểm tra thực tế.

Ngoài ra, đây có vẻ là mô hình duy nhất có khả năng trả lời chính xác câu hỏi “9,9 trừ 9,11 bằng bao nhiêu?”

DeepSeek-R1-0528 đạt hiệu suất tuyệt vời trên tất cả các tập dữ liệu đánh giá

So với phiên bản trước của R1, mô hình mới cho thấy những cải tiến đáng kể trong các nhiệm vụ suy luận phức tạp. Ví dụ, trong bài kiểm tra AIME 2025, tỷ lệ chính xác của mô hình mới đã tăng từ 70% lên 87,5%.

Sự cải thiện này là do độ sâu lý luận được nâng cao trong mô hình: trên bộ kiểm tra AIME 2025, mô hình cũ sử dụng trung bình 12K mã thông báo cho mỗi câu hỏi, trong khi mô hình mới sử dụng trung bình 23K mã thông báo cho mỗi câu hỏi, cho thấy tư duy chi tiết và sâu sắc hơn trong quá trình giải quyết vấn đề.

Ngoài ra, nhóm deepseek đã chắt lọc chuỗi lý luận từ DeepSeek-R1-0528 và tinh chỉnh cơ sở Qwen3-8B, tạo ra DeepSeek-R1-0528-Qwen3-8B.

Mô hình 8B này chỉ xếp thứ hai sau DeepSeek-R1-0528 trong bài kiểm tra toán AIME 2024, vượt trội hơn Qwen3-8B (+10,0%) và ngang bằng với Qwen3-235B.

Chuỗi suy luận của DeepSeek-R1-0528 sẽ có ý nghĩa quan trọng đối với nghiên cứu học thuật về các mô hình suy luận và phát triển công nghiệp các mô hình quy mô nhỏ.

Một số cư dân mạng khen ngợi DeepSeek-R1 vì có thể sửa các chuỗi lý luận như o3 và xây dựng thế giới một cách sáng tạo như Claude.

Điều quan trọng cần lưu ý là DeepSeek là một mô hình nguồn mở, đánh dấu một chiến thắng lớn cho các mô hình nguồn mở.

Kết quả so sánh AIME 2024 cho các mô hình nguồn mở như DeepSeek-R1-0528-Qwen3-8B

Các bản cập nhật khả năng khác

  • Cải thiện ảo giác: Phiên bản mới của DeepSeek R1 đã tối ưu hóa hiệu suất cho các vấn đề "ảo giác". So với phiên bản trước, mô hình được cập nhật đạt được mức giảm 45–50% về tỷ lệ ảo giác trong các tác vụ như viết lại và đánh bóng, tóm tắt và hiểu đọc, mang lại kết quả chính xác và đáng tin cậy hơn.
  • Viết sáng tạo: Dựa trên phiên bản R1 trước đó, mô hình R1 cập nhật đã được tối ưu hóa hơn nữa cho các phong cách viết tiểu luận, tiểu thuyết và văn xuôi, cho phép tạo ra các tác phẩm dài hơn, hoàn thiện hơn về mặt cấu trúc, đồng thời trình bày phong cách viết phù hợp hơn với sở thích của con người.
  • Gọi công cụ: DeepSeek-R1-0528 hỗ trợ gọi công cụ (gọi công cụ không được hỗ trợ trong suy nghĩ). Điểm đánh giá Tau-Bench của mô hình hiện tại là 53,5% cho hãng hàng không và 63,9% cho bán lẻ, tương đương với OpenAI o1-high, nhưng vẫn tụt hậu so với o3-High và Claude 4 Sonnet.

Ví dụ cho thấy tóm tắt bài viết trên web được tạo bằng khả năng gọi công cụ của DeepSeek-R1-0528 qua LobeChat. Ngoài ra, DeepSeek-R1-0528 đã được cập nhật và cải thiện trong các lĩnh vực như tạo mã front-end và nhập vai.

Ví dụ này cho thấy một ứng dụng thẻ từ hiện đại và tối giản được phát triển bằng HTML/CSS/JavaScript bằng cách gọi DeepSeek-R1-0528 trên một trang web.

Những điểm nổi bật chính của bản cập nhật DeepSeek-R1-0528

  • Khả năng suy luận sâu sắc tương đương với các mô hình của Google
  • Tối ưu hóa việc tạo văn bản: tự nhiên hơn và được định dạng tốt hơn
  • Phong cách lập luận độc đáo: không chỉ nhanh hơn mà còn chặt chẽ hơn
  • Hỗ trợ tư duy dài hạn: thời gian xử lý một tác vụ có thể đạt tới 30–60 phút

Khả năng của phiên bản mới DeepSeek-R1 đã được chúng tôi kiểm tra. Mặc dù đây là bản cập nhật "phiên bản nhỏ", nhưng hiệu suất của nó đã được cải thiện 'đáng kinh ngạc'.

Đặc biệt về khả năng lập trình, có vẻ như nó đã vượt qua hoặc ngang bằng với Claude 4 và Gemini 2.5 Pro. Tất cả các lời nhắc đều là "một lần", không cần sửa đổi! Và nó có thể chạy trực tiếp trong trình duyệt web để chứng minh khả năng của nó.

Bạn có thể cảm nhận rõ ràng rằng quá trình suy nghĩ của phiên bản DeepSeek-R1 mới ổn định hơn.

Bạn có thể hỏi deepseek-R1 bất kỳ câu hỏi nào bạn muốn biết câu trả lời, ngay cả khi câu hỏi của bạn hơi vô nghĩa, nó vẫn sẽ suy nghĩ cẩn thận và sắp xếp logic. Chúng tôi thực sự khuyên bạn nên thử mô hình deepseek-R1 mới nhất.

Thông tin cập nhật API

API đã được cập nhật, nhưng giao diện và phương thức gọi vẫn không thay đổi. API R1 mới vẫn hỗ trợ xem quy trình suy nghĩ của mô hình và hiện cũng hỗ trợ Gọi hàm và JsonOutput.

Nhóm deepseek đã điều chỉnh ý nghĩa của tham số max_tokens trong API R1 mới: max_tokens hiện giới hạn tổng độ dài của đầu ra đơn lẻ của mô hình (bao gồm cả quá trình suy nghĩ), với giá trị mặc định là 32K và tối đa là 64K. Người dùng API được khuyên nên điều chỉnh tham số max_tokens ngay lập tức để tránh đầu ra bị cắt ngắn trước thời hạn.

Để biết hướng dẫn chi tiết về cách sử dụng mô hình R1, vui lòng tham khảo Hướng dẫn API deepseek R1:

Sau bản cập nhật R1 này, độ dài ngữ cảnh mô hình trên trang web chính thức, chương trình nhỏ, ứng dụng và API sẽ vẫn là 64K. Nếu người dùng yêu cầu độ dài ngữ cảnh dài hơn, họ có thể gọi phiên bản mã nguồn mở của mô hình R1-0528 với độ dài ngữ cảnh là 128K thông qua các nền tảng của bên thứ ba khác.

Nguồn mở

DeepSeek-R1-0528 sử dụng cùng một mô hình cơ sở như DeepSeek-R1 trước đó, chỉ có cải tiến về phương pháp sau đào tạo.

Khi triển khai riêng tư, chỉ cần cập nhật checkpoint và tokenizer_config.json (thay đổi liên quan đến lệnh gọi công cụ). Các tham số mô hình là 685B (trong đó 14B dành cho lớp MTP) và phiên bản nguồn mở có độ dài ngữ cảnh là 128K (độ dài ngữ cảnh 64K được cung cấp cho web, ứng dụng và API).

Bài viết tương tự

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *