Tin tức mới nhất! Nhà nghiên cứu DeepSeek tiết lộ trực tuyến: Việc đào tạo R1 chỉ mất hai đến ba tuần và sự tiến hóa mạnh mẽ của R1 zero đã được quan sát thấy trong kỳ nghỉ Tết Nguyên đán của Trung Quốc
Vừa rồi, chúng tôi nhận thấy rằng nhà nghiên cứu DeepSeek Đại Á Quách trả lời các câu hỏi của cư dân mạng về DeepSeek R1 và các kế hoạch sắp tới của công ty. Chúng tôi chỉ có thể nói rằng DeepSeek R1 chỉ là sự khởi đầu và nghiên cứu nội bộ vẫn đang tiến triển nhanh chóng. Các nhà nghiên cứu của DeepSeek thậm chí không nghỉ ngơi trong kỳ nghỉ Tết Nguyên đán và họ đã làm việc không biết mệt mỏi để thúc đẩy nghiên cứu. DeepSeek có một số động thái lớn sắp tới
Vấn đề là: Vào ngày 1 tháng 2, Daya Guo đã đăng một dòng tweet tiết lộ điều khiến anh ấy phấn khích nhất trong kỳ nghỉ Tết Nguyên đán: chứng kiến “tăng trưởng liên tục” của đường cong hiệu suất của R1-Không người mẫuvà cảm nhận sức mạnh mạnh mẽ của học tăng cường (RL)!
Nhà nghiên cứu AI của Deepseek Daya Guo trò chuyện với cư dân mạng
Bây giờ tôi sẽ giúp bạn tái hiện lại cuộc trò chuyện của Daya Guo với cư dân mạng:
Cư dân mạng A @PseudoProphet: “Big shot, tôi muốn hỏi sự cải thiện liên tục về hiệu suất này sẽ kéo dài trong bao lâu. Đây có phải vẫn đang ở giai đoạn đầu không? Có vẻ như mô hình RL của DeepSeek mới chỉ bắt đầu, giống như GPT-2 trong các mô hình ngôn ngữ không? Hay nó đã đạt đến giai đoạn trưởng thành hơn như GPT-3.5 và sắp gặp phải tình trạng tắc nghẽn?”
Đây là một câu hỏi rất sắc sảo, liên quan trực tiếp đến tiềm năng của công nghệ RL của DeepSeek! Câu trả lời của Daya Guo cũng rất trung thực:
Daya Guo: “Tôi nghĩ chúng ta vẫn còn ở giai đoạn rất sớm, và vẫn còn một chặng đường dài phía trước trong lĩnh vực RL. Nhưng tôi tin rằng chúng ta sẽ thấy những tiến bộ đáng kể trong năm nay.”
Đánh dấu những điểm chính! “Rất sớm”, “một chặng đường dài để khám phá”, “tiến triển đáng kể trong năm nay”! Những từ khóa này chứa đầy thông tin. Điều này có nghĩa là DeepSeek tin rằng họ vẫn còn nhiều chỗ để cải thiện trong lĩnh vực RL, và kết quả hiện tại của R1 có thể chỉ là phần nổi của tảng băng chìm, vì vậy tương lai rất hứa hẹn!
Ngay sau đó, một cư dân mạng khác là @kaush_trip (Cheeku Tripathi) đã đặt một câu hỏi chuyên nghiệp hơn, đi thẳng vào trọng tâm khả năng của người mẫu:
Người dùng B @kaush_trip: “Dựa trên hiệu suất của R1-Zero, làm thế nào để bạn đánh giá liệu mô hình có thực sự có khả năng khái quát, hoặc liệu nó chỉ ghi nhớ các trạng thái chuyển đổi và phần thưởng?”
Câu hỏi này rất đúng trọng tâm! Rốt cuộc, nhiều mô hình có vẻ rất mạnh mẽ, nhưng thực tế chúng chỉ là 'học thuộc lòng' từ dữ liệu đào tạo và chúng sẽ thất bại trong một môi trường khác. DeepSeek R1 có thực sự đạt yêu cầu không?
Daya Guo: “Chúng tôi sử dụng chuẩn mực cho các miền không được RL prompt bao phủ để đánh giá khả năng khái quát hóa. Hiện tại, có vẻ như nó có khả năng khái quát hóa.”
Cụm từ “các khu vực không được nhắc nhở RL” là chìa khóa! Điều này có nghĩa là DeepSeek không “gian lận” đánh giá bằng dữ liệu đào tạo, mà được thử nghiệm với các kịch bản mới mà mô hình chưa bao giờ nhìn thấy trước đó, điều này có thể thực sự phản ánh mức độ khái quát của mô hình. Việc Daya Guo sử dụng cách diễn đạt nghiêm ngặt “có vẻ như có” cũng làm cho nó thực tế và đáng tin hơn
Tiếp theo, một cư dân mạng có ID @teortaxesTex, một người hâm mộ lớn của DeepSeek (bình luận của anh ấy thậm chí còn bao gồm các từ "đội cổ vũ cá voi DeepSeek"), bắt đầu với báo cáo kỹ thuật DeepSeek V3 và đặt một câu hỏi về thời gian đào tạo mô hình:
Người dùng C @teortaxesTex: “Nếu không phải là bí mật: lần này đào tạo RL mất bao lâu? Cảm giác như bạn đã có R1 hoặc ít nhất là R1-Zero từ ngày 10 tháng 12, vì báo cáo kỹ thuật V3 đề cập rằng mô hình V2.5 sử dụng chưng cất kiến thức R1 và điểm của V2.5-1210 giống với mô hình hiện tại. Đây có phải là sự tiếp nối của khóa đào tạo đó không?”
Cư dân mạng này có năng lực quan sát đáng kinh ngạc! Anh ta có thể trích xuất rất nhiều chi tiết từ báo cáo kỹ thuật. Daya Guo cũng kiên nhẫn giải thích quá trình lặp lại của mô hình:
Daya Guo: “Các tham số R1-Zero và R1 của 660B chỉ bắt đầu chạy sau khi phát hành V3 và quá trình đào tạo mất khoảng 2-3 tuần. Mô hình R1 mà chúng tôi đã đề cập trước đó (như trong báo cáo kỹ thuật V3) thực chất là R1-Lite hoặc R1-Lite-Zero.”
Vậy là xong! R1-Zero và R1 mà chúng ta thấy hiện nay là “phiên bản mới và nâng cấp”, còn series R1-Lite trước đó là phiên bản nhỏ. Có vẻ như DeepSeek đã âm thầm lặp lại và nâng cấp nhiều phiên bản đằng sau hậu trường
Về tốc độ luyện tập, cư dân mạng @jiayi_pirate (Jiayi Pan) và cư dân mạng B @kaush_trip đã truyền tải một “cuộc thẩm vấn tâm hồn”:
Người dùng D @jiayi_pirate: ”10.000 bước RL trong 3 tuần, mỗi bước lan truyền gradient (grpo) mất khoảng 3 phút 🤔”
Người dùng B @kaush_trip: “Nếu mỗi bước lan truyền theo độ dốc (grpo) mất khoảng 3 phút, tức là khoảng 5 bước mỗi giờ, 120 bước mỗi ngày, thực sự rất chậm.”
Đây là một phép tính thực sự tỉ mỉ! Theo tính toán của cư dân mạng, tốc độ đào tạo của DeepSeek R1 thực sự không nhanh. Điều này cũng cho thấy chi phí đào tạo và thời gian đầu tư của một mô hình RL hiệu suất cao như vậy là rất lớn. "Công việc chậm tạo ra công việc tốt" có vẻ là một cách khá phù hợp để mô tả việc đào tạo mô hình AI
Cuối cùng, một cư dân mạng có tên @davikrehalt (Andy Jiang) đã đặt một câu hỏi từ góc nhìn ứng dụng tiên tiến hơn:
Người dùng E @davikrehalt: “Bạn đã thử sử dụng RL để làm chưa? bằng chứng chính thức về môi trường, thay vì chỉ trả lời các câu hỏi? Sẽ thật tuyệt nếu một mô hình nguồn mở có thể giành huy chương vàng tại IMO (International Mathematical Olympiad) năm nay! (Và nhiều hy vọng hơn nữa!)”
Bằng chứng chính thức! Huy chương vàng theo tôi! Cư dân mạng này khá tham vọng! Tuy nhiên, việc áp dụng AI vào lĩnh vực chứng minh toán học thực sự là xu hướng tương lai. Câu trả lời của Daya Guo một lần nữa lại gây ngạc nhiên:
Daya Guo: “Chúng tôi cũng đang cố gắng áp dụng R1 vào các môi trường chứng minh chính thức như Lean. Chúng tôi hy vọng sẽ sớm phát hành các mô hình tốt hơn cho cộng đồng.”
Theo lời của Daya Guo, có vẻ như họ đã đạt được tiến bộ trong lĩnh vực này và có thể sẽ có nhiều mẫu xe ấn tượng hơn nữa được tung ra trong tương lai!
Kết thúc
Có thể rút ra ba tín hiệu quan trọng từ câu trả lời của Daya Guo:
Vị trí kỹ thuật: RL vẫn đang trong giai đoạn đầu và những cải tiến về hiệu suất vẫn chưa đạt đến giới hạn;
Logic xác minh: khả năng khái quát hóa để thử nghiệm liên miền, loại bỏ “suy đoán bộ nhớ”
Ranh giới ứng dụng: từ mô hình ngôn ngữ đến chứng minh toán học, RL đang hướng tới lý luận bậc cao