DeepSeek được tạo ra như thế nào? Phân tích lịch sử phát triển của DeepSeek

Trong tương lai, sẽ có ngày càng nhiều đổi mới cốt lõi. Có thể không dễ để hiểu ngay bây giờ, vì toàn bộ nhóm xã hội cần được giáo dục bằng sự thật. Khi xã hội này cho phép những người đổi mới cốt lõi thành công, tư duy tập thể sẽ thay đổi. Chúng ta chỉ cần một loạt sự thật và một quy trình. — Liang Wenfeng, người sáng lập DeepSeek

Trong những ngày gần đây, DeepSeek đã bùng nổ trên toàn thế giới, nhưng vì công ty này quá kín tiếng và chưa đưa ra bất kỳ thông báo nào nên công chúng biết rất ít về công ty công nghệ có tiềm năng lớn này - dù là về bối cảnh thành lập, phạm vi kinh doanh hay cách bố trí sản phẩm.

Sau khi hoàn tất việc phân loại tất cả các tài liệu, tôi đã viết bài viết này

Những người chơi AI hiện tại có xuất thân như thế nào, họ đang làm gì và họ đang tuyển dụng ai?

và có lẽ là tổng quan lịch sử đầy đủ nhất về DeepSeek.

Vào thời điểm này năm ngoái, một người bạn từ Magic Cube Quant đã đến gặp tôi và hỏi, "Bạn có muốn xây dựng một mô hình lớn ở Trung Quốc không?" Và tôi chỉ dành buổi chiều để uống cà phê. Như mong đợi, cuộc sống vẫn phụ thuộc vào sự lựa chọn.

Các Magic Cube Quant được nhắc đến ở đây là nhà đầu tưhoặc công ty mẹ của DeepSeek.

Cái gọi là “quant” là một tổ chức đầu tư đưa ra quyết định không phải bằng sức mạnh của con người mà bằng thuật toán. Quant Fantasy thành lập không lâu, bắt đầu từ năm 2015. Đến năm 2021, khi tròn sáu năm tuổi, quy mô quản lý tài sản của Quant Fantasy đã vượt quá 100 tỷ và được ca ngợi là một trong “tứ đại quant vương” của Trung Quốc.

Người sáng lập Fantasy Square, Liang Wenfeng, cũng là người sáng lập DeepSeek, là một nhà lãnh đạo tài chính “phi chính thống” sinh vào những năm 1980: anh không có kinh nghiệm du học, không phải là người chiến thắng trong cuộc thi Olympic và tốt nghiệp Khoa Kỹ thuật Điện tử tại Đại học Chiết Giang, chuyên ngành trí tuệ nhân tạo. Anh là một chuyên gia công nghệ bản địa, hành động theo cách khiêm tốn, “đọc báo, viết mã và tham gia thảo luận nhóm” mỗi ngày.

Liang Wenfeng không có thói quen của một chủ doanh nghiệp truyền thống, mà giống một “chuyên gia công nghệ” thuần túy hơn.. Nhiều người trong ngành và các nhà nghiên cứu DeepSeek đã dành cho Liang Wenfeng những lời khen ngợi cực kỳ cao: “một người vừa có năng lực kỹ thuật cơ sở hạ tầng mạnh mẽ vừa có năng lực nghiên cứu mô hình, đồng thời cũng có thể huy động nguồn lực”, “một người có thể đưa ra những phán đoán chính xác từ cấp độ cao, nhưng cũng vượt trội về chi tiết hơn các nhà nghiên cứu tuyến đầu”, và cũng có “khả năng học tập đáng sợ”.

Từ lâu trước khi DeepSeek được thành lập, Huanfang đã bắt đầu lập kế hoạch dài hạn trong ngành AI. Vào tháng 5 năm 2023, Liang Wenfeng đã đề cập trong một cuộc phỏng vấn với Darksurge: “Sau khi OpenAI phát hành GPT3 vào năm 2020, hướng phát triển AI đã trở nên rất rõ ràng và sức mạnh tính toán sẽ trở thành yếu tố then chốt; nhưng ngay cả vào năm 2021, khi chúng tôi đầu tư vào việc xây dựng Firefly 2, hầu hết mọi người vẫn không thể hiểu được nó.”

Dựa trên phán đoán này, Huanfang bắt đầu xây dựng cơ sở hạ tầng máy tính của riêng mình. “Từ 1 thẻ đầu tiên, đến 100 thẻ vào năm 2015, 1.000 thẻ vào năm 2019, rồi 10.000 thẻ, quá trình này diễn ra dần dần. Trước khi có vài trăm thẻ, chúng tôi đã lưu trữ trong một IDC. Khi quy mô lớn hơn, lưu trữ không còn đáp ứng được yêu cầu nữa, vì vậy chúng tôi bắt đầu xây dựng phòng máy tính của riêng mình.”

Sau đó, Finance Eleven đưa tin, “Không có nhiều hơn năm các công ty trong nước có hơn 10.000 GPU và ngoài một số nhà sản xuất lớn, họ còn bao gồm một công ty quỹ định lượng có tên là Magic Cube.” Người ta thường cho rằng 10.000 chip Nvidia A100 là ngưỡng sức mạnh tính toán cần có để đào tạo các mô hình lớn.

Trong một cuộc phỏng vấn trước đây, Liang Wenfeng cũng đã đề cập đến một điểm thú vị: nhiều người nghĩ rằng có một logic kinh doanh nào đó ẩn sau nó, nhưng thực tế, động lực thúc đẩy chủ yếu là sự tò mò.

Mục lục

DeepSeeklần gặp gỡ đầu tiên của

Trong một cuộc phỏng vấn với Darksurge vào tháng 5 năm 2023, khi được hỏi “Cách đây không lâu, Huanfang đã công bố quyết định sản xuất các mô hình lớn, tại sao một quỹ định lượng lại làm như vậy?”

Câu trả lời của Lương Văn Phong vang dội: “Quyết định xây dựng một mô hình lớn của chúng tôi không liên quan gì đến việc định lượng hay tài chính. Chúng tôi đã thành lập một công ty mới có tên là DeepSeek để thực hiện điều này. Nhiều thành viên chủ chốt của nhóm tại Mianfang tham gia vào lĩnh vực trí tuệ nhân tạo. Vào thời điểm đó, chúng tôi đã thử nhiều kịch bản và cuối cùng đã quyết định chọn tài chính, vốn đã đủ phức tạp. Trí tuệ nhân tạo nói chung có thể là một trong những điều khó khăn nhất tiếp theo cần đạt được, vì vậy đối với chúng tôi, vấn đề là làm thế nào để thực hiện, chứ không phải tại sao.

Không bị thúc đẩy bởi lợi ích thương mại hay chạy theo xu hướng thị trường, mà chỉ đơn giản là do mong muốn khám phá công nghệ AGI và theo đuổi bền bỉ “điều quan trọng và khó khăn nhất”, tên “DeepSeek” đã được xác nhận chính thức vào tháng 5 năm 2023. Ngày 17 tháng 7 năm 2023, “Công ty TNHH Nghiên cứu Công nghệ Cơ bản Trí tuệ Nhân tạo Hàng Châu DeepSeek” được thành lập.

TRÊN Ngày 2 tháng 11 năm 2023, DeepSeek đã đưa ra câu trả lời đầu tiên: DeepSeek Coder, một mô hình lớn của mã nguồn mở. Mô hình này bao gồm nhiều kích cỡ như 1B, 7B và 33B. Nội dung nguồn mở bao gồm mô hình Cơ sở và mô hình điều chỉnh lệnh.

Vào thời điểm đó, trong số các mô hình nguồn mở, CodeLlama của Meta là chuẩn mực của ngành. Tuy nhiên, sau khi DeepSeek Coder được phát hành, nó đã chứng minh được vị thế dẫn đầu đa diện so với CodeLlama: trong việc tạo mã, HumanEval dẫn trước 9,3%, MBPP dẫn trước 10,8% và DS-1000 dẫn trước 5,9%.

Hãy nhớ rằng DeepSeek Coder là model 7B, trong khi CodeLlama là model 34B. Ngoài ra, model DeepSeek Coder, sau khi được điều chỉnh theo hướng dẫn, đã vượt trội hơn hẳn GPT3.5-Turbo.

Không chỉ có khả năng tạo mã ấn tượng, DeepSeek Coder còn thể hiện sức mạnh về toán học và lập luận.

Ba ngày sau, vào ngày 5 tháng 11 năm 2023, DeepSeek đã phát hành một lượng lớn nội dung tuyển dụng thông qua tài khoản công khai WeChat của mình, bao gồm các vị trí như thực tập sinh mô hình lớn AGI, chuyên gia dữ liệu, nhân tài kiến trúc dữ liệu, kỹ sư thu thập dữ liệu cao cấp, kỹ sư nghiên cứu và phát triển học sâu, v.v. và bắt đầu tích cực mở rộng nhóm.

Như Lương Văn Phong đã nói, “Yêu cầu bắt buộc” của DeepSeek khi tuyển dụng nhân tài là “đam mê và có kỹ năng cơ bản vững chắc”và ông nhấn mạnh rằng “Đổi mới đòi hỏi càng ít sự can thiệp và quản lý càng tốt, để mọi người đều có quyền tự do mắc lỗi và thử những điều mới. Đổi mới thường đến từ bên trong, không phải từ sự sắp xếp có chủ đích, và chắc chắn không đến từ việc giảng dạy.”

Các mô hình thường xuyên được phát hành và mã nguồn mở được thực hành

Sau khi DeepSeek Coder gây được tiếng vang, DeepSeek chuyển hướng chú ý sang chiến trường chính: mô hình ngôn ngữ chung.

TRÊN Ngày 29 tháng 11 năm 2023, DeepSeek đã phát hành mô hình ngôn ngữ lớn đa năng đầu tiên, DeepSeek LLM 67B. Mô hình này được so sánh với mô hình LLaMA2 70B của Meta cùng cấp độ và đã hoạt động tốt hơn trong gần 20 danh sách đánh giá công khai bằng tiếng Trung và tiếng Anh. Đặc biệt, khả năng lập luận, toán học và lập trình (ví dụ: HumanEval, MATH, CEval và CMMLU) của nó rất nổi bật.

DeepSeek LLM 67B cũng đã chọn con đường mã nguồn mở và hỗ trợ sử dụng thương mại. Để chứng minh thêm sự chân thành và quyết tâm của mình đối với mã nguồn mở, DeepSeek đã, chưa từng có tiền lệ, đồng thời mở mã nguồn cho hai mô hình có quy mô khác nhau, 7B và 67B, và thậm chí công khai chín điểm kiểm tra được tạo ra trong quá trình đào tạo mô hình để các nhà nghiên cứu tải xuống và sử dụng. Loại hoạt động này, giống như "dạy mọi thứ", cực kỳ hiếm trong toàn bộ cộng đồng mã nguồn mở.

Để đánh giá toàn diện và khách quan hơn về khả năng thực sự của DeepSeek LLM 67B, nhóm nghiên cứu DeepSeek cũng đã cẩn thận thiết kế một loạt "câu hỏi mới" để "kiểm tra căng thẳng". Những câu hỏi này bao gồm các bài kiểm tra trình độ cao, có độ phân biệt cao như các câu hỏi thi toán trung học Hungary, các bộ đánh giá theo lệnh của Google và các câu hỏi thi hàng tuần của LeetCode. Kết quả kiểm tra rất khả quan. DeepSeek LLM 67B cho thấy tiềm năng đáng kinh ngạc về khả năng khái quát hóa vượt ra ngoài mẫu và hiệu suất tổng thể của nó thậm chí còn gần bằng mô hình GPT-4 tiên tiến nhất vào thời điểm đó.

TRÊN Ngày 18 tháng 12 năm 2023, DeepSeek đã mở mã nguồn mô hình Vincent 3D DreamCraft3D: nó có thể tạo ra các mô hình 3D chất lượng cao từ một câu, đạt được bước nhảy từ mặt phẳng 2D sang không gian 3D trong AIGC. Ví dụ, nếu người dùng nhập: “Chạy qua rừng, hình ảnh lai ghép vui nhộn của đầu lợn và thân của Vua Khỉ”, DreamCraft3D có thể xuất ra nội dung chất lượng cao:

Về nguyên tắc, mô hình đầu tiên hoàn thiện sơ đồ Venn, sau đó bổ sung cấu trúc hình học tổng thể dựa trên bản đồ khái niệm 2D:

Trong đánh giá chủ quan tiếp theo, hơn 90% người dùng cho biết DreamCraft3D có lợi thế về chất lượng tạo ra so với các phương pháp tạo ra thế hệ trước.

Vào ngày 7 tháng 1 năm 2024, DeepSeek đã phát hành báo cáo kỹ thuật DeepSeek LLM 67B. Báo cáo dài hơn 40 trang này chứa nhiều thông tin chi tiết về DeepSeek LLM 67B, bao gồm các luật tỷ lệ tự xây dựng, thông tin chi tiết thực tế đầy đủ về căn chỉnh mô hình và hệ thống đánh giá khả năng AGI toàn diện.

Địa chỉ giấy tờ

TRÊN Ngày 11 tháng 1 năm 2024, DeepSeek đã mở mã nguồn mô hình lớn MoE (kiến trúc chuyên gia hỗn hợp) đầu tiên tại Trung Quốc, DeepSeekMoE: một kiến trúc hoàn toàn mới hỗ trợ tiếng Trung và tiếng Anh và miễn phí cho mục đích thương mại. Kiến trúc MoE vào thời điểm đó được coi là chìa khóa cho bước đột phá về hiệu suất của OpenAI GPT-4. Kiến trúc MoE do DeepSeek tự phát triển đang dẫn đầu ở nhiều thang điểm như 2B, 16B và 145B, và khả năng tính toán của nó cũng rất đáng khen ngợi.

Vào ngày 25 tháng 1 năm 2024, DeepSeek đã phát hành báo cáo kỹ thuật DeepSeek Coder. Báo cáo này cung cấp phân tích kỹ thuật toàn diện về dữ liệu đào tạo, phương pháp đào tạo và hiệu suất mô hình. Trong báo cáo này, chúng ta có thể thấy rằng lần đầu tiên, nó đã xây dựng dữ liệu mã cấp kho và sử dụng sắp xếp theo cấu trúc để phân tích sự phụ thuộc giữa các tệp, tăng cường đáng kể khả năng hiểu các tệp chéo đường dài. Về phương pháp đào tạo, phương pháp Điền vào giữa đã được thêm vào, giúp cải thiện đáng kể khả năng hoàn thành mã.

Địa chỉ giấy tờ

Vào ngày 30 tháng 1 năm 2024, nền tảng mở DeepSeek chính thức được ra mắt và dịch vụ API mô hình lớn DeepSeek bắt đầu được thử nghiệm. Đăng ký để nhận 10 triệu token miễn phí. Giao diện tương thích với giao diện OpenAI API và cả hai mô hình kép Chat/Coder đều khả dụng. Vào thời điểm này, DeepSeek bắt đầu khám phá con đường trở thành nhà cung cấp dịch vụ công nghệ bên cạnh nghiên cứu và phát triển công nghệ.

TRÊN Ngày 5 tháng 2 năm 2024, DeepSeek đã phát hành một mô hình miền dọc khác, DeepSeekMath, một mô hình suy luận toán học. Mô hình này chỉ có 7B tham số, nhưng khả năng suy luận toán học của nó gần bằng GPT-4. Trên danh sách chuẩn MATH có thẩm quyền, nó vượt trội hơn hẳn và vượt trội hơn một số mô hình nguồn mở có kích thước tham số từ 30B đến 70B. Việc phát hành DeepSeekMath chứng minh đầy đủ sức mạnh kỹ thuật và bố cục hướng tới tương lai của DeepSeek trong nghiên cứu và phát triển theo chiều dọc và bố cục hướng tới tương lai của nó trong nghiên cứu và phát triển mô hình.

TRÊN Ngày 28 tháng 2 năm 2024, để giảm bớt lo ngại của các nhà phát triển về việc sử dụng các mô hình nguồn mở DeepSeek, DeepSeek đã phát hành Câu hỏi thường gặp về chính sách nguồn mở, cung cấp câu trả lời chi tiết cho các câu hỏi thường gặp như mô hình cấp phép nguồn mở và hạn chế sử dụng thương mại. DeepSeek áp dụng nguồn mở với thái độ minh bạch và cởi mở hơn:

TRÊN Ngày 11 tháng 3 năm 2024, DeepSeek đã phát hành mô hình lớn đa phương thức DeepSeek-VL. Đây là nỗ lực ban đầu của DeepSeek trong công nghệ AI đa phương thức. Mô hình có kích thước 7B và 1.3B, và mô hình và các bài báo kỹ thuật được mã nguồn mở đồng thời.

TRÊN Ngày 20 tháng 3 năm 2024, Huanfang AI & DeepSeek một lần nữa được mời tham gia hội nghị NVIDIA GTC 2024 và nhà sáng lập Liang Wenfeng đã có bài phát biểu quan trọng về mặt kỹ thuật có tiêu đề “Sự hài hòa trong đa dạng: Căn chỉnh và tách rời các giá trị của các mô hình ngôn ngữ lớn”. Các vấn đề như “xung đột giữa một mô hình lớn giá trị đơn lẻ và một xã hội và văn hóa đa nguyên”, “sự tách rời của sự căn chỉnh giá trị mô hình lớn” và “những thách thức đa chiều của sự căn chỉnh giá trị tách rời” đã được thảo luận. Điều này chứng minh sự quan tâm nhân văn và trách nhiệm xã hội của DeepSeek đối với sự phát triển AI, bên cạnh nghiên cứu và phát triển công nghệ của công ty.

Vào tháng 3 năm 2024, Giao diện lập trình ứng dụng DeepSeek chính thức ra mắt dịch vụ trả phí, hoàn toàn châm ngòi cho cuộc chiến giá cả trên thị trường mô hình lớn của Trung Quốc: 1 nhân dân tệ cho một triệu token đầu vào và 2 nhân dân tệ cho một triệu token đầu ra.

Năm 2024, DeepSeek đã vượt qua thành công việc ghi nhận các mẫu xe lớn tại Trung Quốc, xóa bỏ các rào cản về chính sách để mở hoàn toàn các dịch vụ API của mình.

Vào tháng 5 năm 2024, DeepSeek-V2, một mô hình lớn MoE nguồn mở, đã được phát hành và cuộc chiến giá cả chính thức bắt đầu. DeepSeek-V2 sử dụng MLA (cơ chế chú ý tiềm ẩn nhiều đầu), giúp giảm dấu chân bộ nhớ của mô hình xuống còn 5%-13% so với MHA truyền thống. Đồng thời, nó cũng đã phát triển độc lập cấu trúc thưa thớt MoE DeepSeek, giúp giảm đáng kể độ phức tạp tính toán của mô hình. Nhờ đó, mô hình duy trì giá API là “1 nhân dân tệ/triệu đầu vào và 2 nhân dân tệ/triệu đầu ra”.

DeepSeek đã có tác động rất lớn. Về vấn đề này, nhà phân tích chính tại SemiAnalysis tin rằng bài báo DeepSeek V2 “có thể là một trong những bài báo hay nhất năm nay”. Tương tự, Andrew Carr, một cựu nhân viên của OpenAI, tin rằng bài báo “đầy ắp trí tuệ đáng kinh ngạc” và đã áp dụng các thiết lập đào tạo của nó vào mô hình của riêng mình.

Cần lưu ý rằng đây là mô hình chuẩn GPT-4-Turbo và giá API chỉ bằng 1/70 giá sau

Vào tháng 6 17, 2024, DeepSeek một lần nữa tạo nên bước đột phá lớn khi phát hành mô hình mã DeepSeek Coder V2 mã nguồn mở và tuyên bố rằng khả năng mã của nó vượt trội hơn GPT-4-Turbo, mô hình mã nguồn đóng tiên tiến nhất tại thời điểm đó. DeepSeek Coder V2 tiếp tục chiến lược mã nguồn mở nhất quán của DeepSeek, với tất cả các mô hình, mã và bài báo đều được mã nguồn mở và hai phiên bản 236B và 16B được cung cấp. Các dịch vụ API của DeepSeek Coder V2 cũng có sẵn trực tuyến và giá vẫn ở mức "1 nhân dân tệ/triệu đầu vào và 2 nhân dân tệ/triệu đầu ra".

TRÊN Ngày 21 tháng 6 năm 2024, DeepSeek Coder hỗ trợ thực thi mã trực tuyến. Cùng ngày, Claude3.5 Sonnet đã được phát hành, với tính năng Artifacts mới, tự động tạo mã và chạy trực tiếp trong trình duyệt. Cùng ngày, trợ lý mã trên trang web DeepSeek cũng ra mắt tính năng tương tự: tạo mã và chạy chỉ bằng một cú nhấp chuột.

Chúng ta hãy cùng xem lại những sự kiện chính trong giai đoạn này:

Những đột phá liên tục, thu hút sự chú ý của toàn cầu

Vào tháng 5 năm 2024, DeepSeek trở nên nổi tiếng chỉ sau một đêm khi phát hành DeepSeek V2, một mô hình nguồn mở dựa trên MoE. Nó phù hợp với hiệu suất của GPT-4-Turbo, nhưng với mức giá chỉ 1 nhân dân tệ/triệu đầu vào, bằng 1/70 GPT-4-Turbo. Vào thời điểm đó, DeepSeek đã trở thành một “kẻ giết người giá” nổi tiếng trong ngành, và sau đó những công ty lớn như Zhicheng, ByteDance và Alibaba… và những công ty lớn khác đã nhanh chóng làm theo và hạ giá của họ. Cũng vào khoảng thời gian đó, có một đợt cấm GPT khác và một số lượng lớn các ứng dụng AI bắt đầu thử nghiệm các mô hình trong nước lần đầu tiên.

Vào tháng 7 năm 2024, nhà sáng lập DeepSeek Liang Wenfeng một lần nữa nhận lời phỏng vấn với Dark Surge và trả lời trực tiếp về cuộc chiến giá cả: “Rất bất ngờ. Tôi không ngờ giá cả lại khiến mọi người nhạy cảm như vậy. Chúng tôi chỉ làm theo tốc độ của mình rồi định giá theo chi phí. Nguyên tắc của chúng tôi là không lỗ vốn hay kiếm lời quá mức. Mức giá này cũng cao hơn chi phí một chút với một chút lợi nhuận.”

Có thể thấy rằng, không giống như nhiều đối thủ cạnh tranh phải bỏ tiền túi ra để trợ cấp, DeepSeek đang có lãi ở mức giá này.

Một số người có thể nói: việc giảm giá giống như cướp người dùng, và điều này thường xảy ra trong các cuộc chiến giá cả trong thời đại Internet

Đáp lại, Liang Wenfeng cũng đáp lại: “Cướp người dùng không phải là mục tiêu chính của chúng tôi. Chúng tôi hạ giá vì một mặt, chi phí đã giảm khi chúng tôi khám phá cấu trúc của mô hình thế hệ tiếp theo, mặt khác, chúng tôi cảm thấy rằng cả API và AI đều phải có giá cả phải chăng và dễ tiếp cận với mọi người.”

Câu chuyện tiếp tục với chủ nghĩa lý tưởng của Lương Văn Phong.

Vào ngày 4 tháng 7 năm 2024, API DeepSeek đã được đưa lên mạng. Giá cho ngữ cảnh 128K vẫn không đổi. Chi phí suy luận của một mô hình có liên quan chặt chẽ đến độ dài của ngữ cảnh. Do đó, nhiều mô hình có những hạn chế nghiêm ngặt về độ dài này: phiên bản đầu tiên của GPT-3.5 chỉ có ngữ cảnh 4k.

Vào thời điểm này, DeepSeek đã tăng độ dài ngữ cảnh từ 32k trước đó lên 128k trong khi vẫn giữ nguyên giá (1 nhân dân tệ cho một triệu token đầu vào và 2 nhân dân tệ cho một triệu token đầu ra).

TRÊN Ngày 10 tháng 7 năm 2024, kết quả của kỳ thi Olympic AI đầu tiên trên thế giới (AIMO) đã được công bố và mô hình DeepSeekMath đã trở thành sự lựa chọn chung của các đội tuyển hàng đầu. 4 đội chiến thắng đều chọn DeepSeekMath-7B làm cơ sở cho mô hình dự thi của mình và đạt được kết quả ấn tượng trong cuộc thi.

TRÊN Ngày 18 tháng 7 năm 2024, DeepSeek-V2 đứng đầu danh sách các mô hình nguồn mở trên Chatbot Arena, vượt qua các mô hình sao như Llama3-70B, Qwen2-72B, Nemotron-4-340B và Gemma2-27B, và trở thành chuẩn mực mới cho các mô hình lớn nguồn mở.

TRONG Tháng 7 năm 2024, DeepSeek tiếp tục tuyển dụng nhân tài và tuyển dụng những nhân tài hàng đầu từ khắp nơi trên thế giới trong nhiều lĩnh vực, bao gồm thuật toán AI, AI Infra, AI Tutor và các sản phẩm AI, để chuẩn bị cho đổi mới công nghệ và phát triển sản phẩm trong tương lai.

TRÊN Ngày 26 tháng 7 năm 2024, API DeepSeek đã ra mắt bản nâng cấp quan trọng, hỗ trợ đầy đủ một loạt các tính năng nâng cao như ghi đè, hoàn thành FIM (Điền vào giữa), Gọi hàm và Xuất JSON. Hàm FIM rất thú vị: người dùng đưa ra phần đầu và phần cuối, và mô hình lớn điền vào phần giữa, rất phù hợp với quá trình lập trình để điền mã hàm chính xác. Lấy ví dụ về việc viết dãy Fibonacci:

TRÊN Ngày 2 tháng 8 năm 2024, DeepSeek đã giới thiệu công nghệ lưu trữ đệm ổ cứng một cách sáng tạo, giúp giảm giá API xuống mức thấp nhất. Trước đây, giá API chỉ là 1 yên cho một triệu token. Tuy nhiên, hiện tại, khi cache hit được thực hiện, phí API giảm trực tiếp xuống còn 0,1 yên.

Tính năng này rất hữu ích khi liên quan đến các cuộc trò chuyện liên tục và tác vụ xử lý hàng loạt.

TRÊN Ngày 16 tháng 8 năm 2024, DeepSeek đã phát hành mô hình chứng minh định lý toán học DeepSeek-Prover-V1.5 là mã nguồn mở, vượt trội hơn nhiều mô hình mã nguồn mở nổi tiếng trong các bài kiểm tra chứng minh định lý toán học ở trường trung học và đại học.

TRÊN Ngày 6 tháng 9 năm 2024, DeepSeek đã phát hành mô hình hợp nhất DeepSeek-V2.5. Trước đây, DeepSeek chủ yếu cung cấp hai mô hình: mô hình Chat tập trung vào kỹ năng trò chuyện chung và mô hình Code tập trung vào kỹ năng xử lý mã. Lần này, hai mô hình đã được kết hợp thành một, nâng cấp lên DeepSeek-V2.5, phù hợp hơn với sở thích của con người và cũng đạt được những cải tiến đáng kể trong các tác vụ viết, theo lệnh và các khía cạnh khác.

TRÊN Ngày 18 tháng 9 năm 2024, DeepSeek-V2.5 một lần nữa có mặt trong danh sách LMSYS mới nhất, dẫn đầu các mẫu xe trong nước và thiết lập điểm số cao nhất mới cho các mẫu xe trong nước ở nhiều khả năng cá nhân.

TRÊN Ngày 20 tháng 11 năm 2024, DeepSeek phát hành DeepSeek-R1-Lite trên trang web chính thức. Đây là mô hình suy luận tương đương với o1-preview và cũng cung cấp đủ lượng dữ liệu tổng hợp cho quá trình đào tạo sau V3.

TRÊN Ngày 10 tháng 12 năm 2024, dòng sản phẩm DeepSeek V2 đã chính thức khép lại với việc phát hành phiên bản hoàn thiện cuối cùng của DeepSeek-V2.5-1210. Phiên bản này cải thiện toàn diện nhiều khả năng bao gồm toán học, lập trình, viết và nhập vai thông qua quá trình đào tạo sau.

Với phiên bản này, ứng dụng web DeepSeek cũng mở ra chức năng tìm kiếm mạng.

TRÊN Ngày 13 tháng 12 năm 2024, DeepSeek đã tạo ra một bước đột phá khác trong lĩnh vực đa phương thức và phát hành mô hình đa phương thức lớn nguồn mở DeepSeek-VL2. DeepSeek-VL2 áp dụng kiến trúc MoE, cải thiện đáng kể khả năng trực quan của nó. Nó có sẵn ở ba kích cỡ: 3B, 16B và 27B, và có lợi thế về mọi số liệu.

TRÊN Ngày 26 tháng 12 năm 2024, DeepSeek-V3 được phát hành với mã nguồn mở: chi phí đào tạo ước tính chỉ 5,5 triệu đô la Mỹ. DeepSeek-V3 đã đánh giá đầy đủ hiệu suất của các mô hình nguồn đóng hàng đầu ở nước ngoài và cải thiện đáng kể tốc độ tạo ra sản phẩm.

Giá của các dịch vụ API đã được điều chỉnh, nhưng đồng thời, thời gian dùng thử ưu đãi 45 ngày cũng được áp dụng cho mô hình mới.

Vào ngày 15 tháng 1 năm 2025, ứng dụng DeepSeek chính thức được phát hành và ra mắt đầy đủ trên các chợ ứng dụng iOS/Android lớn.

Vào ngày 20 tháng 1 năm 2025, gần Tết Nguyên đán, mô hình suy luận DeepSeek-R1 đã chính thức được phát hành và mở mã nguồn. DeepSeek-R1 đã hoàn toàn phù hợp với hiệu suất của bản phát hành OpenAI o1 chính thức và mở ra chức năng đầu ra chuỗi suy nghĩ. Đồng thời, DeepSeek cũng thông báo rằng giấy phép nguồn mở mô hình sẽ được thay đổi thành giấy phép MIT và thỏa thuận người dùng sẽ cho phép rõ ràng "chưng cất mô hình", tiếp tục áp dụng nguồn mở và thúc đẩy chia sẻ công nghệ.

Sau đó, mô hình này trở nên rất phổ biến và mở ra một kỷ nguyên mới

Kết quả là tính đến ngày 27 tháng 1 năm 2025, ứng dụng DeepSeek đã vượt qua ChatGPT và đứng đầu danh sách tải xuống ứng dụng miễn phí trên iOS App Store của Hoa Kỳ, trở thành ứng dụng AI phi thường.

Vào ngày 27 tháng 1 năm 2025, lúc 1:00 sáng đêm giao thừa, DeepSeek Janus-Pro đã được phát hành dưới dạng mã nguồn mở. Đây là mô hình đa phương thức được đặt theo tên của vị thần hai mặt Janus trong thần thoại La Mã cổ đại: nó đối mặt với cả quá khứ và tương lai. Điều này cũng thể hiện hai khả năng của mô hình—hiểu biết trực quan và tạo hình ảnh—và sự thống trị của nó trong nhiều thứ hạng.

Sự bùng nổ về độ phổ biến của DeepSeek ngay lập tức đã tạo nên một làn sóng chấn động công nghệ toàn cầu, thậm chí trực tiếp khiến giá cổ phiếu của NVIDIA 18% giảm mạnh, và giá trị thị trường của thị trường chứng khoán công nghệ toàn cầu bốc hơi khoảng 1 nghìn tỷ đô la Mỹ. Phố Wall và giới truyền thông công nghệ lên tiếng rằng sự trỗi dậy của DeepSeek đang làm đảo lộn bối cảnh ngành AI toàn cầu và đặt ra thách thức chưa từng có đối với các gã khổng lồ công nghệ Mỹ.

Thành công của DeepSeek cũng đã gây ra sự chú ý lớn của quốc tế và các cuộc thảo luận sôi nổi về khả năng đổi mới công nghệ AI của Trung Quốc. Tổng thống Hoa Kỳ Donald Trump, trong một bình luận công khai hiếm hoi, đã ca ngợi sự trỗi dậy của DeepSeek là "tích cực" và cho biết đó là "lời cảnh tỉnh" đối với Hoa Kỳ. Tổng giám đốc điều hành Microsoft Satya Nadella và Tổng giám đốc điều hành OpenAI Sam Altman cũng ca ngợi DeepSeek, gọi công nghệ của công ty này là "rất ấn tượng".

Tất nhiên, chúng ta cũng phải hiểu rằng lời khen ngợi của họ một phần là sự công nhận sức mạnh của DeepSeek, và một phần là sự phản ánh động cơ của chính họ. Ví dụ, trong khi Anthropic công nhận những thành tựu của DeepSeek, họ cũng kêu gọi chính phủ Hoa Kỳ tăng cường kiểm soát chip đối với Trung Quốc.

Tổng giám đốc điều hành Anthropic xuất bản bài viết dài 10.000 từ: Sự gia tăng của DeepSeek có nghĩa là Nhà Trắng nên tăng cường kiểm soát

Tóm tắt và triển vọng

Nhìn lại hai năm qua của DeepSeek, đây thực sự là một “kỳ tích Trung Hoa”: từ một công ty khởi nghiệp vô danh trở thành “thế lực phương Đông bí ẩn” đang tỏa sáng trên vũ đài AI toàn cầu, DeepSeek đã viết nên những điều “bất khả thi” nối tiếp nhau bằng sức mạnh và sự sáng tạo của mình.

Ý nghĩa sâu xa hơn của cuộc thám hiểm công nghệ này từ lâu đã vượt ra ngoài phạm vi cạnh tranh thương mại. DeepSeek đã công bố với sự thật rằng Trong lĩnh vực trí tuệ nhân tạo mang tính chiến lược liên quan đến tương lai, các công ty Trung Quốc hoàn toàn có khả năng vươn tới tầm cao của công nghệ cốt lõi.

“Chuông báo động” do Trump thổi phồng và nỗi sợ tiềm ẩn của Anthropic đã xác nhận chính xác tầm quan trọng của năng lực AI của Trung Quốc: không chỉ có thể cưỡi sóng mà còn đang định hình lại hướng đi của thủy triều

Tìm kiếm sâu sản phẩm giải phóng các cột mốc

Ngày 2 tháng 11 năm 2023: DeepSeek Coder Mô hình lớn
Ngày 29 tháng 11 năm 2023: DeepSeek LLM 67B Mô hình phổ quát
Ngày 18 tháng 12 năm 2023: Mô hình 3D DreamCraft3D
Ngày 11 tháng 1 năm 2024: DeepSeekMoE MoE mô hình lớn
Ngày 5 tháng 2 năm 2024: DeepSeekMath Mô hình suy luận toán học
Ngày 11 tháng 3 năm 2024: Mô hình lớn đa phương thức DeepSeek-VL
Tháng 5 năm 2024: Mô hình chung của MoE DeepSeek-V2
Ngày 17 tháng 6 năm 2024: Mã mô hình DeepSeek Coder V2
Ngày 6 tháng 9 năm 2024: DeepSeek-V2.5 hợp nhất các mô hình năng lực chung và mã
Ngày 13 tháng 12 năm 2024: Mô hình MoE đa phương thức DeepSeek-VL2
Ngày 26 tháng 12 năm 2024: DeepSeek-V3 loạt sản phẩm mới của các mô hình lớn đa năng
Ngày 20 tháng 1 năm 2025: Mô hình suy luận DeepSeek-R1
Ngày 20 tháng 1 năm 2025: Ứng dụng chính thức DeepSeek (iOS & Android)
Ngày 27 tháng 1 năm 2025: Mô hình đa phương thức DeepSeek Janus-Pro

DeepSeek được tạo ra như thế nào? Phân tích lịch sử tăng trưởng của DeepSeek

DeepSeeklần gặp gỡ đầu tiên của

Các mô hình thường xuyên được phát hành và mã nguồn mở được thực hành

Những đột phá liên tục, thu hút sự chú ý của toàn cầu

Tóm tắt và triển vọng

Tìm kiếm sâu sản phẩm giải phóng các cột mốc

OpenAI o3-mini so với DeepSeek-R1: Ai là vua của thế hệ mô hình AI mới?

Các hiện vật quản lý Mô hình ngôn ngữ lớn như DeepSeek: Cherry Studio, Chatbox, AnythingLLM, ai là công cụ tăng tốc hiệu quả của bạn?

Lần ra mắt đầu tiên! SiliconFlow X Huawei Cloud cùng ra mắt dịch vụ suy luận DeepSeek R1 & V3 dựa trên Ascend Cloud!

Deepseek có thể đạt được điều gì? Ngay cả OpenAI cũng không làm được?

So sánh toàn diện giữa o3-mini và DeepSeek R1 mới phát hành của OpenAI

Nó gần với DeepSeek-R1-32B và đánh bại s1! của Fei-Fei Li UC Berkeley và các mô hình suy luận SOTA mới nguồn mở khác

Để lại một bình luận Hủy

DeepSeeklần gặp gỡ đầu tiên của

Các mô hình thường xuyên được phát hành và mã nguồn mở được thực hành

Những đột phá liên tục, thu hút sự chú ý của toàn cầu

Tóm tắt và triển vọng

Tìm kiếm sâu sản phẩm giải phóng các cột mốc

Bài viết tương tự

Để lại một bình luận Hủy