DeepSeek đã phát hành mã nguồn, giải thích chi tiết về FlashMLA

Tuần trước, DeepSeek đã thông báo rằng họ sẽ mở mã nguồn năm dự án vào tuần tới:

Cư dân mạng cho biết, “Lần này, OpenAI thực sự đã xuất hiện”.

Vừa rồi, dự án nguồn mở đầu tiên liên quan đến tăng tốc suy luận, FlashMLA đã ra đời:

Địa chỉ dự án nguồn mở:

DeepSeek FlashMLA

Nó đã là mã nguồn mở trong hai giờ và Github đã có hơn 2,7 nghìn sao:

Chức năng cốt lõi của dự án là:

“FlashMLA là một hạt nhân giải mã MLA hiệu quả cho GPU Hopper, được tối ưu hóa để phục vụ các chuỗi có độ dài thay đổi.”

Được dịch là:

“FlashMLA là một hạt nhân giải mã MLA hiệu quả được tối ưu hóa cho GPU kiến trúc NVIDIA Hopper, được tối ưu hóa cụ thể cho các tình huống dịch vụ xử lý chuỗi có độ dài thay đổi.”

Nói tóm lại:

FlashMLA là lõi giải mã hiệu quả được DeepInference thiết kế cho GPU kiến trúc Hopper (như H800). Bằng cách tối ưu hóa tính toán sự chú ý tiềm năng nhiều đầu của các chuỗi có độ dài thay đổi, nó đạt được hiệu suất tối đa là băng thông bộ nhớ 3000GB/giây và sức mạnh tính toán 580TFLOPS trong giai đoạn giải mã, cải thiện đáng kể hiệu quả suy luận với các ngữ cảnh dài cho các mô hình lớn.

Một số cư dân mạng cho biết:

Một số người đã sử dụng nó và họ nói Kỹ thuật thuần túy:

Dự án này thuộc về kỹ thuật tối ưu hóa và ép hiệu suất phần cứng đến mức giới hạn.

Dự án đã sẵn sàng để sử dụng ngay.

Yêu cầu về môi trường:

GPU phễu
CUDA 12.3 trở lên
PyTorch 2.0 trở lên

Khi kết thúc dự án, vị quan chức này cũng tuyên bố rằng dự án được lấy cảm hứng từ các dự án FlashAttention 2&3 và NVIDIA CUTLASS.

FlashAttention có khả năng đạt được sự chú ý chính xác nhanh chóng và hiệu quả về bộ nhớ, và được sử dụng trong các mô hình lớn chính thống. Phiên bản thế hệ thứ ba mới nhất có thể tăng tỷ lệ sử dụng của H100 lên 75%.

Tốc độ đào tạo được tăng lên 1,5-2 lần và thông lượng tính toán theo FP16 cao tới 740 TFLOPs/giây, đạt 75% thông lượng tối đa theo lý thuyết và tận dụng đầy đủ hơn các tài nguyên tính toán trước đây chỉ là 35%.

FlashMLA không chỉ đạt được bước nhảy vọt về hiệu suất thông qua tối ưu hóa ở cấp độ phần cứng mà còn cung cấp giải pháp sáng tạo cho các hoạt động kỹ thuật trong suy luận AI, trở thành bước đột phá công nghệ quan trọng trong việc tăng tốc suy luận các mô hình lớn.

Có một sự tiết lộ lớn như vậy vào ngày đầu tiên.

Tôi rất mong chờ những thông tin về mã nguồn mở trong bốn ngày tới!

Như cư dân mạng đã nói:

Cá voi đang tạo ra sóng!

DeepSeek thật tuyệt vời!

Chưa phân loại

Ali Qwen2.5-Max vượt qua DeepSeek-V3! Cư dân mạng: AI của Trung Quốc đang nhanh chóng thu hẹp khoảng cách

Quazddeepseeker Tháng 2 5, 2025Tháng 2 5, 2025

Vừa rồi, một mẫu xe trong nước khác đã được thêm vào danh sách Big Model Arena từ Ali, Qwen2.5-Max, đã vượt qua DeepSeek-V3 và xếp thứ bảy trong bảng xếp hạng chung với tổng điểm là 1332. Nó cũng đã vượt qua các mẫu xe như Claude 3.5 Sonnet và Llama 3.1 405B chỉ trong một cú đánh. Đặc biệt, nó rất xuất sắc trong việc lập trình…

Chưa phân loại

Gemini 2.0 thống trị bảng xếp hạng, trong khi DeepSeek V3 có giá rất đắt và một nhà vô địch mới có giá thành hợp lý đã ra đời!

Quazddeepseeker Tháng 2 8, 2025Tháng 2 8, 2025

Gia đình Google Gemini 2.0 cuối cùng đã hoàn thiện! Nó thống trị các bảng xếp hạng ngay khi được phát hành. Giữa sự truy đuổi và phong tỏa của Deepseek, Qwen và o3, Google đã phát hành ba mô hình cùng một lúc vào sáng sớm nay: Gemini 2.0 Pro, Gemini 2.0 Flash và Gemini 2.0 Flash-Lite. Trên bảng xếp hạng mô hình lớn LMSYS, Gemini…

Chưa phân loại

So sánh toàn diện giữa o3-mini và DeepSeek R1 mới phát hành của OpenAI

Quazddeepseeker Tháng 2 1, 2025Tháng 2 1, 2025

OpenAI đã phát hành mô hình suy luận mới nhất của mình, o3-mini, được tối ưu hóa cho các lĩnh vực như khoa học, toán học và lập trình, cung cấp phản hồi nhanh hơn, độ chính xác cao hơn và chi phí thấp hơn. So với người tiền nhiệm o1-mini, o3-mini đã cải thiện đáng kể khả năng suy luận của mình, đặc biệt là trong việc giải quyết các vấn đề phức tạp. Những người kiểm tra thích câu trả lời của o3-mini theo 56% và tỷ lệ lỗi đã…

Chưa phân loại

DeepSeek R1 đứng đầu trong bài kiểm tra viết sáng tạo, và o3 mini thậm chí còn tệ hơn o1 mini!

Quazddeepseeker Tháng 2 3, 2025Tháng 2 3, 2025

DeepSeek R1 đã giành chức vô địch trong bài kiểm tra chuẩn mực viết truyện ngắn sáng tạo, vượt qua thành công đối thủ thống trị trước đó là Claude 3.5 Sonnet! Bài kiểm tra chuẩn mực Bài kiểm tra chuẩn mực do nhà nghiên cứu Lech Mazur thiết kế không phải là cuộc thi viết thông thường của bạn. Mỗi mô hình AI được yêu cầu hoàn thành 500 truyện ngắn và mỗi câu chuyện phải khéo léo kết hợp…

Chưa phân loại

Bí mật đằng sau DeepSeek 1 | DeepSeekMath và chi tiết GRPO

Quazddeepseeker Tháng 2 9, 2025Tháng 2 9, 2025

Hôm nay tôi muốn chia sẻ một bài viết từ DeepSeek, có tiêu đề DeepSeekMath: Đẩy mạnh giới hạn của lý luận toán học trong các mô hình ngôn ngữ mở. Bài viết này giới thiệu DeepSeekMath 7B, được đào tạo trước trên DeepSeek-Coder-Base-v1.5 7B dựa trên bộ sưu tập 120B mã thông báo liên quan đến toán học, ngôn ngữ tự nhiên và dữ liệu mã. Mô hình đạt được số điểm đáng kinh ngạc là 51,7% ở cấp độ cạnh tranh…

Chưa phân loại

Le Chat đứng đầu bảng xếp hạng, với khoản đầu tư lên tới hàng trăm tỷ đô la. Sau Hoa Kỳ và Trung Quốc, liệu đây có phải là cường quốc AI thứ ba không?

Quazddeepseeker Tháng 2 11, 2025Tháng 2 11, 2025

Vào ngày 9 tháng 2, Tổng thống Pháp Emmanuel Macron tuyên bố rằng Pháp sẽ đầu tư 109 tỷ euro (113 tỷ đô la Mỹ) vào lĩnh vực AI trong vài năm tới. Khoản đầu tư này sẽ được sử dụng để xây dựng một công viên AI tại Pháp, cải thiện cơ sở hạ tầng và đầu tư vào các công ty khởi nghiệp AI địa phương. Trong khi đó, Mistral, một công ty khởi nghiệp của Pháp,…

Bài viết tương tự

Để lại một bình luận Hủy