Tuần trước, DeepSeek đã thông báo rằng họ sẽ mở mã nguồn năm dự án vào tuần tới: Cư dân mạng cho biết, "Lần này, OpenAI thực sự đã ở đây." Vừa rồi, dự án nguồn mở đầu tiên đã ra mắt, liên quan đến khả năng tăng tốc suy luận, FlashMLA: Địa chỉ dự án nguồn mở: DeepSeek FlashMLA Dự án này đã mở mã nguồn trong hai giờ và Github đã có hơn 2,7 nghìn sao: Dự án…
FlashMLA đã nhanh chóng thu hút sự chú ý trong thế giới trí tuệ nhân tạo, đặc biệt là trong lĩnh vực mô hình ngôn ngữ lớn (LLM). Công cụ sáng tạo này, được phát triển bởi DeepSeek, đóng vai trò là hạt nhân giải mã được tối ưu hóa được thiết kế cho GPU Hopper—chip hiệu suất cao thường được sử dụng trong tính toán AI. FlashMLA tập trung vào việc xử lý hiệu quả các chuỗi có độ dài thay đổi, khiến nó đặc biệt phù hợp…
Giới thiệu Ngày nay, các mô hình ngôn ngữ lớn (LLM) đóng vai trò quan trọng. Vào đầu năm 2025, khi cuộc cạnh tranh về AI ngày càng gay gắt, Alibaba đã ra mắt mô hình AI Qwen2.5-max mới và DeepSeek, một công ty đến từ Hàng Châu, Trung Quốc, đã ra mắt mô hình R1, đại diện cho đỉnh cao của công nghệ LLM. Deepseek R1 là một mô hình AI nguồn mở đã thu hút…
Mô hình suy luận 32B chỉ sử dụng 1/8 dữ liệu và được liên kết với DeepSeek-R1 có cùng kích thước! Ngay bây giờ, các tổ chức như Stanford, UC Berkeley và Đại học Washington đã cùng nhau phát hành một mô hình suy luận cấp SOTA, OpenThinker-32B và cũng đã mở nguồn lên đến 114k dữ liệu đào tạo. Trang chủ của Dự án OpenThinker: OpenThinker Hugging Face:…