DeepSeek đã phát hành mã nguồn, giải thích chi tiết về FlashMLA

DeepSeek đã phát hành mã nguồn, giải thích chi tiết về FlashMLA

Tuần trước, DeepSeek đã thông báo rằng họ sẽ mở mã nguồn năm dự án vào tuần tới: Cư dân mạng cho biết, "Lần này, OpenAI thực sự đã ở đây." Vừa rồi, dự án nguồn mở đầu tiên đã ra mắt, liên quan đến khả năng tăng tốc suy luận, FlashMLA: Địa chỉ dự án nguồn mở: DeepSeek FlashMLA Dự án này đã mở mã nguồn trong hai giờ và Github đã có hơn 2,7 nghìn sao: Dự án…

Qwen2.5-max so với DeepSeek R1: So sánh sâu sắc các mô hình: phân tích đầy đủ các tình huống ứng dụng

Qwen2.5-max so với DeepSeek R1: So sánh sâu sắc các mô hình: phân tích đầy đủ các tình huống ứng dụng

Giới thiệu Ngày nay, các mô hình ngôn ngữ lớn (LLM) đóng vai trò quan trọng. Vào đầu năm 2025, khi cuộc cạnh tranh về AI ngày càng gay gắt, Alibaba đã ra mắt mô hình AI Qwen2.5-max mới và DeepSeek, một công ty đến từ Hàng Châu, Trung Quốc, đã ra mắt mô hình R1, đại diện cho đỉnh cao của công nghệ LLM. Deepseek R1 là một mô hình AI nguồn mở đã thu hút…

Nó gần với DeepSeek-R1-32B và đánh bại s1! của Fei-Fei Li UC Berkeley và các mô hình suy luận SOTA mới nguồn mở khác

Mô hình suy luận 32B chỉ sử dụng 1/8 dữ liệu và được liên kết với DeepSeek-R1 có cùng kích thước! Ngay bây giờ, các tổ chức như Stanford, UC Berkeley và Đại học Washington đã cùng nhau phát hành một mô hình suy luận cấp SOTA, OpenThinker-32B và cũng đã mở nguồn lên đến 114k dữ liệu đào tạo. Trang chủ của Dự án OpenThinker: OpenThinker Hugging Face:…

Các hiện vật quản lý Mô hình ngôn ngữ lớn như DeepSeek: Cherry Studio, Chatbox, AnythingLLM, ai là công cụ tăng tốc hiệu quả của bạn?

Các hiện vật quản lý Mô hình ngôn ngữ lớn như DeepSeek: Cherry Studio, Chatbox, AnythingLLM, ai là công cụ tăng tốc hiệu quả của bạn?

Nhiều người đã bắt đầu triển khai và sử dụng Deepseek Large Language Models cục bộ, sử dụng Chatbox làm công cụ trực quan hóa. Bài viết này sẽ tiếp tục giới thiệu hai hiện vật quản lý và trực quan hóa AI Large Language Model khác và sẽ so sánh chi tiết ba hiện vật này để giúp bạn sử dụng AI Large Language Models hiệu quả hơn. Vào năm 2025,…

Le Chat đứng đầu bảng xếp hạng, với khoản đầu tư lên tới hàng trăm tỷ đô la. Sau Hoa Kỳ và Trung Quốc, liệu đây có phải là cường quốc AI thứ ba không?

Vào ngày 9 tháng 2, Tổng thống Pháp Emmanuel Macron tuyên bố rằng Pháp sẽ đầu tư 109 tỷ euro (113 tỷ đô la Mỹ) vào lĩnh vực AI trong vài năm tới. Khoản đầu tư này sẽ được sử dụng để xây dựng một công viên AI tại Pháp, cải thiện cơ sở hạ tầng và đầu tư vào các công ty khởi nghiệp AI địa phương. Trong khi đó, Mistral, một công ty khởi nghiệp của Pháp,…

Deepseek có thể đạt được điều gì? Ngay cả OpenAI cũng không làm được?

Giá trị thực sự của DeepSeek bị đánh giá thấp! DeepSeek-R1 chắc chắn đã mang đến một làn sóng nhiệt tình mới cho thị trường. Không chỉ các mục tiêu được gọi là người thụ hưởng có liên quan đang tăng mạnh, mà một số người thậm chí còn phát triển các khóa học và phần mềm liên quan đến DeepSeek để kiếm tiền từ nó. Chúng tôi tin rằng mặc dù những hiện tượng này có…

Các sản phẩm AI chính thống trên thế giới tập trung vào phân tích và hướng dẫn trải nghiệm người dùng toàn diện (bao gồm DeepSeek và GPT)

Các sản phẩm AI chính thống trên thế giới tập trung vào phân tích và hướng dẫn trải nghiệm người dùng toàn diện (bao gồm DeepSeek và GPT)

Phân tích vị trí chức năng và lợi thế cốt lõi ChatGPT (OpenAI) – chuẩn mực toàn cầu cho những người toàn diện ChatGPT Các gen kỹ thuật: AI tạo ra dựa trên chuỗi GPT của các mô hình lớn, với các kỹ năng giao tiếp chung và lý luận logic là những lợi thế cốt lõi của nó. Xử lý đa ngôn ngữ: hoạt động tốt nhất bằng tiếng Anh, với sự cải thiện liên tục bằng tiếng Trung; nhưng chúng tôi khuyên bạn nên sử dụng tiếng Anh để…

Bí mật đằng sau DeepSeek 1 | DeepSeekMath và chi tiết GRPO

Bí mật đằng sau DeepSeek 1 | DeepSeekMath và chi tiết GRPO

Hôm nay tôi muốn chia sẻ một bài viết từ DeepSeek, có tiêu đề DeepSeekMath: Đẩy mạnh giới hạn của lý luận toán học trong các mô hình ngôn ngữ mở. Bài viết này giới thiệu DeepSeekMath 7B, được đào tạo trước trên DeepSeek-Coder-Base-v1.5 7B dựa trên bộ sưu tập 120B mã thông báo liên quan đến toán học, ngôn ngữ tự nhiên và dữ liệu mã. Mô hình đạt được số điểm đáng kinh ngạc là 51,7% ở cấp độ cạnh tranh…

Công nghệ DeepSeek-R1 được tiết lộ: các nguyên tắc cốt lõi của bài báo được phân tích và chìa khóa để đạt được hiệu suất mô hình đột phá được tiết lộ

Hôm nay chúng tôi sẽ chia sẻ DeepSeek R1, Tiêu đề: DeepSeek-R1: Khuyến khích khả năng lý luận trong LLM thông qua Học tăng cường: Khuyến khích khả năng lý luận của LLM thông qua học tăng cường. Bài báo này giới thiệu thế hệ đầu tiên của các mô hình lý luận của DeepSeek, DeepSeek-R1-Zero và DeepSeek-R1. Mô hình DeepSeek-R1-Zero được đào tạo thông qua học tăng cường quy mô lớn (RL) mà không có điều chỉnh tinh chỉnh có giám sát (SFT) như một bước đầu tiên,…

Diễn giải bài báo DeepSeek R1 & các điểm kỹ thuật chính

1 Bối cảnh Vào dịp Tết Nguyên Đán, DeepSeek R1 một lần nữa thu hút sự chú ý rộng rãi, thậm chí bài giải thích DeepSeek V3 mà chúng tôi đã viết trước đó cũng được truyền lại và thảo luận rất nhiều. Mặc dù đã có nhiều phân tích và sao chép DeepSeek R1, nhưng ở đây chúng tôi quyết định biên soạn một số ghi chú đọc tương ứng. Chúng tôi sẽ sử dụng ba…