DeepSeek가 FlashMLA - Deepseek R1의 소스 코드와 자세한 설명을 공개했습니다.

지난 주 DeepSeek는 다음 주에 5개 프로젝트를 오픈 소스로 공개한다고 발표했습니다.

네티즌들은 "이번엔 OpenAI가 정말 왔구나"라고 입을 모았다.

방금 추론 가속과 관련된 첫 번째 오픈소스 프로젝트인 FlashMLA가 나왔습니다.

오픈소스 프로젝트 주소:

DeepSeek 플래시MLA

오픈 소스로 공개된 지 2시간이 지났고 Github에는 이미 2.7k개 이상의 별이 있습니다.

이 프로젝트의 핵심 기능은 다음과 같습니다.

“FlashMLA는 가변 길이 시퀀스 제공을 위해 최적화된 Hopper GPU용 효율적인 MLA 디코딩 커널입니다.”

번역하면 다음과 같습니다:

“FlashMLA는 NVIDIA Hopper 아키텍처 GPU에 최적화된 효율적인 MLA 디코딩 커널로, 특히 가변 길이 시퀀스를 처리하는 서비스 시나리오에 최적화되었습니다.”

요약해서 말하면:

FlashMLA는 DeepInference가 Hopper 아키텍처 GPU(예: H800)를 위해 설계한 효율적인 디코딩 코어입니다. 가변 길이 시퀀스의 멀티헤드 잠재적 어텐션 계산을 최적화하여 디코딩 단계에서 3000GB/s 메모리 대역폭과 580TFLOPS 컴퓨팅 파워의 궁극적인 성능을 달성하여 대규모 모델에 대한 긴 컨텍스트 추론의 효율성을 크게 향상시킵니다.

일부 네티즌들은 다음과 같이 말했다.

이미 이를 사용하고 있는 사람들이 있는데, 그들은 순수 엔지니어링이라고 말합니다.

이 프로젝트는 엔지니어링 최적화에 속합니다. 하드웨어 성능을 압축합니다. 한계.

이 프로젝트는 바로 사용할 수 있습니다.

환경 요구 사항:

호퍼 GPU
CUDA 12.3 이상
PyTorch 2.0 이상

프로젝트가 끝난 후 관계자는 이것이 FlashAttention 2&3과 NVIDIA CUTLASS 프로젝트에서 영감을 받았다고 밝혔습니다.

FlashAttention은 빠르고 메모리 효율적인 정밀 주의를 달성할 수 있으며 주류 대형 모델에 사용됩니다. 최신 3세대 버전은 H100의 활용률을 75%로 높일 수 있습니다.

학습 속도가 1.5-2배 빨라지고, FP16에서의 연산 처리량은 최대 740 TFLOPs/s로 높아져, 이론적인 최대 처리량의 75%에 도달하고, 이전에 35%에 불과했던 컴퓨팅 리소스를 더욱 충분히 활용할 수 있습니다.

플래시MLA 하드웨어 수준의 최적화를 통해 성능을 획기적으로 향상시킬 뿐만 아니라, AI 추론의 엔지니어링 실무에 대한 획기적인 솔루션을 제공하여 대규모 모델의 추론을 가속화하는 핵심 기술적 혁신이 되었습니다.

첫날에 정말 큰 공개가 있었죠.

저는 앞으로 4일간의 오픈소스에 대한 내용을 기대하고 있습니다!

네티즌은 이렇게 말했습니다.

고래가 파도를 일으키고 있어요!

DeepSeek는 정말 멋지네요!

분류

DeepSeek TOP17 최고의 대안: 종합 분석(2025)

으로deepseeker 2월 6, 20252월 6, 2025

소개 빠르게 진화하는 인공지능 환경에서 DeepSeek는 강력한 언어 모델로 부상했습니다. 이 포괄적인 분석은 DeepSeek의 상위 17개 대안을 살펴보고 고유한 기능, 역량 및 사용 사례를 검토합니다. 저희 연구는 DeepSeek 통합 또는 유사한 역량을 제공하는 국제 및 중국 플랫폼에 중점을 둡니다. 상위 대안 분석 1….

분류

Gemini 2.0이 차트를 장악하고 있고, DeepSeek V3는 가격이 비쌉니다. 그리고 새로운 비용 효율적인 챔피언이 탄생했습니다!

으로zddeepseeker 2월 8, 20252월 8, 2025

Google Gemini 2.0 제품군이 마침내 완성되었습니다! 출시되자마자 차트를 장악했습니다. Deepseek, Qwen, o3의 추적과 봉쇄 속에서 Google은 오늘 아침 일찍 Gemini 2.0 Pro, Gemini 2.0 Flash, Gemini 2.0 Flash-Lite의 세 가지 모델을 한꺼번에 출시했습니다. 대형 모델 LMSYS 순위에서 Gemini…

분류

논문-DeepSeek-R1: 강화 학습을 통한 LLM의 추론 능력 인센티브 제공

으로deepseeker 1월 29, 20251월 29, 2025

요약 이 백서에서는 DeepSeek의 1세대 추론 모델을 소개합니다: DeepSeek-R1-Zero와 DeepSeek-R1. 감독 미세 조정(SFT) 없이 대규모 강화 학습(RL)을 통해 훈련된 DeepSeek-R1-Zero는 놀라운 추론 능력을 보여줍니다. RL을 통해 자연스럽게 강력한 추론 행동을 개발합니다. 하지만 가독성 저하와 언어 혼용과 같은 문제에 직면해 있습니다. 이러한 문제를 해결하고 추론 성능을 향상시키기 위해 DeepSeek-R1이 개발되었습니다.

분류

Qwen2.5-max 대 DeepSeek R1: 모델의 심층적 비교: 애플리케이션 시나리오의 전체 분석

으로zddeepseeker 2월 14, 20252월 14, 2025

소개 오늘날 대규모 언어 모델(LLM)은 중요한 역할을 합니다. 2025년 초, AI 경쟁이 치열해지면서 알리바바는 새로운 Qwen2.5-max AI 모델을 출시했고, 중국 항저우의 회사인 DeepSeek는 LLM 기술의 정점을 나타내는 R1 모델을 출시했습니다. Deepseek R1은 오픈 소스 AI 모델로…

분류

세계의 주류 AI 제품은 분석과 포괄적인 사용자 경험 가이드라인(DeepSeek 및 GPT 포함)에 중점을 둡니다.

으로zddeepseeker 2월 10, 20252월 10, 2025

기능 위치 지정 및 핵심 이점 분석 ChatGPT(OpenAI) – 올라운더를 위한 글로벌 벤치마크 ChatGPT 기술 유전자: GPT 시리즈의 대규모 모델을 기반으로 하는 생성 AI로, 일반적인 대화 기술과 논리적 추론을 핵심 이점으로 삼습니다. 다국어 처리: 영어에서 가장 잘 수행되며 중국어는 지속적으로 향상되지만 영어를 사용하여…

분류

DeepSeek: Cherry Studio, Chatbox, AnythingLLM과 같은 대규모 언어 모델 관리 아티팩트 중에서 효율성을 가속하는 것은 누구입니까?

으로zddeepseeker 2월 11, 20252월 11, 2025

많은 사람들이 이미 Chatbox를 시각화 도구로 사용하여 Deepseek 대규모 언어 모델을 로컬에 배포하고 사용하기 시작했습니다. 이 문서에서는 두 가지 다른 AI 대규모 언어 모델 관리 및 시각화 아티팩트를 계속 소개하고 세 가지를 자세히 비교하여 AI 대규모 언어 모델을 보다 효율적으로 사용할 수 있도록 도와드리겠습니다. 2025년에는…

DeepSeek가 FlashMLA의 소스코드와 자세한 설명을 공개했습니다.