지난주 DeepSeek는 다음 주에 5개의 프로젝트를 오픈소스화한다고 발표했습니다. 네티즌들은 "이번에는 OpenAI가 정말 왔어요."라고 말했습니다. 방금 첫 번째 오픈소스 프로젝트가 나왔는데, 추론 가속과 관련된 FlashMLA입니다. 오픈소스 프로젝트 주소: DeepSeek FlashMLA 오픈소스화 된 지 2시간 되었고, Github은 이미 2.7k+개의 별을 받았습니다. The…
FlashMLA는 특히 대규모 언어 모델(LLM) 분야에서 인공 지능 분야에서 빠르게 주목을 받고 있습니다. DeepSeek에서 개발한 이 혁신적인 도구는 AI 계산에 일반적으로 사용되는 고성능 칩인 Hopper GPU를 위해 설계된 최적화된 디코딩 커널 역할을 합니다. FlashMLA는 가변 길이 시퀀스의 효율적인 처리에 중점을 두고 있어 특히…
소개 오늘날 대규모 언어 모델(LLM)은 중요한 역할을 합니다. 2025년 초, AI 경쟁이 치열해지면서 알리바바는 새로운 Qwen2.5-max AI 모델을 출시했고, 중국 항저우의 회사인 DeepSeek는 LLM 기술의 정점을 나타내는 R1 모델을 출시했습니다. Deepseek R1은 오픈 소스 AI 모델로…
32B 추론 모델은 데이터의 1/8만 사용하고 같은 크기의 DeepSeek-R1과 동률입니다! 방금 스탠포드, UC 버클리, 워싱턴 대학 등의 기관에서 SOTA 수준 추론 모델인 OpenThinker-32B를 공동으로 출시했으며, 최대 114k의 학습 데이터도 오픈소스로 공개했습니다. OpenThinker 프로젝트 홈페이지: OpenThinker Hugging Face:…