앞으로는 점점 더 하드코어한 혁신이 일어날 것입니다. 사회 전체가 사실에 기반한 교육을 받아야 하기 때문에 지금은 이해하기 쉽지 않을 수 있습니다. 이 사회가 하드코어 혁신을 하는 사람들이 성공할 수 있도록 허용하면 집단적 사고방식이 바뀔 것입니다. 우리는 많은 사실과 프로세스가 필요합니다. - DeepSeek의 설립자 Liang Wenfeng
최근 DeepSeek는 전 세계에서 폭발적으로 성장했지만, 회사가 너무 조용하고 발표를 하지 않았기 때문에 대중은 설립 배경, 사업 범위, 제품 구성 등 큰 잠재력을 가진 이 기술 회사에 대해 거의 알지 못합니다.
모든 자료 분류를 마친 후 이 글을 작성했습니다.
현재 AI 플레이어의 배경은 무엇이고, 어떤 일을 하고 있으며, 누구를 모집하고 있나요?
그리고 아마도 DeepSeek에 대한 가장 완벽한 역사적 개요일 것입니다.
작년 이맘때 매직 큐브 퀀트의 한 친구가 저를 찾아와 "중국에서 큰 모델을 만들고 싶지 않으세요?"라고 물었습니다. 그리고 저는 그저 커피를 마시며 오후를 보냈습니다. 예상대로 인생은 여전히 선택에 달려 있습니다.
그리고 여기에 언급된 매직 큐브 퀀트는 투자자입니다.또는 DeepSeek의 모회사입니다.
이른바 '퀀트'는 사람의 힘이 아닌 알고리즘에 의해 의사결정을 내리는 투자 기관입니다. 퀀트 판타지의 설립은 2015년에 시작되어 그리 오래되지 않았습니다. 설립 6년째인 2021년에 퀀트 판타지의 자산 운용 규모는 1,000억을 넘어섰고, 중국의 '4대 퀀트 왕' 중 하나로 칭송받았습니다.
판타지 스퀘어의 창립자이자 DeepSeek의 창립자인 Liang Wenfeng, 는 1980년대에 태어난 '비주류' 금융 리더로 해외 유학 경험도 없고 올림픽 대회 우승자도 아니며 저장대학교 전자공학과를 졸업하고 인공지능을 전공한 '비주류' 출신입니다. 그는 매일 "논문을 읽고, 코드를 작성하고, 그룹 토론에 참여하는" 소탈한 방식으로 행동하는 토종 기술 전문가입니다.
량웬펑은 전통적인 비즈니스 소유자의 습관이 아니라 순수한 '기술 괴짜'에 가깝습니다.. 많은 업계 관계자와 DeepSeek 연구원들은 Liang Wenfeng을 매우 높게 평가했습니다: "강력한 인프라 엔지니어링 역량과 모델 연구 역량을 모두 갖추고 자원 동원도 가능한 사람", "높은 수준에서 정확한 판단을 내릴 수 있을 뿐만 아니라 일선 연구원보다 세부적인 부분에서도 뛰어난 사람", "무서운 학습 능력"을 갖춘 사람이라고 평가했습니다.
DeepSeek가 설립되기 훨씬 전부터 환팡은 이미 AI 업계에서 장기적인 계획을 세우기 시작했습니다.. 2023년 5월, 량웬펑은 다크서지와의 인터뷰에서 "2020년 OpenAI가 GPT3를 출시한 후 AI 개발 방향이 매우 명확해졌고 컴퓨팅 파워가 핵심 요소가 될 것이지만, 우리가 파이어플라이 2 건설에 투자했던 2021년에도 대부분의 사람들은 여전히 이를 이해하지 못했다"고 언급했습니다.
이러한 판단을 바탕으로 환팡은 자체 컴퓨팅 인프라를 구축하기 시작했습니다. "초기에 1장의 카드에서 2015년에는 100장, 2019년에는 1,000장, 그다음에는 10,000장으로 점차적으로 늘려나갔습니다. 카드가 수백 장이 되기 전에는 IDC에서 호스팅했습니다. 규모가 커지자 호스팅으로는 더 이상 요구 사항을 충족할 수 없어 자체 전산실을 구축하기 시작했습니다."
나중에 파이낸스 일레븐은 "5명 이상의 10,000개 이상의 GPU를 보유한 국내 기업, 그리고 몇몇 주요 제조업체 외에도 매직큐브라는 퀀트 펀드 회사도 포함되어 있습니다.." 일반적으로 대형 모델을 훈련하기 위한 컴퓨팅 성능의 임계값은 10,000개의 Nvidia A100 칩으로 알려져 있습니다.
이전 인터뷰에서 Liang Wenfeng은 흥미로운 점을 언급하기도 했습니다: 많은 사람들이 그 이면에 알려지지 않은 비즈니스 로직이 있다고 생각하지만, 실제로는 호기심에서 비롯된 것이 대부분입니다.
DeepSeek의 첫 만남
2023년 5월 다크서지와의 인터뷰에서 다음과 같은 질문을 받았습니다. "얼마 전 환팡은 대형 모델을 만들겠다고 발표했는데, 왜 퀀트 펀드가 그런 일을 할까요?"
리앙 웬펑의 대답은 단호했습니다: "대규모 모델을 구축하기로 한 결정은 정량화나 재무와는 아무런 관련이 없습니다. 이를 위해 DeepSeek라는 새로운 회사를 설립했습니다. 미안팡 팀의 핵심 멤버 중 다수가 인공지능에 종사하고 있습니다. 당시 우리는 많은 시나리오를 시도했고 최종적으로 복잡한 금융을 선택했습니다. 일반 인공지능은 그 다음으로 달성하기 어려운 분야 중 하나이기 때문에 저희에게는 '왜'가 아니라 '어떻게'의 문제입니다.
상업적 이해관계나 시장 트렌드를 쫓는 것이 아니라 단순히 AGI 기술 자체를 탐구하려는 열망과 "가장 중요하고 어려운 것"을 끈질기게 추구하기 때문입니다. 2023년 5월에 'DeepSeek'라는 이름이 공식적으로 확정되었습니다.. 2023년 7월 17일, "항저우 DeepSeek 인공지능 기초기술연구 유한공사"가 설립되었습니다.
켜짐 2023년 11월 2일, DeepSeek가 첫 번째 해답을 내놓았습니다: 오픈 소스 코드의 대형 모델인 DeepSeek Coder. 이 모델에는 1B, 7B 및 33B와 같은 여러 크기가 포함됩니다. 오픈 소스 콘텐츠에는 기본 모델과 명령 튜닝 모델이 포함되어 있습니다.
당시 오픈 소스 모델 중에서는 Meta의 CodeLlama가 업계 벤치마크였습니다. 하지만 DeepSeek Coder가 출시되자 코드 생성에서 휴먼에벌은 9.3%, MBPP는 10.8%, DS-1000은 5.9% 앞서는 등 다방면에서 CodeLlama에 비해 앞선 모습을 보여주었습니다.
DeepSeek 코더는 7B 모델이고 CodeLlama는 34B 모델이라는 점을 기억하세요. 또한 DeepSeek 코더 모델은 지침을 통해 튜닝한 후 GPT3.5-Turbo를 포괄적으로 능가했습니다.
코드 생성도 인상적이지만, DeepSeek 코더는 수학과 추론에서도 뛰어난 능력을 발휘합니다.
3일 후인 2023년 11월 5일, DeepSeek는 위챗 공식 계정을 통해 AGI 대형 모델 인턴, 데이터 전문가, 데이터 아키텍처 인재, 선임 데이터 수집 엔지니어, 딥러닝 연구 개발 엔지니어 등의 직책을 포함한 대량의 채용 콘텐츠를 공개하고 적극적인 팀 확장에 나섰습니다.
량 웬펑의 말처럼, DeepSeek의 인재 채용에 있어 '필수 요건'은 '열정과 탄탄한 기본 기술'입니다.그리고 그는 다음과 같이 강조했습니다. "혁신은 가능한 한 간섭과 관리를 최소화하여 모두가 실수하고 새로운 것을 시도할 수 있는 자유를 누릴 수 있도록 해야 합니다. 혁신은 의도적인 준비가 아니라 내부에서 비롯되는 경우가 많으며, 가르침에서 비롯되는 것도 아닙니다."
모델이 자주 출시되고 오픈 소스가 실행됩니다.
DeepSeek 코더가 큰 성공을 거둔 후 DeepSeek는 주요 전장인 일반 언어 모델에 관심을 돌렸습니다.
켜짐 2023년 11월 29일, DeepSeek는 최초의 범용 대형 언어 모델인 DeepSeek LLM 67B를 출시했습니다. 이 모델은 같은 수준의 Meta의 LLaMA2 70B 모델을 벤치마킹한 것으로, 중국어와 영어로 된 약 20개의 공개 평가 목록에서 더 우수한 성적을 거두었습니다. 특히 추론, 수학, 프로그래밍 능력(예: HumanEval, MATH, CEval, CMMLU)이 뛰어납니다.
DeepSeek LLM 67B도 오픈 소스 경로를 선택했으며 상업적 사용을 지원합니다. 오픈소스에 대한 진정성과 의지를 보여주기 위해 DeepSeek는 전례 없이 서로 다른 규모의 두 가지 모델인 7B와 67B를 동시에 오픈소스화했으며, 모델 훈련 과정에서 생성된 9개의 체크포인트까지 공개해 연구자들이 다운로드하여 사용할 수 있도록 했습니다. '모든 것을 가르친다'고 할 수 있는 이러한 작업은 오픈소스 커뮤니티 전체에서 극히 드문 일입니다.
DeepSeek LLM 67B의 실제 능력을 보다 종합적이고 객관적으로 평가하기 위해 DeepSeek 연구팀은 '스트레스 테스트'를 위한 일련의 '새로운 문제'도 신중하게 설계했습니다. 이러한 문제에는 헝가리 고등학교 수학 시험 문제, Google 명령어 따라하기 평가 세트, LeetCode 주간 대회 문제 등 높은 수준의 변별력 높은 테스트 문제가 포함되어 있습니다. 시험 결과는 고무적이었습니다. DeepSeek LLM 67B는 샘플을 넘어 일반화할 수 있는 능력 면에서 놀라운 잠재력을 보였으며, 전반적인 성능은 당시 가장 발전된 GPT-4 모델과도 비슷했습니다.
켜짐 2023년 12월 18일, DeepSeek 빈센트 3D 모델 드림크래프트3D 오픈소스화를 사용하면 문장에서 고품질 3D 모델을 생성하여 AIGC에서 2D 평면에서 3D 공간으로의 도약을 이룰 수 있습니다. 예를 들어 사용자가 다음과 같이 입력한다고 가정해 보세요: "숲 속을 달리다, 돼지 머리와 원숭이 왕의 몸통의 재미있는 하이브리드 이미지"라고 입력하면 드림크래프트3D는 고품질 콘텐츠를 출력할 수 있습니다:
원칙적으로 모델은 먼저 벤 다이어그램을 완성한 다음 2D 컨셉 맵을 기반으로 전체 기하학적 구조를 보완합니다:
이어진 주관적 평가에서 90% 이상의 사용자가 드림크래프트3D가 이전 세대 방식에 비해 생성 품질에서 우위에 있다고 답했습니다.
2024년 1월 7일, DeepSeek는 DeepSeek LLM 67B 기술 보고서를 발표했습니다. 40페이지가 넘는 이 보고서에는 자체 구축한 스케일링 법칙, 모델 정렬에 대한 완전한 실용적인 세부 사항, 종합적인 AGI 능력 평가 시스템 등 DeepSeek LLM 67B에 대한 많은 세부 정보가 포함되어 있습니다.
켜짐 2024년 1월 11일, DeepSeek는 중국 최초의 MoE(혼합 전문가 아키텍처) 대형 모델인 중국어와 영어를 지원하며 상업적으로 무료로 사용할 수 있는 새로운 아키텍처인 DeepSeekMoE를 오픈소스화했습니다. 당시 MoE 아키텍처는 일반적으로 OpenAI GPT-4의 성능 혁신의 핵심으로 여겨졌습니다. DeepSeek가 자체 개발한 MoE 아키텍처는 2B, 16B, 145B 등 다양한 규모에서 선두를 달리고 있으며, 계산 능력도 매우 뛰어납니다.
2024년 1월 25일, DeepSeek는 DeepSeek 코더 기술 보고서를 발표했습니다. 이 보고서는 학습 데이터, 학습 방법, 모델 성능에 대한 종합적인 기술 분석을 제공합니다. 이 보고서에서는 처음으로 웨어하우스 수준의 코드 데이터를 구축하고 토폴로지 정렬을 사용하여 파일 간의 종속성을 분석함으로써 장거리 교차 파일에 대한 이해 능력을 크게 향상시킨 것을 확인할 수 있습니다. 학습 방법 측면에서는 Fill-In-Middle 방식을 추가하여 코드 완성 능력을 크게 향상시켰습니다.
2024년 1월 30일, DeepSeek 오픈 플랫폼이 공식 출시되었고 DeepSeek 대형 모델 API 서비스가 테스트를 시작했습니다. 등록하고 1,000만 토큰을 무료로 받으세요. 인터페이스는 OpenAI API 인터페이스와 호환되며, 채팅/코딩 듀얼 모델을 모두 사용할 수 있습니다. 이때 DeepSeek는 기술 연구 개발과 더불어 기술 서비스 제공업체의 길을 모색하기 시작했습니다.
켜짐 2024년 2월 5일, DeepSeek는 또 다른 수직 도메인 모델인 DeepSeekMath를 출시했습니다.수학적 추론 모델입니다. 이 모델은 매개변수 수가 7B에 불과하지만 수학적 추론 능력은 GPT-4에 근접합니다. 권위 있는 수학 벤치마크 목록에서 30억에서 70억 사이의 매개변수 크기를 가진 여러 오픈 소스 모델을 능가하는 성능을 보였습니다. DeepSeekMath의 출시는 수직적 연구 개발에서 DeepSeek의 기술력과 모델 연구 개발에서 미래 지향적인 레이아웃을 충분히 보여줍니다.
켜짐 2024년 2월 28일, DeepSeek 오픈소스 모델 사용에 대한 개발자들의 우려를 더욱 완화하기 위해 DeepSeek는 오픈소스 정책 FAQ를 발표했습니다.에서 오픈소스 라이선스 모델과 상업적 사용 제한 등 자주 묻는 질문에 대한 자세한 답변을 확인할 수 있습니다. DeepSeek는 보다 투명하고 개방적인 태도로 오픈소스를 수용합니다:
켜짐 2024년 3월 11일, DeepSeek는 멀티모달 대형 모델 DeepSeek-VL을 출시했습니다.. 이것은 멀티모달 AI 기술에 대한 DeepSeek의 첫 번째 시도입니다. 이 모델의 크기는 70억과 13억이며, 모델과 기술 논문은 동시에 오픈 소스로 공개됩니다.
켜짐 2024년 3월 20일, Huanfang AI & DeepSeek는 다시 한 번 NVIDIA GTC 2024 컨퍼런스에 초대받아 설립자 Liang Wenfeng이 기술 기조 연설을 진행했습니다. "다양성의 조화: 대규모 언어 모델의 가치 정렬 및 분리"라는 주제로 진행되었습니다. '단일 가치 대형 모델과 다원적 사회 및 문화 사이의 갈등', '대형 모델 가치 정렬의 분리', '분리된 가치 정렬의 다차원적 과제' 등의 이슈가 논의되었습니다. 이를 통해 DeepSeek는 기술 연구 개발뿐만 아니라 AI 개발에 대한 인문학적 배려와 사회적 책임을 보여주었습니다.
2024년 3월, DeepSeek API 가 공식적으로 유료 서비스를 시작하면서 중국 대형 모델 시장에서 가격 전쟁의 서막을 알렸습니다: 입력 토큰 100만 개당 1위안, 출력 토큰 100만 개당 2위안.
2024년, DeepSeek는 중국에서 대형 모델 등록을 성공적으로 통과하여 API 서비스 전면 개방을 위한 정책적 장애물을 제거했습니다.
2024년 5월, 오픈소스 일반 MoE 대형 모델인 DeepSeek-V2가 출시되면서 가격 전쟁이 공식적으로 시작되었습니다. DeepSeek-V2는 MLA(멀티 헤드 잠재주의 메커니즘)를 사용하여 모델의 메모리 공간을 기존 MHA의 5%-13%로 줄였습니다. 동시에 모델의 계산 복잡성을 크게 줄여주는 DeepSeek MoE 스파스 스파스 구조도 독자적으로 개발했습니다. 덕분에 이 모델은 '입력 1위안/백만 개, 출력 2위안/백만 개'의 API 가격을 유지합니다.
DeepSeek는 큰 영향을 미쳤습니다. 이와 관련하여 SemiAnalysis의 수석 애널리스트는 DeepSeek V2 논문이 "올해 최고의 논문 중 하나"라고 생각합니다. 마찬가지로 전 OpenAI 직원인 앤드류 카는 이 논문이 "놀라운 지혜로 가득 차 있다"고 생각하며 자신의 모델에 해당 훈련 설정을 적용했습니다.
이것은 GPT-4-Turbo를 벤치마킹한 모델이며, API 가격은 후자의 1/70에 불과하다는 점에 유의해야 합니다.
6월에 17, 2024, DeepSeek는 다시 한 번 DeepSeek 코더 V2 코드 모델을 출시하며 큰 성과를 거두었습니다. 오픈 소스이며, 당시 가장 진보된 비공개 소스 모델인 GPT-4-Turbo를 능가하는 코드 기능을 제공한다고 주장했습니다. DeepSeek 코더 V2는 모든 모델, 코드, 논문이 오픈 소스화되어 있으며 236B와 16B 두 가지 버전이 제공되는 등 DeepSeek의 일관된 오픈 소스 전략을 이어가고 있습니다. DeepSeek 코더 V2의 API 서비스는 온라인에서도 이용할 수 있으며, 가격은 '입력 100만 위안, 출력 200만 위안'으로 유지됩니다.
켜짐 2024년 6월 21일, DeepSeek 코더는 온라인 코드 실행을 지원했습니다. 같은 날, 코드를 자동으로 생성하여 브라우저에서 바로 실행하는 새로운 아티팩트 기능이 포함된 Claude3.5 Sonnet이 출시되었습니다. 같은 날 DeepSeek 웹사이트의 코드 어시스턴트도 클릭 한 번으로 코드를 생성하고 실행하는 동일한 기능을 출시했습니다.
이 기간의 주요 이벤트를 살펴보겠습니다:
지속적인 혁신, 전 세계의 주목을 받는 기업
2024년 5월, DeepSeek는 MoE 기반의 오픈소스 모델인 DeepSeek V2를 출시하면서 하루아침에 유명해졌습니다. GPT-4-Turbo와 성능은 비슷하지만 가격은 GPT-4-Turbo의 1/70 수준인 100만 위안에 불과했습니다. 당시 DeepSeek는 업계에서 잘 알려진 '가격 도살자'가 되었고, 이후 Zhicheng, ByteDance, 알리바바 등 주요 업체들이 빠르게 따라 가격을 낮췄습니다. 또한 그 무렵 또 한 차례의 GPT 금지 조치가 있었고, 많은 수의 AI 애플리케이션이 처음으로 국내 모델을 시험하기 시작했습니다.
2024년 7월, DeepSeek의 설립자 Liang Wenfeng은 다시 한 번 다크서지와의 인터뷰를 수락하고 가격 전쟁에 대해 직접 답변했습니다: "매우 예상치 못한 일이에요. 가격 때문에 모두가 그렇게 민감하게 반응할 줄은 몰랐어요. 저희는 우리 페이스대로 일을 진행한 다음 원가에 따라 가격을 책정합니다. 저희의 원칙은 손해를 보거나 과도한 이윤을 남기지 않는 것입니다. 이번 가격도 원가보다 약간 높은 가격에 약간의 이윤을 더한 것입니다."
보조금을 지급하기 위해 자신의 주머니에서 돈을 지불하는 많은 경쟁사와 달리 DeepSeek는이 가격으로 수익성이 있음을 알 수 있습니다.
어떤 사람들은 가격 인하는 사용자를 강탈하는 것과 같다고 말할 수 있으며, 이는 인터넷 시대의 가격 전쟁에서 흔히 볼 수 있는 일입니다.
이에 대해 량웬펑도 이렇게 답했습니다: "사용자를 빼앗는 것은 우리의 주요 목표가 아닙니다. 한편으로는 차세대 모델의 구조를 탐구하면서 비용이 낮아졌고, 다른 한편으로는 API와 AI 모두 저렴하고 누구나 이용할 수 있어야 한다고 생각했기 때문에 가격을 낮췄습니다."
그래서 이야기는 량웬펑의 이상주의와 함께 계속됩니다.
2024년 7월 4일, DeepSeek API가 온라인 상태가 되었습니다. 128K 컨텍스트의 가격은 변경되지 않았습니다. 모델의 추론 비용은 컨텍스트의 길이와 밀접한 관련이 있습니다. 따라서 많은 모델이 이 길이에 엄격한 제한을 두고 있으며, GPT-3.5의 초기 버전은 4k 컨텍스트만 지원합니다.
이때 DeepSeek는 컨텍스트 길이를 기존 32k에서 128k로 늘리면서 가격은 그대로 유지했습니다(입력 토큰 100만 개당 1위안, 출력 토큰 100만 개당 2위안).
켜짐 2024년 7월 10일, 세계 최초의 AI 올림피아드(AIMO) 결과가 발표되었고, DeepSeekMath 모델이 상위권 팀들의 공통된 선택이 되었습니다.. 우승한 상위 4개 팀은 모두 DeepSeekMath-7B를 출품 모델의 기반으로 선택했으며 대회에서 인상적인 결과를 얻었습니다.
켜짐 2024년 7월 18일, DeepSeek-V2가 챗봇 아레나의 오픈 소스 모델 목록에서 1위를 차지했습니다, 라마3-70B, 퀀2-72B, 네모트론-4-340B, 젬마2-27B와 같은 스타 모델을 능가하며 오픈 소스 대형 모델의 새로운 벤치마크가 되었습니다.
In 2024년 7월, DeepSeek는 계속해서 인재를 모집했습니다. 를 설립하고 AI 알고리즘, AI 인프라, AI 튜터, AI 제품 등 여러 분야에서 전 세계 최고 인재를 영입해 미래 기술 혁신과 제품 개발을 준비했습니다.
켜짐 2024년 7월 26일, DeepSeek API는 덮어쓰기, FIM(중간 채우기) 완성, 함수 호출, JSON 출력과 같은 일련의 고급 기능을 완벽하게 지원하는 중요한 업그레이드를 시작했습니다. FIM 함수는 매우 흥미롭습니다. 사용자가 시작과 끝을 지정하면 큰 모델이 중간을 채우므로 프로그래밍 프로세스에서 정확한 함수 코드를 채우는 데 매우 적합합니다. 피보나치 수열을 예로 들어 보겠습니다:
켜짐 2024년 8월 2일, DeepSeek는 하드 디스크 캐싱 기술을 혁신적으로 도입하여 API 가격을 발목까지 낮췄습니다. 이전에는 API 가격이 토큰 백만 개당 1엔에 불과했습니다. 하지만 이제 캐시 히트가 발생하면 API 수수료는 0.1엔으로 바로 떨어집니다.
이 기능은 지속적인 대화와 일괄 처리 작업이 필요할 때 매우 유용합니다.
켜짐 2024년 8월 16일, DeepSeek는 수학적 정리 증명 모델인 DeepSeek-Prover-V1.5를 출시했습니다. 고등학교와 대학교 수학 정리 증명 시험에서 잘 알려진 많은 오픈 소스 모델을 능가하는 오픈 소스입니다.
켜짐 2024년 9월 6일, DeepSeek는 DeepSeek-V2.5 퓨전 모델을 출시했습니다. 이전에는 주로 일반적인 대화 능력에 중점을 둔 채팅 모델과 코드 처리 능력에 중점을 둔 코드 모델의 두 가지 모델을 제공했습니다. 이번에는 두 모델을 하나로 통합하여 DeepSeek-V2.5로 업그레이드하여 사람의 선호도에 더 잘 부합하고 쓰기 작업, 명령 팔로우 및 기타 측면에서도 상당한 개선을 이루었습니다.
켜짐 2024년 9월 18일, DeepSeek-V2.5가 다시 한 번 최신 LMSYS 목록에 올라 국내 모델을 선도하고 있습니다. 여러 개인 능력 부문에서 국내 모델 최고 기록을 경신했습니다.
켜짐 2024년 11월 20일, DeepSeek 출시 DeepSeek-R1-Lite 에서 확인할 수 있습니다. 이는 o1-preview에 필적하는 추론 모델이며 V3의 사후 학습을 위한 충분한 양의 합성 데이터를 제공합니다.
켜짐 2024년 12월 10일, DeepSeek V2 시리즈는 최종 미세 조정 버전인 DeepSeek-V2.5-1210의 출시로 피날레를 장식했습니다. 이 버전은 사후 교육을 통해 수학, 코딩, 글쓰기, 롤플레잉 등 다양한 능력을 종합적으로 향상시킵니다.
이번 버전 출시와 함께 DeepSeek 웹 앱에 네트워크 검색 기능도 추가되었습니다.
켜짐 2024년 12월 13일, DeepSeek는 멀티모달 분야에서 또 다른 돌파구를 마련하고 오픈 소스 멀티모달 대형 모델인 DeepSeek-VL2를 출시했습니다. DeepSeek-VL2는 MoE 아키텍처를 채택하여 시각적 기능을 크게 향상시켰습니다. 세 가지 크기로 제공됩니다: 3B, 16B, 27B의 세 가지 크기로 제공되며 모든 지표에서 우위를 점합니다.
켜짐 2024년 12월 26일, DeepSeek-V3가 오픈 소스로 출시되었는데, 예상 교육 비용은 550만 달러에 불과했습니다. DeepSeek-V3는 해외 주요 비공개 소스 모델의 성능을 완벽하게 벤치마킹하여 생성 속도를 크게 향상시켰습니다.
API 서비스 가격이 조정되었지만 동시에 새 모델에 대해 45일간의 우선 평가판 기간이 설정되었습니다.
2025년 1월 15일, 공식 DeepSeek 앱이 공식 출시되어 주요 iOS/Android 앱 마켓에 정식으로 출시되었습니다.
구정에 가까운 2025년 1월 20일, DeepSeek-R1 추론 모델이 공식 출시되어 오픈소스로 공개되었습니다. DeepSeek-R1은 공식 OpenAI o1 릴리스와 성능을 완전히 일치시키고 사고 체인 출력 기능을 개방했습니다. 동시에 DeepSeek는 모델 오픈 소스 라이선스를 MIT 라이선스로 변경하고 사용자 계약에서 '모델 증류'를 명시적으로 허용하여 오픈 소스를 더욱 포용하고 기술 공유를 촉진할 것이라고 발표했습니다.
이후 이 모델은 큰 인기를 얻으며 새로운 시대를 열었습니다.
그 결과 DeepSeek 앱은 2025년 1월 27일 기준 미국 iOS 앱스토어 무료 앱 다운로드 순위에서 ChatGPT를 제치고 1위를 차지하며 경이로운 AI 앱으로 자리매김했습니다.
2025년 1월 27일 새해 전야 새벽 1시에 DeepSeek 야누스 프로가 오픈 소스로 출시되었습니다. 고대 로마 신화에 나오는 두 얼굴을 가진 신 야누스의 이름을 딴 멀티모달 모델로, 과거와 미래를 모두 마주하고 있습니다. 이는 시각적 이해와 이미지 생성이라는 이 모델의 두 가지 능력과 여러 순위에서 우위를 점하는 것을 상징하기도 합니다.
DeepSeek의 폭발적인 인기는 곧바로 전 세계에 기술 충격파를 불러일으켰고, 엔비디아의 주가가 18% 급락하고 글로벌 기술 주식 시장의 시장 가치가 약 1조 달러 증발하는 직접적인 원인으로 작용하기도 했습니다. 월스트리트와 기술 미디어는 DeepSeek의 부상이 글로벌 AI 산업 지형을 뒤흔들고 있으며 미국 거대 기술 기업에 전례 없는 도전을 제기하고 있다고 평가했습니다.
DeepSeek의 성공은 중국의 AI 기술 혁신 역량에 대한 국제적인 높은 관심과 열띤 토론을 불러일으켰습니다. 도널드 트럼프 미국 대통령은 이례적으로 공개 논평을 통해 DeepSeek의 부상을 "긍정적"이라고 칭찬하며 미국에 "경종을 울렸다"고 말했습니다. Microsoft CEO 사티아 나델라와 OpenAI CEO 샘 알트만도 DeepSeek의 기술이 "매우 인상적"이라며 칭찬을 아끼지 않았습니다.
물론 이들의 칭찬은 부분적으로는 DeepSeek의 강점을 인정한 것이고, 부분적으로는 그들 자신의 동기를 반영한 것이라는 점도 이해해야 합니다. 예를 들어, Anthropic은 DeepSeek의 성과를 인정하면서도 미국 정부에 중국에 대한 칩 통제를 강화할 것을 촉구하고 있습니다.
Anthropic CEO가 10,000단어짜리 기사를 게시합니다: DeepSeek의 부상은 백악관이 통제를 강화해야 함을 의미합니다.
요약 및 전망
무명의 스타트업에서 이제는 글로벌 AI 무대에서 빛을 발하는 '신비한 동양의 강자'가 된 DeepSeek의 지난 2년을 되돌아보면, DeepSeek는 그야말로 '중국의 기적'을 써왔습니다.
이 기술 탐험의 더 깊은 의미는 상업적 경쟁의 범위를 넘어선 지 오래입니다. DeepSeek는 다음과 같은 사실을 발표했습니다. 미래를 좌우하는 인공지능이라는 전략적 분야에서 중국 기업들은 핵심 기술의 정점에 오를 수 있는 충분한 역량을 갖추고 있습니다.
트럼프가 울린 '경종'과 인류에 대한 숨겨진 두려움은 중국의 AI 역량이 파도를 탈 수 있을 뿐만 아니라 조류의 방향을 재편하고 있다는 점을 정확하게 확인시켜줍니다.
Deepseek 제품 릴리스 마일스톤
- 2023년 11월 2일: DeepSeek 코더 대형 모델
- 2023년 11월 29일: DeepSeek LLM 67B 범용 모델
- 2023년 12월 18일: 드림크래프트3D 3D 모델
- 2024년 1월 11일: DeepSeekMoE MoE 대형 모델
- 2024년 2월 5일: DeepSeekMath 수학적 추론 모델
- 2024년 3월 11일: DeepSeek-VL 멀티모달 대형 모델
- 2024년 5월: DeepSeek-V2 MoE 일반 모델
- 2024년 6월 17일: DeepSeek 코더 V2 코드 모델
- 2024년 9월 6일: DeepSeek-V2.5 일반 역량 모델과 코드 역량 모델의 융합
- 2024년 12월 13일: DeepSeek-VL2 멀티모달 MoE 모델
- 2024년 12월 26일: 범용 대형 모델의 새로운 시리즈 DeepSeek-V3
- 2025년 1월 20일: DeepSeek-R1 추론 모델
- 2025년 1월 20일: DeepSeek 공식 앱(iOS 및 Android)
- 2025년 1월 27일: DeepSeek 야누스-프로 멀티모달 모델