그리고 DeepSeek R1 모델 마이너 버전 업그레이드가 진행되었으며, 현재 버전은 DeepSeek-R1-0528입니다. DeepSeek 웹페이지나 앱에 접속하시면 대화창에서 "딥 씽킹" 기능을 활성화하여 최신 버전을 경험하실 수 있습니다.

DeepSeek-R1-0528 모델 무게가 HuggingFace에 업로드되었습니다.

지난 4개월 동안 DeepSeek-R1은 엄청난 진화를 거쳐, 비교할 수 없을 만큼 뛰어난 코딩 성능과 훨씬 더 긴 사고 시간을 달성했습니다. DeepSeek-R2 모두가 기대했던 대로, DeepSeek-R1-0528 모델의 개선 사항은 상당했습니다.

보도에 따르면, 새로운 모델은 DeepSeek-V3-0324(매개변수 660B)에서 훈련되었습니다.

먼저 표를 통해 이 릴리스의 주요 업데이트를 간략히 살펴보겠습니다.

역량 차원deepseek-R1딥시크-R1-0528
최대 컨텍스트64k(API)128K(API) 더 많음
코드 생성liveCodeBench close openai O1O3에 가깝습니다
추론의 깊이복잡한 질문에는 세분화된 프롬프트가 필요합니다.30~60분 동안 심도 있는 사고를 지원합니다.
언어의 자연스러움다소 길다컴팩트한 구조, O3와 유사한 쓰기 방식
사용 비용오픈소스 또는 API$0.5/M오픈소스 또는 API$0.5/M

심층적 사고 능력 강화

DeepSeek-R1-0528은 여전히 2024년 12월에 출시된 DeepSeek V3 Base 모델을 기반으로 사용하고 있지만, 사후 학습 과정에서 더 많은 컴퓨팅 파워를 투자하여 모델의 사고 깊이와 추론 능력을 크게 향상시켰습니다.

업데이트된 R1 모델은 수학, 프로그래밍, 일반 논리 등 여러 벤치마크 평가에서 국내 모든 모델 중 최상위 성능을 달성했으며, 전반적인 성능은 이제 o3, Gemini-2.5-Pro 등 다른 국제 최상위 모델과 동등한 수준이 되었습니다.

  • 수학 및 프로그래밍 역량: AIME 2025 수학 경진대회에서 정확도는 이전 버전의 70%에서 87.5%로 향상되었습니다. LiveCodeBench 벤치마크 테스트의 코드 생성 역량은 OpenAI의 o3-high 모델과 거의 동등하며, pass@1 점수는 73.3%입니다.

사용자 테스트 결과, 새로운 DeepSeek-R1은 프로그래밍 면에서 정말 놀라운 성능을 보여줍니다!

AI 전문가 "karminski-dentist"는 동일한 프롬프트를 사용하여 DeepSeek-R1-0528과 Claude 4 Sonnet을 테스트하여 다음과 같은 결과를 발견했습니다.

벽에 반사되는 빛의 확산성이든, 충격 후 공의 움직임 방향이든, 제어판의 미적 감각이든, R1은 경쟁 제품보다 확실히 우수한 성능을 보입니다.

사용자 Haider는 모델에 단어 채점 시스템을 구축하도록 했습니다. R1은 잠시 작업을 검토한 후 즉시 두 개의 파일을 생성했습니다. 하나는 코드용이고 다른 하나는 작업 테스트용이었는데, 첫 번째 시도에서 문제없이 실행되었습니다.

이전에는 o3만이 이 작업을 수행할 수 있는 유일한 모델이었습니다. 이제 R1이 이 작업에 가장 적합한 모델임은 의심할 여지가 없습니다.

R1의 성능이 매우 놀라운 이유는 두 파일을 처음 시도할 때 아무런 편집이나 재시도 없이 완벽하게 실행했기 때문입니다. 재시도는 극히 드문 일입니다.

이전에는 대부분의 모델이 예외적인 상황에서 종료되거나, 솔루션을 지나치게 복잡하게 만들거나, 적절한 테스트 범위가 부족했습니다.

  • 추론 심도: 단일 작업 사고 시간이 30~60분으로 연장되어 복잡한 문제(예: 물리 시뮬레이션, 다단계 논리 퍼즐)에 대한 문제 해결 능력이 크게 향상되었습니다.

더 긴 사고 시간은 온라인에서 가장 많이 논의되는 기능이 되었습니다. 일부 사용자는 R1의 실제 테스트에서 사고 시간이 25분을 초과했다고 보고했습니다.

또한, 이것은 "9.9에서 9.11을 빼면 몇인가?"라는 질문에 지속적으로 정확하게 답할 수 있는 유일한 모델인 것으로 보입니다.

DeepSeek-R1-0528은 우수한 성능을 달성했습니다. 모든 평가 데이터 세트에 대해

이전 버전의 R1에 비해 새 모델은 복잡한 추론 과제에서 상당한 개선을 보였습니다. 예를 들어, AIME 2025 테스트에서 새 모델의 정확도는 70%에서 87.5%로 증가했습니다.

이러한 개선은 모델의 추론 심도가 강화되었기 때문입니다. AIME 2025 테스트 세트에서 기존 모델은 문제당 평균 12,000개의 토큰을 사용했지만, 새 모델은 문제당 평균 23,000개의 토큰을 사용하여 문제 해결 과정에서 더욱 자세하고 심도 있는 사고가 필요하다는 것을 보여줍니다.

또한 deepseek 팀은 DeepSeek-R1-0528에서 추론 체인을 추출하고 Qwen3-8B 기반을 미세 조정하여 DeepSeek-R1-0528-Qwen3-8B를 만들었습니다.

이 8B 모델은 AIME 2024 수학 시험에서 DeepSeek-R1-0528에 이어 2위를 차지했으며, Qwen3-8B(+10.0%)보다 우수한 성적을 거두었고, Qwen3-235B와 맞먹는 성적을 기록했습니다.

DeepSeek-R1-0528의 추론 체인은 추론 모델에 대한 학술 연구와 소규모 모델의 산업 개발에 중요한 영향을 미칠 것입니다.

일부 네티즌들은 DeepSeek-R1이 o3와 같은 추론 체인을 교정하고 클로드처럼 창의적으로 세계를 구성할 수 있다는 점을 칭찬했습니다.

DeepSeek가 오픈소스 모델이라는 점은 오픈소스 모델의 큰 승리를 상징한다는 점에 주목하는 것이 중요합니다.

DeepSeek-R1-0528-Qwen3-8B와 같은 오픈소스 모델에 대한 AIME 2024 비교 결과

기타 기능 업데이트

  • 환각 개선: 새로운 버전의 DeepSeek R1는 "환각" 문제에 대한 성능을 최적화했습니다. 이전 버전과 비교하여 업데이트된 모델은 다시 쓰기 및 다듬기, 요약, 독해 등의 작업에서 환각 발생률을 45~50% 감소시켜 더욱 정확하고 신뢰할 수 있는 결과를 제공합니다.
  • 창의적 글쓰기: 이전 R1 버전을 기반으로 업데이트된 R1 모델은 수필, 소설, 산문 글쓰기 스타일에 맞춰 더욱 최적화되어 인간의 선호도에 더 부합하는 글쓰기 스타일을 제시하는 동시에 더 길고 구조적으로 완전한 작품을 생성할 수 있게 되었습니다.
  • 도구 호출: DeepSeek-R1-0528은 도구 호출을 지원합니다(생각하기에서는 도구 호출이 지원되지 않습니다). 현재 모델의 Tau-Bench 평가 점수는 항공의 경우 53.5%, 소매의 경우 63.9%로, OpenAI o1-high와 유사하지만 o3-High와 Claude 4 Sonnet에는 여전히 뒤처집니다.

이 예시는 LobeChat을 통해 DeepSeek-R1-0528의 도구 호출 기능을 사용하여 생성된 웹 문서 요약을 보여줍니다. 또한, DeepSeek-R1-0528은 프런트엔드 코드 생성 및 롤플레잉과 같은 영역에서 업데이트 및 개선되었습니다.

이 예에서는 웹 페이지에서 DeepSeek-R1-0528을 호출하여 HTML/CSS/JavaScript를 사용하여 개발된 현대적이고 미니멀한 단어 카드 애플리케이션을 보여줍니다.

DeepSeek-R1-0528 업데이트의 주요 내용

  • Google 모델과 비슷한 심층적 추론 기능
  • 텍스트 생성 최적화: 보다 자연스럽고 더 나은 형식
  • 독특한 추론 스타일: 더 빠를 뿐만 아니라 더 엄격함
  • 장기적 사고 지원: 단일 작업 처리 시간은 30~60분에 달할 수 있습니다.

저희는 DeepSeek-R1의 새로운 버전의 성능을 테스트했습니다. 비록 "마이너 버전" 업데이트이지만, 성능이 '획기적으로' 향상되었습니다.

특히 프로그래밍 기능 면에서는 Claude 4와 Gemini 2.5 Pro를 능가하거나 동등하다고 느껴집니다. 모든 프롬프트는 "원샷" 방식으로 수정이 필요 없습니다! 웹 브라우저에서 직접 실행하여 기능을 시연할 수도 있습니다.

새로운 DeepSeek-R1 버전의 사고 과정이 더욱 안정적이라는 것을 확실히 느낄 수 있습니다.

deepseek-R1에 궁금한 점이 있으면 무엇이든 물어보세요. 질문이 다소 엉뚱하더라도 deepseek-R1는 신중하게 생각하고 논리를 구성해 줍니다. 최신 deepseek-R1 모델을 사용해 보시는 것을 강력히 추천합니다.

API 업데이트 정보

API는 업데이트되었지만 인터페이스와 호출 메서드는 변경되지 않았습니다. 새로운 R1 API는 여전히 모델의 사고 과정 보기를 지원하며, 이제 함수 호출과 JsonOutput도 지원합니다.

deepseek 팀은 새로운 R1 API에서 max_tokens 매개변수의 의미를 조정했습니다. 이제 max_tokens는 모델의 단일 출력(사고 과정 포함)의 총 길이를 제한하며, 기본값은 32KB, 최대값은 64KB입니다. API 사용자는 출력이 조기에 잘리는 것을 방지하기 위해 max_tokens 매개변수를 즉시 조정하는 것이 좋습니다.

R1 모델 사용에 대한 자세한 지침은 다음을 참조하십시오. deepseek R1 API 가이드:

이번 R1 업데이트 이후 공식 웹사이트, 미니 프로그램, 앱 및 API의 모델 컨텍스트 길이는 64K로 유지됩니다. 더 긴 컨텍스트 길이가 필요한 경우, 다른 타사 플랫폼을 통해 컨텍스트 길이가 128K인 R1-0528 모델의 오픈 소스 버전을 호출할 수 있습니다.

오픈 소스

DeepSeek-R1-0528은 이전 DeepSeek-R1과 동일한 기본 모델을 사용하며, 사후 훈련 방법만 개선되었습니다.

비공개 배포 시에는 체크포인트와 tokenizer_config.json(도구 호출 관련 변경 사항)만 업데이트하면 됩니다. 모델 매개변수는 685B(그중 14B는 MTP 계층용)이며, 오픈소스 버전의 컨텍스트 길이는 128K입니다(웹, 앱 및 API에 대해 64K 컨텍스트 길이가 제공됨).

유사한 게시물

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다