초록

이 백서에서는 DeepSeek의 1세대 추론 모델을 소개합니다: DeepSeek-R1-Zero와 DeepSeek-R1. 감독 미세 조정(SFT) 없이 대규모 강화 학습(RL)을 통해 훈련된 DeepSeek-R1-Zero는 놀라운 추론 능력을 보여줍니다. RL을 통해 자연스럽게 강력한 추론 행동을 개발합니다. 하지만 가독성 저하와 언어 혼용과 같은 문제에 직면해 있습니다. 이러한 문제를 해결하고 추론 성능을 향상시키기 위해 다단계 훈련과 RL 전 콜드 스타트 데이터를 통합한 DeepSeek-R1이 개발되었습니다. DeepSeek-R1은 추론 작업에서 OpenAI-o1-1217과 비슷한 성능을 달성합니다. 연구를 지원하기 위해 DeepSeek는 두 모델과 DeepSeek-R1에서 추출한 6개의 고밀도 모델(1.5B, 7B, 8B, 14B, 32B, 70B)을 모두 오픈소스화했습니다(Qwen 및 Llama 기반).

주요 기여

교육 후 대규모 강화 학습

  • SFT 없이 기본 모델에 RL을 직접 적용하는 데 성공했습니다.
  • 자체 검증 및 반영과 같은 기능을 입증하는 DeepSeek-R1-Zero를 개발했습니다.
  • 추론 능력이 순수하게 RL을 통해서만 인센티브를 제공할 수 있음을 입증하는 최초의 공개 연구
  • 두 개의 RL 스테이지와 두 개의 SFT 스테이지를 갖춘 DeepSeek-R1용 파이프라인 도입

증류: 소규모 모델 역량 강화

  • 대규모 모델의 추론 패턴을 효과적으로 작은 모델로 추출할 수 있음을 입증했습니다.
  • 연구 커뮤니티에 도움이 되는 오픈 소스 DeepSeek-R1 및 해당 API
  • 탁월한 벤치마크 성능을 보여주는 여러 고밀도 모델을 미세 조정했습니다.
  • 증류 모델은 이전 오픈 소스 모델보다 훨씬 뛰어난 성능을 발휘합니다.

평가 결과

추론 과제

  • DeepSeek-R1, AIME 2024에서 79.8% Pass@1을 달성하며 OpenAI-o1-1217을 뛰어넘다
  • MATH-500에서 97.3% 점수로 OpenAI-o1-1217과 동등한 성능을 발휘합니다.
  • 코드 경쟁 과제에서 2,029개의 Elo 등급을 획득한 전문가 수준의 코드 경쟁 과제 수행 능력

지식 작업

  • MMLU(90.8%), MMLU-Pro(84.0%), GPQA 다이아몬드(71.5%)에서 뛰어난 결과 달성
  • 교육 업무에서 다른 비공개 소스 모델을 능가합니다.
  • SimpleQA와 같은 실제 벤치마크에서 강력한 성능 제공

일반 기능

  • 창의적인 글쓰기, 질문 답변, 편집 및 요약에 탁월합니다.
  • 알파카에볼 2.0에서 87.6% 승률, 아레나하드에서 92.3% 승률
  • 긴 문맥 이해 작업에서 강력한 성능

향후 작업

팀은 다음 사항에 집중할 계획입니다:

  1. 함수 호출 및 복잡한 역할 수행과 같은 영역에서 일반적인 기능 향상
  2. 언어 혼용 문제 해결
  3. 프롬프트 엔지니어링 개선
  4. 소프트웨어 엔지니어링 작업의 성능 향상

결론

DeepSeek-R1은 강화 학습을 통해 AI 추론 능력이 크게 발전했음을 보여줍니다. 메인 모델과 그 증류 버전의 성공은 이 접근 방식이 더 뛰어난 AI 시스템을 개발할 수 있는 잠재력을 보여줍니다. 이 모델의 오픈 소스 공개는 이 분야의 연구 개발에 더욱 기여할 것입니다.

유사한 게시물

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다