논문-DeepSeek-R1: 강화 학습을 통한 LLM의 추론 능력 인센티브 제공

요약 이 백서에서는 DeepSeek의 1세대 추론 모델을 소개합니다: DeepSeek-R1-Zero와 DeepSeek-R1. 감독 미세 조정(SFT) 없이 대규모 강화 학습(RL)을 통해 훈련된 DeepSeek-R1-Zero는 놀라운 추론 능력을 보여줍니다. RL을 통해 자연스럽게 강력한 추론 행동을 개발합니다. 하지만 가독성 저하와 언어 혼용과 같은 문제에 직면해 있습니다. 이러한 문제를 해결하고 추론 성능을 향상시키기 위해 DeepSeek-R1이 개발되었습니다.