DeepSeek 1의 비밀 | DeepSeekMath 및 GRPO 세부 정보
오늘은 DeepSeek의 DeepSeekMath: Open Language Models에서 수학적 추론의 한계를 넓히다라는 제목의 기사를 공유하고자 합니다. 이 기사에서는 120B 수학 관련 토큰, 자연어 및 코드 데이터 모음을 기반으로 DeepSeek-Coder-Base-v1.5 7B에서 사전 학습된 DeepSeekMath 7B를 소개합니다. 이 모델은 경쟁 수준에서 놀라운 점수인 51.7%를 달성했습니다.