오늘은 DeepSeek의 DeepSeekMath: 개방형 언어 모델에서 수학적 추론의 한계를 넓히다라는 제목의 기사를 공유하고 싶습니다.
본 문서에서는 사전 학습된 DeepSeekMath 7B를 소개합니다. DeepSeek-Coder-Base-v1.5 7B 기반 1,200억 개의 수학 관련 토큰, 자연어 및 코드 데이터 컬렉션입니다.
이 모델은 외부 툴킷과 투표 기술에 의존하지 않고도 경쟁 수준의 MATH 벤치마크에서 51.7%라는 놀라운 점수를 달성하여 Gemini-Ultra와 GPT-4의 성능 수준에 접근했습니다.
DeepSeekMath 7B의 수학적 추론 능력은 두 가지 핵심 요인에 기인합니다. 첫째, 신중하게 설계된 데이터 선택 파이프라인공개적으로 이용 가능한 웹 데이터에서 수학 관련 고품질 데이터가 반복적으로 수집됩니다.
둘째, 그룹 상대 정책 최적화(GRPO)는 PPO(proximal policy optimization)의 메모리 사용을 최적화하는 동시에 수학적 추론 능력을 향상시킬 수 있는 PPO의 변형인 PPO가 소개되었습니다.
- 이 방법의 특징은 다음과 같이 요약됩니다.고품질의 수학적 사전 훈련 코퍼스 구축되었으며, 신중하게 설계된 파이프라인을 사용하여 Common Crawl에서 고품질의 수학적 데이터를 추출했습니다.
- GRPO 알고리즘 학습에 필요한 리소스를 줄이고 모델의 수학적 추론 능력을 향상시키는 방법이 제안되었습니다. 3) 최첨단 성능 ~였다 다양한 수학적 추론 벤치마크 테스트에서 달성됨.
개요
제목: DeepSeekMath: 오픈 언어 모델에서 수학적 추론의 한계를 넓히다
주소: 여기를 클릭하세요
저자: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, YK Li, Y. Wu, Daya Guo
암호: 여기를 클릭하세요
동기 부여
수학적 추론은 수학의 복잡성과 구조적 특성으로 인해 언어 모델에 상당한 도전을 제기합니다. GPT-4 및 Gemini-Ultra와 같은 가장 진보된 모델은 강력하지만 공개적으로 사용할 수 없습니다. 따라서 성능에 상당한 개선 여지가 있습니다. 오픈소스 모델.
복잡성과 구조: 수학적 추론은 수학의 복잡성과 구조적 특성으로 인해 언어 모델에 상당한 과제를 제기합니다.
공공 데이터의 잠재력: 공개적으로 이용 가능한 웹 데이터에는 아직 조사되거나 활용되지 않은 풍부한 수학적 정보가 포함되어 있을 수 있습니다.
행동 양식
데이터 수집: 1,200억 개의 토큰으로 구성된 DeepSeekMath 코퍼스는 반복적 파이프라인을 통해 Common Crawl에서 고품질 수학 관련 웹 데이터를 수집하여 구성되었습니다.
모델 훈련: 이 코퍼스는 DeepSeek-Coder-Base-v1.5 7B를 기반으로 사전 학습에 사용되었으며, 수학적 지시 미세 조정 및 그룹 상대 정책 최적화(GRPO) 알고리즘이 적용되었습니다.
GRPO 알고리즘: GRPO는 PPO에서 Critic 모델을 제거하고 그룹 점수에서 기준선을 추정하여 학습 리소스를 크게 줄이는 개선된 강화 학습 알고리즘입니다.
자세한 방법 및 절차:
데이터 수집 및 처리:

DeepSeekMath Corpus를 빌드하세요: fastText 기반 분류기를 사용하여 120B 수학 관련 토큰 추출 Common Crawl을 사용하여 대규모, 고품질의 사전 훈련된 코퍼스인 DeepSeekMath Corpus를 구축했습니다.
반복적 데이터 필터링: 반복적인 전략이 사용됩니다. OpenWebMath를 시드 데이터로 사용하여 초기 분류기를 훈련한 다음 이 분류기를 사용하여 더 많은 긍정적인 예를 마이닝합니다. 분류기 성능을 지속적으로 최적화하기 위해 수동으로 주석을 추가하는 Common Crawl의 기능입니다.
다국어 기능: DeepSeekMath Corpus에는 다음이 포함됩니다. 다국어 데이터이를 통해 중국 수학 벤치마크에서 모델의 성능이 향상되었습니다.
오염 제거 처리: 디-테스트 벤치마크와의 중복을 피하기 위해 교육 데이터에 대한 오염 처리가 수행됩니다..
사전 훈련:
코드 기반 모델 초기화: 초기화를 사용하여 DeepSeek-코더-베이스-v1.5 7B 이 모델은 일반 LLM의 초기화보다 더 효과적인 것으로 나타났습니다.
사전 훈련 데이터 구성: 56% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% Github 코드, 10% Common Crawl 자연어 데이터.
사전 훈련 매개변수: AdamW 최적화 도구를 사용하고, 학습률은 4.2e-4, 배치 크기는 10M 토큰, 학습량은 500B 토큰입니다.
지침 미세 조정:
지침 미세 조정 데이터 세트를 구성합니다. 다음을 포함하는 수학적 지침 미세 조정 데이터 세트를 구성합니다. 776K 샘플다양한 수학 분야와 난이도 수준을 포괄하며, 여기에는 CoT, PoT, 문제 해결을 위한 도구 통합 추론 형식이 포함됩니다.
훈련 매개변수: 배치 크기 256, 학습률 5e-5, 500단계로 학습합니다.
강화 학습 – 그룹 상대 정책 최적화(GRPO):
GRPO 알고리즘 제안: 제안하다 그룹별 점수를 사용하여 기준선을 추정함으로써 Critic 모델이 필요 없는 PPO 변형 알고리즘 GRPO는 학습 리소스를 줄입니다..
목적 함수: GRPO는 목적 함수를 최대화하여 정책 모델을 최적화합니다. 그룹 내 출력의 상대적 이점을 고려하고 KL 발산을 정규화 항목으로 직접 추가합니다..
이점 계산: GRPO는 다음을 통해 이점을 계산합니다. 그룹 내 상대적 보상, 그룹 간 비교를 피하고 보상 모델의 비교적 특성에 더 잘 부합.
결과 및 프로세스 모니터링을 모두 지원합니다. GRPO 결과 및 프로세스 모니터링을 모두 지원하고 정책을 보다 효과적으로 모니터링할 수 있습니다. 각 추론 단계가 끝날 때마다 보상을 제공함으로써.
반복적 RL: 사용합니다 반복적 RL 전략 정책 모델의 샘플링 결과를 기반으로 새로운 학습 세트를 생성하고, 기존 보상 모델을 지속적으로 학습하고, 새로운 보상 모델을 사용하여 정책 모델을 업데이트합니다.
훈련 데이터: SFT 데이터의 GSM8K 및 MATH와 관련된 CoT 형식 문제를 사용합니다. 약 144K 문제가 있습니다.
훈련 매개변수: 정책 모델의 학습률은 1e-6, KL 계수는 0.04, 각 문제에 대해 64개의 출력이 샘플링되고, 최대 길이는 1024, 그리고 학습 배치 크기는 1024입니다.
결론

결론 1:DeepSeekMath 7B는 수학적 추론 능력 면에서 모든 오픈 소스 모델보다 우수한 성능을 발휘합니다. 경쟁적 MATH 벤치마크 테스트에서 DeepSeekMath 7B는 51.7%의 정확도를 달성했는데, 이는 Gemini-Ultra와 GPT-4의 성능 수준에 가깝습니다.
결론 2:잘 설계된 사전 학습 데이터와 GRPO 알고리즘은 모델 성공의 핵심입니다. 고품질 수학적 자료와 GRPO 알고리즘을 결합하면 이 모델은 수학적 추론 작업에서 상당한 성능 향상을 달성할 수 있습니다.
결론 3:코드 학습은 수학적 추론 능력을 향상시키는 데 도움이 됩니다. 사전 학습 단계에 코드 데이터를 추가하면 도구를 사용하거나 사용하지 않고도 모델의 수학 문제 해결 능력이 향상될 수 있습니다.
결론 4: arXiv 데이터의 제한적인 유용성: 이전의 믿음과는 달리 arXiv 데이터는 수학적 추론을 향상시키는 데 별로 도움이 되지 않는 것으로 밝혀졌습니다.
한정
기하학과 증명 능력은 상대적으로 약합니다. DeepSeekMath는 양적 추론에서 뛰어나지만 기하학과 증명에서의 역량은 여전히 폐쇄형 소스 모델보다 열등합니다. 이는 사전 학습 및 미세 조정 단계에서 편향된 데이터 선택 때문일 수 있습니다.
샘플 용량이 작다는 단점: DeepSeekMath는 모델 크기의 제한으로 인해 소규모 표본 학습 측면에서 GPT-4보다 성능이 떨어집니다.
더욱 효율적인 강화 학습 방법이 필요합니다. 논문에서 제안한 강화 학습 방법은 효과적이기는 하지만 보상 모델의 피드백을 보다 효과적으로 활용하는 방법, 노이즈가 많은 보상 신호를 처리하는 방법 등 개선의 여지가 여전히 있습니다.
세부
강화 학습 탐색 및 분석
개요:
그룹 상대 정책 최적화(GRPO) 소개: 이 논문은 Proximal Policy Optimization(PPO)의 변형으로 새로운 강화 학습 알고리즘인 GRPO를 제안합니다. GRPO의 주요 특징은 다음과 같습니다. PPO에서 일반적으로 사용되는 Critic 모델을 폐기하고 그룹 점수를 통해 기준선을 추정하여 학습에 필요한 계산 리소스를 크게 줄였습니다.
GRPO 효과 증명: 이 논문은 GRPO가 가능하다는 것을 실험적으로 입증합니다. 도메인 내 및 도메인 외 수학 작업을 포함하여 명령 미세 조정 모델의 성능을 효과적으로 개선합니다..
강화 학습 방법을 위한 통합 프레임워크: 이 논문은 다음과 같은 다양한 강화 학습 방법을 이해하기 위한 통합 프레임워크를 제안합니다. 거부 샘플링 미세 조정(RFT), 직접 선호도 최적화(DPO), PPO 및 GRPO프레임워크는 이러한 방법을 직접적 또는 단순화된 강화 학습 기술로 취급합니다.
강화 학습의 요소에 대한 심층적 탐구: 이 논문은 심층적으로 탐구합니다. 온라인 훈련 및 오프라인 훈련, 결과 감독 및 프로세스 감독, 단일 라운드 강화 학습 및 반복 강화 학습과 같은 강화 학습의 핵심 요소, 자세한 실험을 통해 강화 학습의 효과성을 개선하기 위한 잠재적 방향을 요약합니다.
GRPO(그룹 상대 정책 최적화) 알고리즘

의 제한 사항 PPO: PPO는 일반적으로 사용되는 강화 학습 알고리즘이지만 훈련이 필요합니다. 추가 Critic 모델 가치 함수를 추정하려면 다음을 부과합니다. 추가적인 계산 및 메모리 부담. 또한 LLM 시나리오에서는 비평가 모델 훈련은 평가를 요구하기 때문에 복잡할 수 있습니다. 각 토큰의 출력.
GRPO 핵심 아이디어: GRPO의 핵심 아이디어는 다음과 같습니다. Critic 모델을 포기하고 대신 동일한 문제에 대한 출력 세트의 평균 점수를 기준으로 사용합니다. 이 기준은 이점 함수를 추정하고 정책 최적화에 사용할 수 있습니다.. 이 접근 방식은 훈련의 복잡성을 크게 줄여줍니다.
이점 함수 계산: GRPO는 다음과 같이 이점 함수를 계산합니다. 별도의 가치 함수에 의존하는 대신 동일한 출력 세트에서 각 출력의 상대적 순위를 계산합니다. PPO와 같이.
KL 분기 페널티: GRPO PPO처럼 보상에 KL 발산 페널티를 추가하지 않고 대신 정책 모델과 참조 모델 간의 KL 발산을 손실 함수에 직접 추가합니다. 이렇게 하면 복잡한 이점 함수 계산을 피할 수 있습니다..
GRPO의 핵심 아이디어
비평가(가치 함수)가 필요하지 않습니다. GRPO는 가치 함수의 필요성을 피하고 그룹 내 점수를 사용하여 기준선을 추정합니다.따라서 교육 리소스가 감소합니다.
그룹 내 상대적 이점: 각 문제 q에 대해 GRPO는 기존 정책 π(θold)에서 출력 세트 {o(1), o(2), …, o(G)}를 샘플링한 다음 다음 방정식을 목적 함수로 최대화하여 정책 모델을 최적화합니다.

구체적으로:

여기서 핵심은 이점을 나타내는 Â(i,t)이며 다음에 의해 계산됩니다. 그룹 내 출력의 상대적 보상PPO처럼 별도의 가치 함수에 의존하기보다는.

목적 함수는 또한 직접적으로 추가합니다 KL 발산은 크기를 제어하기 위한 정규화 항목입니다. 정책 업데이트

보상 모델의 비교 특성에 맞춰 조정합니다. GRPO는 상대적인 집단 내 보상을 사용하여 이점을 계산하는데, 이는 일반적으로 쌍별 비교를 기반으로 훈련되는 보상 모델의 특성과 더욱 일치합니다.
GRPO의 보상 모델은 어떻게 설계될 수 있는가?(DeepSeek R1 참조)
특징:
보상 형식: 긴 세대를 강제로 생성하다 간이 침대 결과를 통해 모델이 추론 과정을 생성하고 모델의 추론 효과를 개선할 수 있습니다.
정확도 보상: 수학에서는 최종 결과를 사용할 수 있고, 코드에서는 컴파일러 피드백을 사용할 수 있습니다.
GRPO의 장점
메모리 사용량 감소: Critic 모델이 필요 없으므로 메모리 요구 사항이 줄어듭니다.
더욱 효율적인 훈련: 그룹 내 상대적 이점을 활용한 계산은 훈련 과정을 간소화합니다.
보상 모델의 특성과 더욱 호환됨: 훈련의 안정성과 효율성이 향상됩니다.
RL 통합 패러다임 요약
통일 패러다임 제안
저자는 SFT(Supervised Fine-tuning), RFT(Rejection Sampling Fine-tuning), DPO(Direct Preference Optimization), PPO, GRPO 등과 같은 다양한 학습 방법을 이해하기 위한 통합 패러다임을 제안합니다. RL 핵심 요소: 통합 프레임워크의 핵심 요소는 다음과 같습니다: 데이터 소스, 보상 함수, 알고리즘.
- 데이터 소스: 이는 수동 레이블링, SFT 모델 또는 실시간 정책 모델에서 파생될 수 있는 교육에 사용되는 데이터를 말합니다.
- 보상 기능: 이는 출력의 품질을 평가하는 데 사용되는 함수를 말하며, 이는 규칙이나 모델이 될 수 있습니다.
- 연산: 이는 데이터와 보상 신호를 처리하고 모델 매개변수를 업데이트하는 데 사용되는 방법을 말합니다.
통일된 패러다임에 기반한 다양한 방법 분석
표 10은 데이터 소스, 보상 함수 및 기울기 계수 측면에서 SFT, RFT, DPO, 온라인 RFT, PPO 및 GRPO 간의 유사점과 차이점을 요약한 것입니다.
방법 | 훈련 데이터 | 보상 기능 | 기울기 계수 | 훈련 방법 | 장점/특징 | 적용 가능한 시나리오 |
한국어: | 수동으로 레이블이 지정된 SFT 데이터 | 수동으로 선택됨(암묵적 보상) | 1로 고정됨 | 지도 학습 | 간단하고 안정적이며 고품질 레이블 데이터에 의존 | 기본 모델 학습, 초기 정렬 작업 |
무선 주파수 | SFT 데이터셋 문제 + SFT 모델 샘플 출력 | 답변의 정확성(규칙 판단)에 따라 | 0(틀림) 또는 1(정답) | 오프라인 정책 최적화 | 효율적인 계산, 규칙 피드백의 직접 활용 | 명확한 규칙이 있는 수학/논리적 작업 |
정보공개청구 | SFT 데이터셋 문제 + 모델 출력 | 인간의 선호도 라벨링 또는 규칙 비교 | 선호도 확률 계산 기반(예: Bradley-Terry 모델) | 비교 학습 | 명시적인 보상 모델링을 피하고 선호도를 직접 최적화합니다. | 인간의 선호도 정렬 작업(예: 대화 생성) |
온라인 RFT | 실시간 정책 모델 샘플링 문제-산출 쌍 | 답변의 정확성(규칙 판단)에 따라 | 0(틀림) 또는 1(정답) | 온라인 정책 최적화 | 실시간 피드백 최적화를 통해 정책을 동적으로 업데이트합니다. | 온라인 상호작용이 필요한 시나리오(예: 게임 AI) |
PPO | SFT 데이터셋 문제 + 정책 모델 샘플링 출력 | 보상 모델(RM) 훈련됨 | 지배력 함수(보상 추정 기반) | 정책 그래디언트 방법 | 효율적이고 안정적이며 다단계 최적화를 지원합니다. | 복잡한 작업(예: 텍스트 생성, 로봇 제어) |
GRPO | SFT 데이터 세트 문제 + 정책 모델 샘플링 출력 | 보상 모델(RM) 훈련됨 | 그룹 내 상대적 보상(정규화된 비교) | 그룹 정책 최적화 | 보상 분산을 줄이고 그룹 내 비교를 개선합니다. | 분산이 높은 작업(예: 긴 텍스트 생성) |
데이터 소스에 대한 관찰

온라인 대 오프라인 교육: 온라인 훈련은 실시간 정책 모델의 출력을 훈련 데이터로 사용하는 것을 말하며, 오프라인 훈련은 고정 모델(예: SFT 모델)의 출력을 훈련 데이터로 사용하는 것을 말합니다. 실험 결과는 다음과 같습니다. 온라인 교육은 일반적으로 오프라인 교육보다 낫습니다.
결과 감독 대 프로세스 감독: 결과 감독은 출력의 마지막 단계에만 보상을 주는 것을 말하지만, 프로세스 감독은 추론 프로세스의 각 단계에 보상을 주는 것을 말합니다. 실험 결과는 다음과 같습니다. 복잡한 작업에서는 프로세스 감독이 더 효과적입니다..
단일 에피소드 대 반복 강화 학습: 단일 에피소드 강화 학습은 단일 전략 최적화를 말하며, 반복적 강화 학습은 여러 전략 최적화 후 보상 모델을 지속적으로 업데이트하는 것을 말합니다. 실험 결과는 다음과 같습니다. 반복 강화 학습은 특히 첫 번째 반복에서 성능을 크게 향상시킬 수 있습니다..
기울기 계수의 관찰
규칙 기반 대 모델 기반: 규칙은 답변의 정확성에 따라 보상을 결정하는 것을 의미하고, 모델은 점수를 매기도록 보상 모델을 훈련하는 것을 의미합니다.
기울기 계수의 차이: GRPO와의 주요 차이점은 다음과 같습니다. 온라인 RFT는 GRPO가 보상 모델이 제공한 보상 값에 따라 그래디언트 계수를 조정하는 반면 온라인 RFT는 조정하지 않는다는 것입니다.
GRPO의 장점: 실험 결과 GRPO는 온라인 RFT보다 우수하여 그래디언트 계수의 부호를 변경하는 효과를 보여줍니다. GRPO+PS는 GRPO+OS보다 우수하여 세분화된 단계 인식 그래디언트 계수를 사용하는 이점을 보여줍니다..
RL 효과 및 개선 방향
RL은 왜 효과적인가?

실험 결과: RL은 Maj@K 성능을 향상시키지만 Pass@K 성능은 향상시키지 못합니다.
설명: RL은 출력 분포를 더욱 견고하게 만들어 모델의 전반적인 성능을 개선합니다. 즉, 모델의 기본 능력을 향상시키는 것보다는 TopK에서 정답의 확률을 높이는 것입니다.
더욱 효과적인 RL을 어떻게 달성할 수 있을까?
저자는 통합 패러다임을 바탕으로 데이터 소스, 알고리즘, 보상 기능이라는 세 가지 측면에서 RL을 개선하기 위한 미래 방향을 제안합니다.
- 데이터 소스:
- SFT 단계를 넘어서는 문제를 탐구합니다.
- 트리 검색 기반 방법과 같은 더욱 진보된 샘플링(디코딩) 전략을 사용합니다.
- 효율적인 추론 기술을 사용하여 정책 모델의 탐색 효율성을 개선합니다.
- 연산:
- 노이즈가 많은 보상 신호에 더욱 안정적인 강화 학습 알고리즘을 살펴보세요.
- WEAK-STRONG 유형의 정렬 방법을 연구합니다.
- 보상 기능:
- 보상 모델의 일반화 능력을 향상시켜 분포 범위를 벗어난 문제와 고급 디코딩된 출력을 처리합니다.
- 보상 모델의 불확실성을 반영하여 약한 보상 모델과 WEAK-TO-STRONG 학습 알고리즘을 연결하는 다리로 사용합니다.
- 추론 프로세스에 대한 세부적인 학습 신호를 제공하기 위해 고품질 프로세스 보상 모델을 효율적으로 구성합니다.
요약
DeepSeekMath는 대규모 수학 코퍼스를 구성하고 새로운 강화 학습 알고리즘을 제안함으로써 수학적 추론에서 오픈 소스 언어 모델의 능력을 크게 향상시켰습니다. 이 논문의 주요 내용은 다음과 같습니다.
- 대규모, 고품질, 다국어 수학 코퍼스인 DeepSeekMath 코퍼스를 구축하고 검증합니다.
- 모델의 수학적 추론 능력을 향상시키는 동시에 메모리 사용량을 줄이는 효율적인 강화 학습 알고리즘인 GRPO가 제안되었습니다.
- 코드 학습이 수학적 추론 능력에 미치는 영향에 대해 심도 있게 논의했으며, arXiv 데이터는 효과가 제한적이라는 것을 발견했습니다. DeepSeekMath의 값:
- 이는 오픈 소스 커뮤니티에 강력한 수학적 추론 모델을 제공하고 수학적 AI의 개발을 촉진합니다.
- 이는 수학적 코퍼스를 구축하고 수학적 추론 모델을 훈련하는 데 귀중한 경험과 방법을 제공합니다.
- 제안된 GRPO 알고리즘은 다른 분야의 강화 학습 훈련에 대한 새로운 아이디어를 제공합니다.