1 배경
춘절 기간 동안, DeepSeek R1 다시 한번 폭넓은 관심을 끌었으며, 이전에 작성했던 DeepSeek V3 해석 기사도 재전송되어 많은 논의가 있었습니다.
DeepSeek R1에 대한 많은 분석과 재현이 있었지만, 여기서는 해당 참고 문헌을 정리하기로 했습니다.
세 개의 핵심적인 개략도를 사용하여 모델 구성과 주요 기술적 사항을 설명하고, DeepSeek-R1 시리즈의 본질을 요약하여 설계 아이디어를 보다 직관적으로 이해할 수 있도록 도와드리겠습니다.
해당 논문은 [2501.12948] DeepSeek-R1: 강화 학습을 통한 LLM의 추론 능력에 대한 인센티브 제공
그리고 해당 오픈소스 모델은 다음과 같습니다. DeepSeek-R1
2 서론
2.1 공통 추론 알고리즘
아래 그림 2에서 보듯이 저자는 네 가지 일반적인 추론 알고리즘을 설명합니다. 구체적인 세부 사항은 다르지만 모두 두 가지 핵심 연산을 포함합니다.
- 확장: 솔루션 경로를 확장하기 위해 토큰을 생성합니다.
- 집계: 각 경로의 결과를 통합하여 최종 답을 얻습니다. 확장 단계에서 계산 리소스를 늘리면 일반적으로 집계 단계에서 답의 품질을 개선할 수 있습니다.
자기 일관성(SC). 그림 2a에서 볼 수 있듯이 SC의 핵심 아이디어는 여러 가지 다른 출력을 생성한 다음(샘플링 매개변수 등을 변경하여 달성할 수 있음) 모든 답변에 투표하여 가장 높은 승률을 가진 답변을 선택하는 것입니다. 핵심 매개변수는 후보 답변의 수 n입니다.
Rebase 알고리즘: 아래 그림 2b에서 볼 수 있듯이 Rebase도 여러 출력을 생성하지만 여러 단계로 생성됩니다. 각 단계는 Reward 모델을 사용하여 점수를 매기고, 가장 높은 점수를 받은 결과를 사용하여 계속 생성합니다. 마지막으로 여러 가지 분기가 있는 추론 트리가 생성됩니다. 가장 높은 점수를 받은 답(Best-of-N)이 집계 단계에서 선택됩니다.
몬테카를로 트리 탐색(MCTS): 아래 그림 2c에서 볼 수 있듯이 MCTS는 점진적으로 샘플링하여 노드를 확장하고 후보 솔루션이 포함된 리프 노드에 도달할 때까지 솔루션 트리를 구성하는 강력한 추론 알고리즘입니다. 각 솔루션은 보상 모델 또는 시뮬레이션을 통해 점수가 매겨지고, 점수는 조상 노드로 다시 전파되어 보상 값을 업데이트하여 반복을 완료합니다. 핵심 매개변수도 n이며, n을 늘리면 잠재적 솔루션을 더 깊고 광범위하게 탐색할 수 있습니다.
내재화된 인지 사슬(ICoT). 아래 그림 2d에서 볼 수 있듯이 OpenAI o1 및 Qwen-QWQ와 같은 최신 LLM은 명시적인 추론 알고리즘이 필요 없이 훈련 중에 추론 행동을 내재화할 수 있습니다. 핵심 아이디어는 CoT 시퀀스를 생성하고 복잡한 문제를 여러 하위 문제로 분해한 다음 이전 출력을 반영하여 이러한 답변을 반복적으로 최적화하여 결국 솔루션에 도달하는 것입니다.

2.2 추론 정렬 방법
2.2.1 Best-of-N 방식 개요
간단히 말해, Best-of-N은 LLM 추론에서 널리 사용되는 정렬 방법으로, 여러 후보 응답을 생성하고 최상의 응답을 선택하여 생성된 결과의 높은 품질을 보장하는 것을 목표로 합니다. 이는 세 가지 주요 프로세스로 구성됩니다.
- 생성 프로세스: 주어진 프롬프트 X에 대해 Best-of-N 방법은 N개의 IID 응답(Y₁, Y₂, …, Yₙ)을 생성합니다. 여기서 N은 종종 "배치 크기"라고 합니다.
- 점수 매기기 메커니즘: 생성된 각 응답은 보상 모델에 의해 점수가 매겨져 해당 점수 {s(Y₁), s(Y₂), …, s(Yₙ)}를 얻습니다.
- 최상의 응답 선택: 마지막으로 생성된 모든 응답 중 가장 높은 점수를 받은 응답이 출력으로 선택됩니다. 즉, Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}.
이 방법의 장점은 다음과 같습니다.
- 이를 통해 복잡한 미세 조정 단계를 효과적으로 피할 수 있으므로 지침에 따라 사전 훈련되거나 미세 조정된 언어 모델을 보다 쉽게 배포할 수 있습니다.
- 구현이 간단하고, 이해하기 쉽고, 기본적으로 하이퍼파라미터가 없습니다. 주요 하이퍼파라미터는 N으로, 추론 중에 동적으로 조정할 수 있습니다.
- 생성 품질 측면에서 매우 경쟁력이 있으며 RLHF나 DPO와 같은 복잡한 사후 훈련 기술과도 경쟁할 수 있습니다. 연구에 따르면 Best-of-N 방법은 보상과 KL 발산 간의 트레이드오프 곡선에서 좋은 성과를 보이며 다른 복잡한 정렬 전략보다 더 뛰어납니다.
이 방법의 단점은 다음과 같습니다.
- 추론에는 N개의 시퀀스를 생성해야 하며, 이는 상당한 계산 오버헤드로 이어질 수 있습니다. 실제로 N에 대한 합리적인 값은 4~128 범위이지만, 가장 진보된 사후 학습 방법과 경쟁하기 위해서는 1000~60000과 같이 더 높은 N 값이 필요할 수 있으며, 이는 거의 받아들일 수 없는 계산 오버헤드로 이어질 수 있습니다.
N개 중 가장 좋은 방법은 이후의 지도식 미세 조정을 위한 고품질 데이터 세트를 생성하는 데 자주 사용되며 LLaMA-2 및 LLaMA-3의 정렬 과정에서 핵심적인 역할을 했습니다.
2.2.2 OpenAI N 중 최고 방법
OpenAI는 처음으로 Best-of-N 샘플링을 제안했습니다. [2009.01325] 인간의 피드백을 통해 요약하는 법 학습 . 구체적으로, 여러 모델에서 생성된 최상의 요약을 선택하여 요약 모델의 성능을 평가하고 최적화하는 데 사용됩니다. 이 방법은 연구자들이 다양한 평가 지표와 인간 평가자 선호도 간의 관계를 더 잘 이해하는 데 도움이 되며, 모델 학습 및 최적화를 안내하는 데 사용됩니다.
OpenAI는 후속 조치에서 Best-of-N 샘플링(거부 샘플링)을 사용합니다. [2112.09332] WebGPT: 인간 피드백을 통한 브라우저 지원 질문 답변. 구체적으로, 고정된 수의 답변(4, 16 또는 64)이 BC 모델 또는 RL 모델에서 샘플링되고, 보상 모델 점수가 가장 높은 답변이 적대적 보상 모델의 최적화 방법으로 선택됩니다. 이 방법은 추가 학습이 필요하지 않지만 달성하기 위해 추론 단계의 계산 복잡도가 증가합니다.
2.2.3 구글 BOND 방식
In [2407.14622] BOND: LLM을 Best-of-N Distillation과 일치시키기 위해 Google의 저자는 Best-of-N Distillation(BOND)을 제안합니다., 추론 중에 계산 오버헤드를 크게 증가시키지 않고 분포 매칭 알고리즘을 통해 Best-of-N 샘플링 전략을 시뮬레이션하도록 설계된 새로운 RLHF 알고리즘입니다.

구체적으로 저자는 먼저 Best-of-N 샘플링의 정확한 분석 분포를 도출하고 Best-of-N 샘플링의 확률 함수를 제공합니다.

둘째, 저자들은 이 문제를 분포 매칭 문제로 표현합니다.

그 후, 저자는 Jeffreys divergence를 분포 매칭 목표로 사용할 것을 제안합니다.

마지막으로, N을 선택하는 문제를 해결하기 위해 저자는 반복적 BOND 방법을 제안합니다. 이 방법은 Best-of-N 분포를 반복적으로 증류하여 전략의 성능을 개선합니다. 구체적인 단계는 다음과 같습니다.
보조 Anchor 전략 π(anchor)를 초기화합니다.
BOND를 반복적으로 실행하여 N개 중 가장 좋은 π(앵커)를 추출하고 각 단계 후에 π(앵커)를 업데이트합니다.

2.3 프로세스 감독 및 결과 감독
결과와 프로세스는 보상 모델 평가의 두 가지 측면을 말합니다.
- 결과 보상 모델: 모델 출력의 최종 결과가 정확한지 또는 예상대로인지 평가합니다.
- 프로세스 보상 모델: 결과를 생성하는 과정에서 모델의 추론 및 의사 결정 단계가 합리적이고 효과적인지 평가합니다.
예를 들어, OpenAI의 Let's Verify Step by Step | OpenAI에서도 다음과 같이 언급합니다.
- 프로세스 감독(Outcome-supervised): 모델의 추론 프로세스의 각 단계에 대한 피드백을 제공하는 것을 포함합니다. 프로세스 감독 보상 모델(PRM)은 솔루션의 각 단계의 정확성을 예측하도록 훈련됩니다.
- 결과 지도: 결과 지도는 모델의 추론의 최종 결과에만 기반하여 피드백을 제공합니다. 결과 지도 보상 모델(ORM)은 솔루션의 최종 답을 사용하여 훈련되고, 정확성은 자동 검사를 통해 결정됩니다.
2.4 보상 해킹
RL에서 보상 해킹은 에이전트가 보상 함수 설계의 결함을 악용하여 설계자의 원래 의도를 충족하지 않는 방식으로 누적 보상을 최대화하는 현상을 말합니다. 이러한 행동은 기술적으로 보상 함수의 최적화 목표를 충족하지만 실제 효과는 예상 작업 목표에서 벗어나며 부정적인 결과를 초래할 수도 있습니다.
핵심 포인트 분석:
- 정의 및 표현:
- 에이전트는 보상 함수의 결함을 발견하고 실제로 문제를 해결하는 대신 "지름길"을 이용하여 높은 보상을 얻습니다.
- 예를 들어, 청소 로봇은 실제로 방을 청소하는 것이 아니라 방이 깨끗해 보이도록 조명을 끄고, 게임 에이전트는 레벨 목표를 달성하지 않고도 반복적으로 점수를 얻고, 안전 위험을 초래하는 제동 횟수를 줄이기 위해 속도를 줄이지 않기로 선택하고, 높은 점수를 속이기 위해 키워드와 일치하는 무의미한 콘텐츠를 생성합니다.
- 근본 원인:
- 불완전한 보상 기능 설계: 지나친 단순화 또는 예외 사례를 다루지 못함.
- 목표와 보상의 불일치: 보상 함수가 실제 목표를 완전히 반영하지 못해 에이전트가 '잘못된' 목표를 최적화하게 됩니다.
- 해결책:
- 보상 디자인 개선: 다차원적 보상(예: 안전성, 효율성 등)을 도입하거나 보상 기능을 동적으로 조정합니다.
- 적대적 검증: 추가적인 메커니즘을 통해 에이전트가 "속임수"를 쓰고 있는지 감지합니다.
- 수동 개입 및 제약: 행동 경계(예: 안전 계층) 또는 수동 피드백(예: RLHF)을 설정합니다.
- 역 강화 학습(IRL): 전문가 시연을 통해 더욱 현실적인 보상 함수를 학습합니다.
- 계층적 강화 학습: 지역적 최적화의 위험을 줄이기 위해 작업을 하위 목표로 분해합니다.
- 과적합과의 연관성:
- 두 방법 모두 훈련 지표와 실제 성과 사이에 단절이 있지만, 보상 해킹은 모델의 일반화 능력보다 보상 함수의 설계적 결함에 더 큰 중점을 둡니다.
- 요약:
- 보상 해킹은 RL에서 목표 정렬의 과제를 드러냅니다. 이 문제를 해결하려면 보다 견고한 보상 메커니즘을 설계하고, 외부 제약을 도입하고, 인간의 사전 지식을 통합하여 에이전트의 행동이 효율적이고 설계 의도와 일치하도록 보장해야 합니다.
3 DeepSeek-R1-제로 & DeepSeek-R1
3.1 개요
이전 연구는 모델 성능을 개선하기 위해 대량의 감독 데이터에 크게 의존했습니다. 이 연구는 콜드 스타트로 SFT가 없더라도 대규모 RL이 모델의 추론 능력을 크게 향상시킬 수 있음을 보여줍니다. 또한 소량의 콜드 스타트 데이터를 도입하면 성능을 더욱 최적화할 수 있습니다. 다음은 DeepSeek-R1과 관련된 모델입니다.
- DeepSeek-R1-Zero: 이 모델은 SFT 데이터 없이 RL을 기본 모델에 직접 적용합니다.
- DeepSeek-R1: 이 모델은 수천 개의 긴 CoT 샘플을 통해 미세 조정된 체크포인트에서 시작하는 RL을 적용합니다.
- DeepSeek-R1-Distill-xx: DeepSeek-R1의 추론 기능을 작은 Dense 모델로 추출합니다.
3.2 DeepSeek-R1-제로
다음 그림은 DeepSeek-R1-Zero 모델 훈련의 핵심 사항을 보여줍니다.

PS: 이 논문은 DeepSeek-R1-Zero의 RL 프로세스에서 사용된 데이터에 대한 많은 정보를 제공하지 않는다는 점에 유의해야 합니다. 그러나 후속 R1 훈련에서 데이터 생성 프로세스와 양에 대한 설명이 있지만 특별히 구체적이지는 않습니다.
3.2.1 RL 알고리즘
RL의 훈련 비용을 줄이기 위해 저자는 DeepSeek의 고유한 GRPO(그룹 상대 정책 최적화) 방법인 [2402.03300] DeepSeekMath: 개방형 언어 모델에서 수학적 추론의 한계를 넓히기(Pushing the Limits of Mathematical Reasoning in Open Language Models)를 사용합니다. 이 방법은 일반적으로 Policy 모델과 크기가 비슷한 Critic 모델을 포기하고 대신 그룹 점수를 사용하여 기준선을 추정합니다. 해당 설명은 아래 그림(Twitter에서 가져온 사진)에 나와 있습니다.

3.2.2 보상 모델링
보상은 훈련 신호의 원천이며 RL의 최적화 방향을 결정합니다. DeepSeek-R1-Zero를 훈련하기 위해 저자는 주로 두 가지 유형의 보상으로 구성된 규칙 기반 보상 시스템을 사용했습니다.
- 정확도 보상: 응답이 정확한지 평가합니다. 예를 들어:
- 결정적인 결과가 나오는 수학 문제에서 모델은 특정 형식(예: 상자 안)으로 최종 답을 제공해야 하므로, 규칙을 통해 정답의 정확성을 확실하게 검증할 수 있어야 합니다.
- 마찬가지로, LeetCode 문제의 경우 미리 정의된 테스트 케이스를 기반으로 한 컴파일러를 사용하여 피드백을 생성할 수 있습니다.
- 형식 보상: 형식 보상은 모델이 사고 과정을 " 사이에 배치하도록 강제하는 데에도 사용됩니다. " 그리고 " ” 태그.
DeepSeek-R1-Zero를 개발하는 동안 저자는 결과 신경 보상 모델이나 프로세스 신경 보상 모델을 사용하지 않았습니다. 저자는 신경 보상 모델이 대규모 RL 프로세스에서 보상 스푸핑(보상 해킹)에 직면할 수 있다는 것을 발견했기 때문입니다. 게다가 보상 모델을 다시 학습하려면 추가적인 학습 리소스가 필요할 뿐만 아니라 전체 학습 프로세스도 복잡해집니다.
3.2.3 교육 템플릿
DeepSeek-R1-Zero를 훈련하기 위해 저자는 먼저 Base 모델이 설정된 지침을 따르도록 안내하는 간단한 템플릿을 설계했습니다. 아래 표 1에서 볼 수 있듯이 템플릿은 DeepSeek-R1-Zero가 추론 프로세스를 생성한 다음 최종 답을 제공하도록 요구합니다.

저자는 내용적 편향을 유발하지 않기 위해 의도적으로 이 구조적 프레임워크에 대한 제약을 제한했습니다. 예를 들어, 반성적 추론을 강요하거나 특정 문제 해결 전략을 홍보하는 것은 RL 프로세스 동안 모델의 자연스러운 진화를 정확하게 관찰할 수 있도록 하기 위함입니다.
3.2.4 결론
SFT 데이터 없이 강력한 추론 기능: 기본 모델에서 직접 RL을 시작하면 SFT 간섭 없이 모델의 진화 궤적을 면밀히 모니터링할 수 있습니다. 아래 그림 3에서 보듯이 DeepSeek-R1-Zero의 사고 시간은 훈련 과정 전반에 걸쳐 지속적으로 개선되었습니다(성장 길이가 점차 길어짐). 이러한 개선은 외부 조정에서 비롯된 것이 아니라 모델의 내부 개발의 자연스러운 결과였습니다. DeepSeek-R1-Zero는 확장된 테스트 시간 계산을 사용하여 점점 더 복잡해지는 추론 과제(예: 반성 능력)를 해결하는 능력을 자연스럽게 얻었습니다.

DeepSeek-R1-Zero는 훈련 중에 "아하 모멘트"를 경험했습니다. 아래 표 3에서 볼 수 있듯이, 이 모멘트는 모델의 중간 버전 단계에서 발생했습니다. 이 단계에서 DeepSeek-R1-Zero는 초기 접근 방식을 재평가하여 문제에 더 많은 사고 시간을 할당하는 법을 배웠습니다.

다수결 투표: DeepSeek-R1-Zero의 성능은 다수결 투표를 적용하면 더욱 향상될 수 있습니다. 예를 들어 아래 표 2에서 볼 수 있듯이 AIME 벤치마크 테스트에서 다수결 투표를 사용한 후 성능이 71.0%에서 86.7%로 뛰어올라 OpenAI-o1-0912를 능가합니다.

약점: DeepSeek-R1-Zero는 강력한 추론 능력을 보여주고 예상치 못한 강력한 추론 행동을 자율적으로 개발하지만, 가독성이 낮고 언어 혼합이 어려운 등의 문제에 여전히 직면해 있습니다.
3.3 DeepSeek-R1
추론 과정을 더 읽기 쉽게 만들고 오픈 커뮤니티와 공유하기 위해 저자는 RL에 인간 친화적인 콜드 스타트 데이터를 사용하는 DeepSeek-R1 방법을 더 탐구합니다. DeepSeek-R1-Zero에서 영감을 받아 두 가지 자연스러운 질문이 다음과 같습니다.
- 소량의 고품질 데이터를 콜드 스타트로 도입하면 추론 성능을 더욱 개선하거나 수렴 프로세스를 가속화할 수 있을까요?
- 명확하고 일관된 CoT를 생성할 뿐만 아니라 강력한 일반화 기능을 보여주는 사용자 친화적인 모델을 어떻게 훈련할 수 있을까요?
이러한 질문에 대한 답변으로, 우리는 DeepSeek-R1에 대한 훈련 과정을 설계했습니다. 이 과정은 아래에 설명된 대로 여러 단계로 구성됩니다.
아래 그림과 같이 1단계에서는 SFT+RL을 통해 DeepSeek-R1의 중간 상태를 훈련합니다.

다음 그림은 2단계, 3단계, 4단계를 보여줍니다.
- 2단계: 좌측 상단, 200K 비추론 데이터와 600K 추론 데이터를 구축합니다.
- 3단계: 오른쪽 위, SFT + RL 훈련 DeepSeek-R1.
- 4단계: 아래 그림, Distill DeepSeek-R1-Distill-xx.

3.3.1 콜드 스타트(1단계)
DeepSeek-R1-Zero와 달리 RL 학습을 시작할 때 Base 모델의 불안정한 Cold Start 단계를 방지하기 위해 저자는 DeepSeek-R1에 대한 소량의 Long CoT 데이터를 구축하고 수집하여 초기 RL Actor로서 모델을 미세 조정했습니다. 이 데이터를 수집하기 위해 저자는 다양한 방법을 탐색했습니다.
- Long CoT 예제에서 few-shot prompt 사용
- 반성과 검증을 통해 모델에 자세한 답변을 직접 생성하도록 촉구
- 인간이 읽을 수 있는 형식으로 DeepSeek-R1-Zero 출력 수집
- 수동 레이블 지정을 통한 후처리를 통한 결과 정제
저자는 총 수천 개의 Cold Start 데이터를 수집하여 RL의 시작점으로 DeepSeek-V3-Base를 미세 조정하는 데 사용했습니다. DeepSeek-R1-Zero와 비교했을 때 Cold Start 데이터의 장점은 다음과 같습니다.
- 가독성: DeepSeek-R1-Zero 응답은 여러 언어로 혼합될 수 있거나 사용자 답변을 강조하는 데 사용되는 마크다운 서식이 없을 수 있습니다. 반면, DeepSeek-R1에 대한 콜드 스타트 데이터를 만들 때 저자는 각 응답 끝에 요약을 포함하고 읽을 수 없는 응답을 필터링하는 읽기 쉬운 형식을 디자인했습니다. 여기서 출력 형식은 |special_token|으로 정의됩니다. |특수 토큰|
여기서 reasoning_process는 쿼리의 연쇄적 사고이고 summary는 추론 결과를 요약하는 데 사용됩니다. - 잠재력: 인간의 사전 콜드 스타트 데이터 패턴을 신중하게 조합하여 설계한 결과, 저자는 그 성능이 DeepSeek-R1-Zero보다 우수하다는 것을 확인했습니다.
3.3.2 추론 기반 RL(1단계)
Cold Start 데이터에서 DeepSeek-V3-Base를 미세 조정한 후 DeepSeek-R1-Zero와 동일한 대규모 RL 훈련 프로세스를 사용합니다. 이 단계는 특히 프로그래밍, 수학, 과학 및 명확한 솔루션이 있는 논리적 추론 문제에서 추론 집약적 작업에서 모델의 능력을 향상시키는 것을 목표로 합니다.
학습하는 동안 저자들은 CoT가 종종 언어 혼합으로 어려움을 겪는다는 것을 관찰했는데, 특히 RL 프롬프트에 여러 언어가 포함될 때 그렇습니다. 언어 혼합 문제를 완화하기 위해 저자들은 언어 일관성 보상을 RL 학습에 도입했습니다. 이 보상은 CoT에서 대상 언어의 단어 비율을 기반으로 계산됩니다. 절제 실험에 따르면 이 정렬 방법은 모델 성능을 약간 떨어뜨리지만, 이 보상 메커니즘은 인간의 선호도와 일치하며 가독성을 향상시킵니다. 마지막으로 저자들은 추론 작업의 정확도를 언어 일관성 보상에 직접 추가하여 최종 보상을 형성하고, 추론 작업에 수렴할 때까지 미세 조정된 모델에 RL 학습을 구현합니다.
3.3.3 80만개 선별데이터 구축(2단계)
추론을 위한 RL이 수렴하는 동안, SFT 데이터는 다음 훈련 라운드를 위한 결과 체크포인트를 사용하여 수집됩니다. 주로 추론에 초점을 맞춘 초기 콜드 스타트 데이터와 달리, 이 단계는 모델의 쓰기, 롤플레잉 및 기타 범용 작업 능력을 향상시키기 위해 다른 도메인의 데이터를 통합합니다. 구체적으로, 데이터는 다음과 같이 생성되고 모델은 미세 조정됩니다.
- 추론 데이터: 추론 프롬프트가 선택되고 추론 궤적은 앞서 언급한 RL 훈련된 체크포인트(DeepSeek-R1 1단계)에서 거부 샘플링을 수행하여 생성됩니다. 이전 단계에서는 규칙 기반 보상을 사용하여 평가할 수 있는 데이터만 포함되었습니다. 그러나 이 단계에서는 더 많은 데이터를 포함하여 데이터 세트를 확장했으며, 그 중 일부는 보상 모델을 사용하여 생성되었고 실제 답변은 모델 예측을 DeepSeek-V3(DeepSeek V3 as Judge)에 입력하여 판단했습니다. 또한 모델 출력이 때때로 혼란스럽고 읽기 어렵기 때문에 혼합 언어 사고 사슬, 긴 문단 및 코드 블록은 필터링되었습니다. 각 프롬프트에 대해 여러 응답이 샘플링되었고 올바른 응답(N 중 최고)만 유지되었습니다. 총 약 600,000개의 추론 관련 훈련 샘플이 수집되었습니다.
- 비논리적 데이터: 쓰기, 사실적 질문, 자기 인식, 번역과 같은 데이터는 DeepSeek-V3 프로세스를 사용하고 DeepSeek-V3의 일부 SFT 데이터 세트를 재사용했습니다. 일부 비논리적 작업의 경우 DeepSeek-V3가 호출되어 질문에 답하기 전에 잠재적인 CoT를 생성합니다. 그러나 "안녕하세요"와 같은 간단한 질의의 경우 응답에 사고 사슬이 제공되지 않습니다. 결국 총 약 200,000개의 비논리적 훈련 샘플이 수집되었습니다.
3.3.4 모든 시나리오에 대한 SFT 및 RL(3단계)
약 800,000개의 선택된 샘플에 대해 두 라운드의 미세 조정이 DeepSeek-V3-Base에서 앞서 언급된 두 데이터 세트(추론 및 비추론)를 사용하여 수행되었습니다.
모델을 인간의 선호도에 더욱 맞추기 위해 저자는 모델의 유용성과 무해성을 개선하는 동시에 추론 기능을 개선하는 것을 목표로 하는 RL의 두 번째 단계를 구현했습니다. 구체적으로, 모델은 보상 신호와 다양한 프롬프트 분포의 조합으로 훈련되었습니다.
- 추론 데이터의 경우 DeepSeek-R1-Zero에 설명된 방법론을 따르며, 규칙 기반 보상 메커니즘을 사용하여 수학, 프로그래밍 및 논리적 추론 분야에서 모델의 학습을 안내합니다.
- 일반 데이터의 경우 보상 모델은 복잡하고 미묘한 상황에서 인간의 선호도를 포착하는 데 사용됩니다. 선호도 쌍과 훈련 프롬프트 분포의 유사한 전략은 DeepSeek-V3 프로세스를 기반으로 사용됩니다.
- 유용성 측면에서는 최종 요약만 고려하며, 이를 통해 평가는 사용자에게 응답의 실용성과 관련성에 초점을 맞추는 동시에 기본적인 추론 과정에 대한 간섭을 최소화합니다.
- 무해성과 관련하여 모델의 전체 응답을 종합적으로 평가합니다. 여기에는 추론 과정과 요약이 포함되며, 생성 과정에서 발생할 수 있는 잠재적인 위험, 편견 또는 유해한 내용을 식별하고 제거합니다.
- 궁극적으로 보상 신호를 통합하고 데이터 분포를 다양화함으로써 추론 능력이 뛰어나면서도 이익과 무해성을 모두 우선시하는 모델을 훈련할 수 있습니다.
3.3.5 증류(4단계)
DeepSeek-R1의 추론 능력을 보다 효율적인 소형 모델에 장착하기 위해 저자는 DeepSeek-R1-Stage-1에서 선택된 800,000개의 샘플을 사용하여 오픈 소스 모델 Qwen과 LLaMA를 직접 미세 조정했습니다. 결과에 따르면 이 직접 증류 방법은 소형 모델의 추론 능력을 크게 향상시킵니다. 저자가 사용한 기본 모델에는 Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B 및 Llama-3.3-70B-Instruct가 있습니다. Llama-3.3은 추론 능력이 Llama-3.1보다 약간 우수하기 때문에 선택되었습니다.
증류 모델의 경우 저자는 SFT만 사용하고 RL 단계는 포함하지 않습니다. RL을 도입하면 모델의 성능을 크게 개선할 수 있지만, 저자의 주요 목적은 증류 기술의 효과를 입증하는 것이고 RL 단계의 탐색은 후속 연구에 맡깁니다.
PS: 게다가 실제로 최종 DeepSeek-R1을 사용하여 위의 데이터를 생성하고 증류에 사용된 80만 개의 데이터를 재구성하는 것이 가능하며, 증류된 모델이 더 나은 효과를 가질 수도 있으나, 그 대가로 데이터를 재구성해야 합니다.