오늘은 공유해드리겠습니다 DeepSeek R1제목: DeepSeek-R1: 강화 학습을 통한 LLM의 추론 능력에 대한 인센티브 제공: 강화 학습을 통해 LLM의 추론 능력에 대한 인센티브 제공.

본 논문에서는 DeepSeek의 첫 번째 세대 추론 모델을 소개합니다. DeepSeek-R1-Zero 그리고 DeepSeek-R1. DeepSeek-R1-Zero 모델은 다음을 통해 학습되었습니다. 초기 단계로 지도 미세 조정(SFT) 없이 대규모 강화 학습(RL)을 수행하여 RL의 잠재력과 뛰어난 추론 기능을 입증합니다. 그것은 가져온다. 강화 학습을 통해, DeepSeek-R1-Zero는 강력하고 흥미로운 추론 행동을 많이 가지고 자연스럽게 등장했습니다.. R1-Zero의 일부 문제(언어적 혼란, 향상된 일반화 능력)를 더욱 최적화하기 위해 그들은 다음을 출시했습니다. 강화 학습 전 다단계 학습과 콜드 스타트 데이터 미세 조정을 결합한 DeepSeek-R1. DeepSeek-R1은 비슷한 성능을 달성했습니다. OpenAI-01-1217을 사용한 추론 과제에 대해. 연구 커뮤니티를 지원하기 위해 그들은 오픈 소스 DeepSeek-R1-Zero, DeepSeek-R1 및 DeepSeek-R1에서 추출된 6개의 고밀도 모델(1.5B, 7B, 8B, 14B, 32B, 70B)은 Qwen 및 Llama를 기반으로 합니다..

이 방법의 특징은 다음과 같이 요약된다.

  1. 강화 학습은 기본 모델에 직접 적용됩니다. 초기 단계로 지도 미세 조정(SFT)에 의존하지 않습니다.
  2. DeepSeek-R1 개발 프로세스가 소개되었습니다. 모델의 추론 및 비추론 기능의 기초를 마련하기 위해 2개의 강화 학습 단계와 2개의 지도 미세 조정 단계를 결합합니다..
  3. 대형 모델의 추론 패턴을 소형 모델로 전환함으로써 추론 작업에서 소형 모델의 성능이 향상됩니다. 증류 기술.

개요

동기 부여

  • 현재의 대규모 언어 모델(LLM)은 추론 작업에서 상당한 진전을 이루었지만 여전히 과제에 직면해 있습니다.
  • 순수의 잠재력 LLM의 추론 능력을 향상시키는 강화 학습(RL)은 아직 완전히 탐구되지 않았습니다.특히, 감독 데이터에 의존하지 않는 경우에는 더욱 그렇습니다.
  • RL을 통해 학습된 모델(예: DeepSeek-R1-Zero는 가독성 및 언어 혼합(예: 중국어와 영어 혼합 말하기)에 문제가 있으며 사용자 친화성을 개선하기 위해 추가 개선이 필요합니다..

행동 양식

DeepSeek-R1-제로: DeepSeek-V3-Base를 기본 모델로 사용하며, 강화 학습으로서의 GRPO(Group Relative Policy Optimization) 뼈대, 추론에서 모델의 성능을 개선하기 위한 감독 데이터 없이.

DeepSeek-R1:

  • 콜드 스타트: 고품질의 장기 CoT(Chain-of-Thought) 데이터를 소량 수집하여 미세 조정합니다. DeepSeek-V3-베이스 모델 강화 학습을 위한 최초의 행위자로서.
  • 추론 중심 강화 학습: 같은 DeepSeek-R1-Zero와 같은 강화학습 훈련 과정을 적용하지만 모델의 추론 능력 향상에 초점을 맞춥니다. 코딩, 수학, 과학 및 논리적 추론과 같은 분야에서. 언어적 일관성 보상은 CoT에서 발생하는 언어적 혼합 문제를 완화하기 위해 도입되었습니다.
  • 거부 샘플링 및 감독된 미세 조정: 강화 학습의 수렴된 체크포인트를 사용하여 감독 미세 조정(SFT) 데이터 수집 이후의 교육을 위해서.
  • 모든 시나리오에 대한 강화 학습: 강화 학습의 2차 강화 학습 단계를 구현하여 개선하는 것을 목표로 합니다. 모델의 추론 능력을 최적화하는 동시에 모델의 유용성과 무해성을 높입니다.
  • 지식의 정제: DeepSeek-R1에서 큐레이팅한 800k 샘플을 사용하여 오픈소스 모델인 Qwen과 Llama를 직접 미세 조정합니다.

자세한 방법 및 절차:

DeepSeek-R1-Zero: 기본 모델을 위한 강화 학습

  • 강화 학습 알고리즘: GRPO(그룹 상대 정책 최적화) 알고리즘을 사용합니다. 필요하지 않습니다 비평가 모델은 그룹 점수에 따라 기준선을 추정하고 교육 비용을 절감합니다..
  • 보상 모델링: 사용합니다 규칙 기반 보상 시스템, 포함
  • 정확도 보상: 최종 결과의 정확성 등 답변이 올바른지 평가합니다. 수학 문제 답변, 코드 문제에 대한 컴파일러의 피드백.
  • 보상 형식: 모델을 격려합니다 생각 과정을 사이에 두다 그리고 태그.

교육 템플릿: 템플릿에는 다음이 포함됩니다. 그리고 태그는 다음과 같이 설계되었습니다. 모델이 먼저 사고 과정을 출력하고 그 다음에 최종 답을 출력하도록 안내합니다..

  • 자기 진화 과정: DeepSeek-R1-Zero 시연 훈련 중 자기 진화적 특성을 갖추고, 반성 및 다중 문제 해결 경로 탐색과 같은 보다 복잡한 추론 전략을 자율적으로 학습할 수 있었습니다..

DeepSeek-R1: 콜드 스타트와 결합된 강화 학습

  • 콜드 스타트: DeepSeek-R1-Zero를 풀려면 가독성 문제, DeepSeek-R1은 먼저 소량의 고품질 CoT 데이터 DeepSeek-V3-Base 모델을 미세 조정합니다. 강화 학습을 위한 초기 행위자 역할을 합니다.. 콜드 스타트 데이터 요약 태그와 비우호적인 답변이 포함되어 있습니다. 걸러집니다.
    • 방법: 1) 고품질의 Long COT 데이터를 선택합니다. 2) 태그를 추가합니다.
    • 장점: 1) 최적화된 가독성(R1-Zero의 다국어 문제나 마크다운 형식 문제를 해결합니다). 2) 신중하게 선택된 사람이 선호하는 데이터는 R1-Zero에서 성능을 지속적으로 개선할 수 있습니다.
    • 질문: 가독성 문제를 왜 해결해야 하나요? 해결하지 않고도 더 나은 결과를 낼 수 없나요(예: 출력 길이를 줄이고 더 효율적으로 추론)?
  • 추론 중심 RL: 콜드 스타트 모델을 기반으로 다음과 유사한 강화 학습 프로세스 DeepSeek-R1-Zero를 적용하여 코딩, 수학, 과학 및 논리적 추론 등의 과제에서 모델의 능력 향상에 집중합니다.. 혼합 언어 문제를 해결하기 위해 (다국어 추론), 언어 일관성 보상 소개됩니다.
    • 질문: 과학적, 논리적 추론 작업과 데이터 세트는 어떻게 훈련됩니까?
  • 거부 샘플링 및 SFT: 추론 기반 강화 학습이 수렴되면 획득된 체크포인트가 사용됩니다. 거부 샘플링을 통해 새로운 SFT 데이터를 생성하고, 이 데이터를 DeepSeek-V3의 데이터와 결합하여 모델의 글쓰기, 롤플레잉, 일반 작업 능력을 향상시킵니다.
    • 목적:
      • 이 단계는 다음 이후에 시작됩니다. 추론 지향 강화 학습(RL) 프로세스가 수렴됩니다..
      • 주요 목적은 다음과 같습니다 감독된 미세 조정(SFT) 데이터 수집 이후의 훈련 라운드에서 사용합니다.
      • 추론에만 초점을 맞춘 초기 콜드 스타트 데이터와 달리 이 단계는 다음을 목표로 합니다. 모델의 기능을 확장하다 추론뿐만 아니라 글쓰기, 롤플레잉 및 기타 일반적인 목적의 작업을 포괄합니다.
    • 데이터 수집 – 추론 데이터:
      • 방법: 추론 지향 RL 단계에서 얻은 체크포인트를 사용하여 기각 샘플링을 통해 추론 궤적을 생성합니다.
      • 데이터 세트 확장: 규칙 기반 보상 데이터만 사용했던 이전 RL 단계와 달리, 여기서는 규칙 기반이 아닌 보상 데이터를 도입합니다. 어떤 경우에는 생성 보상 모델(DeepSeek-V3)을 사용하여 반응을 결정합니다.
      • 데이터 필터링: 품질과 가독성을 보장하기 위해 출력은 다음 항목을 제거하도록 필터링됩니다.
        • 혼합된 언어를 포함하는 사고 사슬
        • 긴 문단
        • 코드 블록
      • 샘플링 및 선택: 각 프롬프트에 대해 여러 응답이 생성되었습니다. 데이터 세트에 대해 "올바른" 응답만 유지되었습니다.
      • 데이터 세트 크기:600,000개의 추론 관련 교육 샘플 이런 방식으로 수집되었습니다.
    • 데이터 수집 - 비추론 데이터:
      • 적용 범위: 글쓰기, 사실에 기반한 질의응답(QA), 자기 인식 및 번역.
      • 이 논문에서는 다음을 사용하는 것에 대해 언급합니다. DeepSeek-V3의 프로세스 및 DeepSeek-V3 SFT 데이터 세트의 일부 재사용 이러한 비 추론 작업을 처리합니다. 정보 200,000개의 추론 독립 샘플 수집되었습니다. (참고: 비추론 데이터 수집의 세부 사항은 섹션 2.3.4에서 자세히 설명합니다.)
    • 수집된 데이터의 사용:
      • 수집된 추론 및 비추론 데이터(총 약 80만개 샘플 - 추론 샘플 60만개 + 비추론 샘플 20만개)는 DeepSeek-V3-Base 모델을 두 개의 에포크에 대해 미세 조정합니다.. 이 미세 조정된 모델은 섹션 2.3.4에 설명된 최종 RL 단계에서 사용되었습니다.
    • 요약 이 단계에서는 추론 기능을 사용합니다. RL을 통해 학습하여 다양하고 고품질의 SFT 데이터 세트를 생성합니다. 이 데이터 세트는 추론 기능을 강화하고 일반적인 기능도 확장합니다. 최종 정렬 및 개선 단계의 훈련을 위한 모델입니다.
  • 모든 시나리오에 대한 강화 학습: 인간의 선호도를 더욱 일치시키기 위해, 강화 학습의 두 번째 단계를 구현하여 모델의 유용성과 무해성을 개선합니다.
    • 추론 데이터: 예를 들어 수학, 코드, 논리적 추론 또는 규칙 기반 방법을 통한 감독.
    • 일반 데이터: 보상 모델은 여전히 복잡하고 미묘한 시나리오에 대한 선호도 정보를 제공하는 데 사용됩니다. 쌍별 데이터로 훈련된 모델도 추정됩니다.
    • 유용성: 추론 과정에 대한 간섭을 줄여 최종 요약 결과에만 집중합니다.
    • 무해성: 위험을 줄이기 위해 전체 대응을 감독합니다.

모델 증류(Distillation):

  • 보다 효율적인 소규모 추론 모델을 얻기 위해 이 논문은 DeepSeek-R1의 추론 능력을 Qwen 및 Llama 시리즈의 오픈 소스 모델로 정제합니다. 증류 프로세스 감독 미세 조정(SFT)만 사용합니다. 강화 학습 단계를 사용하지 않습니다.

결론

DeepSeek-R1-Zero: 잠재력을 보여줍니다 LLM 추론 능력을 촉진하는 순수 강화 학습을 통해 강력한 성능을 달성할 수 있습니다. 감독된 데이터에 의존하지 않고.

  • 아하 순간: 강화 학습의 아름다움(모델이 깨달음을 얻는 순간, 재평가하는 법을 배우면 문제에 대한 사고 시간을 더 많이 할당할 수 있습니다. 초기 접근 방식)
  • 출력 길이는 계속 증가한다(사고시간은 계속 증가한다)
  • 정확도는 지속적으로 향상되고 있습니다(정확도를 계산하기 위해 16개 응답을 샘플링)
  • DeepSeek-R1: 콜드 스타트 데이터와 반복 강화 학습 미세 조정을 결합하여 모델 성능을 더욱 향상시킵니다. 다양한 작업에서 OpenAI-01-1217과 비슷한 수준 달성.
  • 지식의 증류: DeepSeek-R1을 교사 모델로 사용하여 800K 훈련 샘플을 생성하고 여러 개의 작고 밀도가 높은 모델을 미세 조정했습니다. 결과는 이것이 증류 방법은 추론 능력을 크게 향상시킬 수 있습니다. 작은 모델.

한정

  • 제한점 1: DeepSeek-R1의 전반적인 능력은 개선되어야 합니다. DeepSeek-R1은 여전히 함수 호출, 멀티턴 대화, 복잡한 롤플레잉, JSON 출력 등의 작업 측면에서 DeepSeek-V3보다 떨어집니다.
  • 제한 사항 2: 언어 혼합 문제 DeepSeek-R1은 중국어와 영어가 아닌 질의를 처리할 때 언어 혼합 문제가 발생할 수 있습니다. 예를 들어 영어로 추론하고 응답하는 경우입니다.
  • 제한 사항 3: 즉각적인 민감성. DeepSeek-R1은 프롬프트 단어에 민감하게 반응하며, 몇 번의 샷 프롬프트는 성능을 저하시킵니다.
  • 제한 사항 4: 소프트웨어 엔지니어링 작업에 대한 적용이 제한적입니다. 평가 시간이 길기 때문에 대규모 강화 학습이 소프트웨어 엔지니어링 작업에 충분히 적용되지 않았으며, DeepSeek-R1은 소프트웨어 엔지니어링 벤치마크에서 DeepSeek-V3에 비해 개선이 제한되었습니다.

유사한 게시물

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다