32B 추론 모델은 데이터의 1/8만 사용하며 같은 크기의 DeepSeek-R1과 동률입니다!
방금 스탠포드, UC버클리, 워싱턴대 등의 기관들이 공동으로 SOTA 수준의 추론 모델을 공개했는데요. 오픈싱커-32B또한 최대 114,000개의 교육 데이터를 오픈 소스로 공개했습니다.

팀 탐색: DeepSeek-R1 검증 주석(R1 증류 기반)이 포함된 대규모 고품질 데이터 세트를 사용하여 SOTA 추론 모델을 훈련할 수 있습니다.
구체적인 방법은 데이터의 크기를 조정하고, 추론 과정을 검증하고, 모델의 크기를 조정하는 것입니다.
그 결과 탄생한 OpenThinker-32B는 수학, 코딩, 과학 분야의 여러 벤치마크 테스트에서 Li Fei-Fei의 s1 및 s1.1 모델보다 성능이 우수했으며 R1-Distill-32B와 비슷한 성능을 보였습니다.
800k 데이터(600k 추론 샘플 포함)를 사용한 R1-Distill-32B와 비교했을 때, OpenThinker-32B는 114k 데이터만 사용하여 거의 동일한 우수한 결과를 얻었다는 점이 언급할 가치가 있습니다.

또한, OpenThinker-32에서는 모든 모델 가중치, 데이터 세트, 데이터 생성 코드, 훈련 코드도 공개했습니다!

데이터 큐레이션
연구원들은 이전에 OpenThinker-7B를 훈련했던 것과 동일한 OpenThoughts-114k 데이터 세트를 사용하여 OpenThinker-32B를 훈련했습니다.
그들은 DeepSeek-R1 모델을 사용하여 신중하게 선택된 173,000개의 질문에 대한 추론 과정과 답변 시도를 수집했습니다. 이 원시 데이터는 OpenThoughts-Unverified-173k 데이터 세트로 게시되었습니다.
이 과정의 마지막 단계는 추론 과정이 검증을 통과하지 못할 경우 해당 데이터 샘플을 필터링하는 것입니다.
다음 그림은 전체 과정을 시각적으로 보여줍니다.
연구팀은 먼저 BAAI/TACO, DeepMind, Python 제출물 등 다양한 분야와 플랫폼에서 가져올 수 있는 소스 데이터나 질문 주제를 입력합니다. 여기에는 코드, 퍼즐, 과학, 수학 등 다양한 측면이 포함됩니다.
그런 다음 이러한 다양한 입력은 핵심 처리 모듈인 DeepSeek-R1로 전달되어 데이터가 분석되고 처리됩니다. 질문은 과학 질문, 수학 및 퍼즐, 코드의 세 가지 범주로 나뉩니다.
일부 결과는 검증이 필요하지 않으며 간단한 분석 또는 직접 출력일 수 있습니다. 심층 검증이 필요한 일부 콘텐츠의 경우 대규모 언어 모델(LLM)을 사용하여 GT(Ground Truth)와 비슷한 방식으로 판단합니다. 코드인 경우 코드를 실행하고 단위 테스트를 수행하여 정확성과 효과를 확인합니다.
마지막으로, 다양한 방향에서 얻은 결과를 결합하여 편견 없는 사고와 보다 포괄적인 솔루션을 도출할 수 있습니다.

연구팀은 데이터 세트를 구성하는 데 사용된 추가 열이 포함된 "메타데이터"라는 구성으로 최종 OpenThoughts-114k 데이터 세트를 업데이트했습니다.
- 문제
- 지상_진실_해결책
- test_cases (코드만)
- starter_code (코드만)
- DeepSeek_추론
- DeepSeek_솔루션
- 도메인
- 원천
이러한 추가 메타데이터를 사용하면 데이터 필터링, 도메인 전환, 검증 검사, 추론 프로세스 템플릿 변경과 같은 새로운 시나리오에서 이 데이터 세트를 더 쉽게 사용할 수 있습니다.
이러한 추가 메타데이터를 통해 이 데이터 세트를 사용하기가 더 쉬워지며, 필터링, 도메인 변경, 검증 확인, 추론 추적 템플릿 변경 등과 같이 코드 한 줄만으로 작업을 수행할 수 있습니다.
load_dataset("open-thoughts/OpenThoughts-114k", "메타데이터", split="train")
연구팀은 커뮤니티가 이러한 질문과 표준 답변을 OpenThinker 모델에서 강화 학습(RL)에 대한 연구에 활용하는 것을 기대한다고 말했습니다. DeepScaleR은 이미 이 접근 방식이 더 작은 규모에서 특히 잘 작동한다는 것을 입증했습니다.
확인
연구팀은 최종 OpenThoughts-114k 데이터 세트를 도출하기 위해 답변을 검증하고 틀린 답변을 제거했습니다.
아래 표에서 보듯이 검증을 통과하지 못한 추론을 유지하면 성능이 저하될 수 있습니다. 하지만 검증되지 않은 모델은 다른 32B 추론 모델에 비해 여전히 우수한 성능을 보입니다.
검증의 역할은 R1 주석의 품질을 유지하면서도 훈련 프롬프트 세트의 다양성과 크기를 확장하는 것입니다. 반면, 검증되지 않은 데이터는 더 쉽게 확장할 수 있으므로 추가로 탐색할 가치가 있습니다.

코드 문제의 경우, 기존 테스트 사례와 답변 시도를 비교하여 추론 과정의 검증을 완료합니다.
코드 실행 중에 직면하는 과제에서 영감을 얻어, 우리는 사용자가 대규모로 코드를 안전하게 실행하고 예상 출력과 비교하여 확인할 수 있는 코드 실행 프레임워크를 Curator에 구현했습니다.
수학 문제의 경우, 연구팀은 표준 답변과 DeepSeek-R1 해결 시도를 모두 받는 LLM(대규모 언어 모델) 판단을 검증에 사용했습니다.
더 엄격한 구문 분석 엔진(Math-Verify) 대신 LLM 평가기를 사용하여 데이터를 생성한 것이 더 효과적인 데이터 전송 속도를 제공하고 더 나은 성능으로 다운스트림 모델을 훈련할 수 있는 것으로 나타났습니다.

훈련
연구팀은 LLaMa-Factory를 사용하여 16k의 컨텍스트 길이를 가진 OpenThoughts-114k 데이터 세트에서 Qwen2.5-32B-Instruct를 세 번 미세 조정했습니다. 전체 학습 구성은 GitHub에서 찾을 수 있습니다.
OpenThinker-32B는 AWS SageMaker 클러스터에서 4개의 8xH100 P5 노드를 사용하여 90시간 동안 학습되었으며, 총 2,880H100시간이 소요되었습니다.
한편, OpenThinker-32B-Unverified는 96개의 4xA100 노드(GPU 당 64GB)를 사용하여 Leonardo 슈퍼컴퓨터에서 30시간 동안 학습하여 11,520시간의 A100 시간을 축적했습니다.
평가
연구팀은 오픈소스 평가 라이브러리인 Evalchemy를 사용하여 모든 모델을 평가했습니다.
AIME24와 AIME25의 경우, 그들은 5회 실행의 결과를 평균하여 정확도를 계산했습니다. 평가 구성은 0.7의 온도 매개변수를 사용하고, 모델 응답을 32,768개 토큰으로 제한하고, 추가 시스템 또는 사용자 프롬프트 단어를 추가하지 않았으며, 특별한 디코딩 전략(예: 예산 강제)을 사용하지 않았습니다.
OpenThoughts 프로젝트가 시작되었을 때, 그들은 DeepSeek-R1-Distill-Qwen-32B와 맞먹는 성능을 가진 오픈 데이터 모델을 만드는 것을 목표로 삼았습니다.
이제 그 격차는 거의 없어졌습니다.
마지막으로, 연구팀은 지난 몇 주 동안 커뮤니티에서 오픈 데이터 추론 모델 구축에 있어 급속한 진전이 이루어진 것에 대해 기쁘게 생각하며, 서로의 통찰력을 바탕으로 계속 발전해 나가기를 기대하고 있습니다.
OpenThinker-32B의 오픈 소스 릴리스는 데이터, 검증 및 모델 크기 간의 시너지가 추론 기능을 개선하는 데 중요하다는 것을 보여줍니다.
이 결과는 오픈소스 추론 모델의 개발을 촉진할 뿐만 아니라, 전체 AI 커뮤니티에 귀중한 리소스와 영감을 제공합니다.