속보입니다! DeepSeek 연구원이 온라인에서 공개: R1 훈련은 단 2~3주가 걸렸고, 중국 설날 연휴 동안 R1 제로의 강력한 진화가 관찰되었습니다.

방금 DeepSeek 연구원이 다야 궈 네티즌들의 DeepSeek R1와 회사의 향후 계획에 대한 질문에 답했습니다. DeepSeek R1는 시작에 불과하며 내부 연구는 여전히 빠르게 진행되고 있다고만 말할 수 있습니다. DeepSeek 연구원들은 중국 설 연휴 동안 휴식을 취하지 않았으며 연구를 발전시키기 위해 끊임없이 노력해 왔습니다. DeepSeek는 몇 가지 큰 움직임을 앞두고 있습니다.

문제는 다음과 같습니다. 2월 1일, 다야 궈는 중국 설날 연휴 동안 그를 가장 흥분하게 만든 일을 공개하는 트윗을 게시했습니다. “지속적인 성장” 성능 곡선의 R1-Zero 모델, 그리고 느낌 강력한 힘 강화 학습(RL)!

딥섹 AI 연구원 다야 궈, 네티즌과 대화

이제 저는 여러분이 다야 궈와 네티즌의 대화를 재현하는 데 도움을 드리겠습니다.

네티즌 A @PseudoProphet: "Big shot, 저는 이 지속적인 성능 개선이 얼마나 오래 지속될지 묻고 싶습니다. 아직 초기 단계인가요? DeepSeek의 RL 모델이 언어 모델의 GPT-2처럼 막 시작 단계에 있는 것 같나요? 아니면 GPT-3.5처럼 더 성숙한 단계에 도달했고 병목 현상에 부딪히려 하고 있나요?"

이것은 매우 날카로운 질문이며, DeepSeek의 RL 기술의 잠재력과 직접 관련이 있습니다! 다야 궈의 답변도 매우 정직합니다.

다야 궈: "저희는 아직 아주 초기 단계에 있다고 생각하고, RL 분야에서는 아직 갈 길이 멀다고 생각합니다. 하지만 올해는 상당한 진전을 볼 수 있을 것으로 믿습니다."

중요한 점을 강조하세요! “아주 일찍”, “탐험할 길이 멀다”, “올해는 상당한 진전”! 이 키워드는 정보로 가득 차 있습니다. 즉, DeepSeek는 RL 분야에서 여전히 개선의 여지가 많다고 믿고 있으며, R1의 현재 결과는 빙산의 일각일 수 있으므로 미래가 밝습니다!

그 직후, 또 다른 네티즌 @kaush_trip(Cheeku Tripathi)이 모델 역량의 핵심을 직접적으로 짚어내는 보다 전문적인 질문을 던졌습니다.

사용자 B @kaush_trip: “R1-Zero의 성능을 기반으로 모델이 실제로 일반화 능력, 또는 그것이 단지 상태 전환과 보상을 기억합니다?”

이 질문은 매우 요점에 가깝습니다! 결국, 많은 모델이 매우 강력해 보이지만 실제로는 훈련 데이터에서 '기계적으로 학습'한 것일 뿐이며 다른 환경에서는 실패할 것입니다. DeepSeek R1가 정말 기준에 맞을까요?

다야 궈: “우리는 RL 프롬프트에서 다루지 않는 도메인에 대한 벤치마크를 사용하여 일반화 능력을 평가합니다. 현재로서는 일반화 능력이 있는 것 같습니다.”

"RL 프롬프트에서 다루지 않는 영역"이라는 문구가 핵심입니다! 즉, DeepSeek는 훈련 데이터로 평가를 "속이지" 않고 모델이 새로운 시나리오로 테스트한다는 의미입니다. 본 적이 없다 이전에, 이는 모델의 일반화 수준을 진정으로 반영할 수 있습니다. Daya Guo가 "있는 듯하다"라는 엄격한 표현을 사용한 것도 이를 더욱 현실적이고 신뢰할 만하게 만듭니다.

다음으로 DeepSeek의 열렬한 팬인 ID @teortaxesTex의 네티즌(그의 댓글에는 "DeepSeek 고래 응원단"이라는 단어도 포함되어 있음)이 DeepSeek V3 기술 보고서로 시작하여 다음과 같은 질문을 했습니다. 모델 학습 시간:

사용자 C @teortaxesTex: "비밀이 아니라면: 이번에 RL 훈련은 얼마나 걸렸나요? 마치 12월 10일경에 이미 R1 또는 최소한 R1-Zero를 받은 것 같은 느낌이 들죠. V3 기술 보고서에 V2.5 모델이 R1 지식 증류를 사용했고 V2.5-1210의 점수가 현재 모델과 동일하다고 언급되어 있거든요. 이게 그 훈련의 연장인가요?"

이 네티즌은 놀라운 관찰력을 가지고 있습니다! 그는 기술 보고서에서 많은 세부 정보를 추출할 수 있었습니다. Daya Guo는 또한 모델의 반복적 프로세스를 인내심 있게 설명했습니다.

다야 궈: “660B의 R1-Zero와 R1 매개변수는 V3가 출시된 후에야 실행되기 시작했고, 훈련은 약 2~3주가 걸렸습니다. 우리가 이전에 언급한 R1 모델(예: V3 기술 보고서)은 실제로 R1-Lite 또는 R1-Lite-Zero입니다.”

그럼 그게 다입니다! 지금 우리가 보는 R1-Zero와 R1은 "새롭고 업그레이드된 버전"이고, 이전 R1-Lite 시리즈는 마이너 버전입니다. DeepSeek는 조용히 많은 버전을 반복하고 비하인드 스토리에서 업그레이드한 것 같습니다.

훈련 속도에 대해 네티즌 @jiayi_pirate (Jiayi Pan)과 네티즌 B @kaush_trip은 "영혼 심문"을 전했습니다.

사용자 D @jiayi_pirate: "3주 동안 10,000 RL 단계, 각 그래디언트 전파(grpo) 단계는 ~3분 걸립니다 🤔"

사용자 B @kaush_trip: "각 그래디언트 전파(grpo) 단계가 약 3분 걸리면 시간당 약 5단계, 하루 120단계로 실제로 매우 느립니다."

정말 세심한 계산이네요! 네티즌의 계산에 따르면 DeepSeek R1의 학습 속도는 실제로 빠르지 않습니다. 이는 또한 이러한 고성능 RL 모델의 학습 비용과 시간 투자가 엄청나다는 것을 보여줍니다. "느린 작업은 좋은 작업을 낳는다"는 것은 AI 모델 학습을 설명하는 데 매우 적절한 표현인 듯합니다.

마지막으로 @davikrehalt(Andy Jiang)라는 네티즌이 더욱 최첨단 애플리케이션 관점에서 질문을 던졌습니다.

사용자 E @davikrehalt: “RL을 사용하여 시도해 보셨나요? 환경에 대한 공식적 증명, 질문에 답하는 대신? 오픈소스 모델이 올해 IMO(국제수학올림피아드)에서 금메달을 따면 좋을 텐데요!(그리고 더 많은 희망!)”

공식 증명! IMO 금메달! 이 네티즌은 꽤 야심적이네요! 하지만 AI를 수학적 증명의 하드코어 분야에 적용하는 것이 실제로 미래의 추세입니다. 다야 궈의 답변은 다시 한번 놀랍습니다.

다야 궈: "우리는 또한 R1을 Lean과 같은 공식 증명 환경에 적용하려고 노력하고 있습니다. 우리는 곧 커뮤니티에 더 나은 모델을 출시하기를 바랍니다."

다야 궈의 말에 따르면, 그들은 이 분야에서 이미 진전을 이룬 것 같습니다. 앞으로 더욱 인상적인 모델이 출시될 수도 있겠죠!

마무리하며

다야 궈의 반응에서 세 가지 핵심 신호를 추출할 수 있습니다.

기술적 포지셔닝: RL은 아직 초기 단계이며 성능 개선은 한계에 도달하기에는 거리가 멉니다.

검증 논리: 크로스 도메인 테스트를 위한 일반화 능력, "메모리 추측" 거부

응용 프로그램 경계: 언어 모델에서 수학적 증명까지, RL은 고차 추론을 향해 나아가고 있습니다.

유사한 게시물

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다