TL;DR

이 연구를 시작하게 된 배경과 동기는 무엇입니까?

대규모 언어 모델(LLM)의 발전은 인공지능 분야에서 혁명적인 변화를 가져왔지만, 추론 능력의 근본적인 한계는 여전히 중요한 도전 과제로 남아있었습니다. 기존의 지도 학습 미세 조정 방법은 모델에 외부에서 정의된 지식을 주입하는 데 집중했지만, 모델 스스로 복잡한 문제 해결 전략을 자율적으로 개발하는 능력은 제한적이었습니다. 특히 수학, 코딩, 과학적 추론과 같은 고도의 논리적 사고를 요구하는 영역에서 언어 모델들은 일관된 성능을 보이지 못했습니다.

DeepSeek-AI 연구팀은 이러한 한계를 극복하기 위해 강화학습(RL)을 통해 모델의 내재적 추론 능력을 개발하는 혁신적인 접근법을 탐구했습니다. 그들의 핵심 질문은 간단하면서도 근본적이었습니다. 모델이 외부의 명시적 지도 없이도 스스로 복잡한 추론 전략을 학습할 수 있을까? 이는 단순히 기술적 도전을 넘어 인공지능의 자율학습 가능성에 대한 근본적인 탐구였습니다.

이 연구에서 제시하는 새로운 해결 방법은 무엇입니까?

연구팀은 DeepSeek-R1-Zero와 DeepSeek-R1이라는 두 가지 혁신적인 모델을 개발했습니다. DeepSeek-R1-Zero는 순수한 강화학습만을 사용하여 기본 모델의 추론 능력을 개발하는 최초의 시도였습니다. Group Relative Policy Optimization(GRPO) 알고리즘을 활용하여, 모델은 외부 지도 데이터 없이 스스로 추론 전략을 탐색하고 발전시킬 수 있었습니다. 이 접근법은 모델이 자연스럽게 복잡한 문제 해결 패턴을 학습할 수 있게 하는 혁신적인 방법론을 제시했습니다.

DeepSeek-R1은 이를 더욱 발전시켜, 소량의 콜드 스타트 데이터와 다단계 강화학습 훈련 파이프라인을 도입했습니다. 이 모델은 추론 능력 향상뿐만 아니라 언어 일관성, 유용성, 무해성과 같은 추가적인 측면을 고려하여 더욱 균형 잡힌 접근법을 제시했습니다. 특히 연구팀은 강화학습 과정에서 언어 일관성 보상과 같은 혁신적인 기법을 도입하여 모델의 추론 과정을 더욱 정교하게 만들었습니다.

제안된 방법은 어떻게 구현되었습니까?

DeepSeek-R1의 구현은 네 단계의 정교한 훈련 파이프라인을 통해 이루어졌습니다. 첫 번째 단계에서는 소량의 긴 체인 오브 소트(CoT) 데이터를 수집하여 기본 모델을 초기 미세 조정합니다. 두 번째 단계에서는 추론 지향적 강화학습을 적용하여 모델의 추론 능력을 향상시키며, 언어 일관성 보상을 도입하여 모델의 응답 품질을 개선합니다.

세 번째 단계에서는 거부 샘플링 기법을 사용하여 추론 및 비추론 데이터를 수집하고, 이를 통해 모델을 지도 학습 방식으로 미세 조정합니다. 마지막 단계에서는 모든 시나리오를 고려한 추가 강화학습을 수행하여 모델의 유용성과 무해성을 개선합니다. 이 과정에서 정확도, 유용성, 무해성, 언어 일관성을 종합적으로 고려하는 정교한 보상 함수를 설계했습니다.

이 연구의 결과가 가지는 의미는 무엇입니까?

연구 결과는 강화학습을 통한 언어 모델의 추론 능력 개발에 대한 중요한 통찰을 제공했습니다. DeepSeek-R1-Zero는 순수한 강화학습만으로 AIME 2024에서 pass@1 점수를 15.6%에서 71.0%로 향상시켰으며, 다수결 투표를 통해 86.7%까지 성능을 끌어올렸습니다. DeepSeek-R1은 OpenAI-o1-1217과 비교할 만한 성능을 달성하여, 대규모 언어 모델의 자율 학습 가능성을 입증했습니다.

특히 주목할 만한 점은 증류 과정을 통해 작은 모델들도 강력한 추론 능력을 획득할 수 있다는 발견입니다. DeepSeek-R1-Distill-Qwen-7B는 AIME 2024에서 55.5%를 달성하여 기존 오픈소스 모델들을 능가했으며, 32B 모델은 AIME 2024에서 72.6%, MATH-500에서 94.3%의 놀라운 성능을 보였습니다. 이는 대규모 모델의 추론 능력을 더 작고 효율적인 모델로 전달할 수 있는 새로운 가능성을 열어주었습니다.

DeepSeek-R1: 강화학습을 통한 대규모 언어 모델의 추론 능력 향상

초록

DeepSeek-AI 연구팀은 강화학습을 통해 추론 능력을 획기적으로 향상시킨 첫 번째 세대 추론 모델인 DeepSeek-R1-Zero와 DeepSeek-R1을 소개합니다. DeepSeek-R1-Zero는 지도 학습 미세 조정(SFT) 없이 순수한 대규모 강화학습만으로 훈련된 모델로, 놀라운 추론 능력을 보여줍니다. 강화학습 과정을 통해 DeepSeek-R1-Zero는 자연스럽게 강력하고 흥미로운 추론 행동들을 발현시켰습니다. 하지만 가독성 저하와 언어 혼용 문제와 같은 도전 과제들이 나타났습니다.

이러한 문제들을 해결하고 추론 성능을 더욱 향상시키기 위해 연구팀은 다단계 훈련과 콜드 스타트 데이터를 포함하는 DeepSeek-R1을 개발했습니다. DeepSeek-R1은 추론 과제에서 OpenAI-o1-1217과 비교할 만한 성능을 달성했습니다. 연구 커뮤니티를 지원하기 위해 DeepSeek-R1-Zero, DeepSeek-R1, 그리고 DeepSeek-R1에서 증류된 6개의 밀집 모델들(1.5B, 7B, 8B, 14B, 32B, 70B)을 Qwen과 Llama 기반으로 오픈소스로 공개합니다.

벤치마크 성능 비교

위 그림은 다양한 AI 모델들의 벤치마크 성능을 비교한 막대 그래프입니다. AIME 2024, Codeforces, GPQA Diamond, MATH-500, MMLU, SWE-bench Verified 등의 데이터셋에서 DeepSeek-R1, OpenAI-01-1217, DeepSeek-R1-32B, OpenAI-01-mini, DeepSeek-V3 모델들의 정확도나 성능 지표(Pass@1, Percentile, Resolved)를 보여줍니다. 이 비교는 다양한 응용 분야에서 이러한 모델들의 능력을 평가하고 이해하는 데 중요한 의미를 가집니다.

서론

최근 몇 년간 대규모 언어 모델(LLM)들은 급속한 반복과 진화를 거듭하며 인공 일반 지능(AGI)과의 격차를 점진적으로 줄여나가고 있습니다. 최근에는 사후 훈련이 전체 훈련 파이프라인의 중요한 구성 요소로 부상했습니다. 사후 훈련은 추론 과제의 정확도를 향상시키고, 사회적 가치와 일치시키며, 사용자 선호도에 적응시키는 것으로 나타났으며, 이 모든 것을 사전 훈련 대비 상대적으로 최소한의 계산 자원으로 달성할 수 있습니다.

추론 능력의 맥락에서 OpenAI의 o1 시리즈 모델들은 체인 오브 소트 추론 과정의 길이를 늘려 추론 시간 스케일링을 도입한 최초의 모델들이었습니다. 이러한 접근법은 수학, 코딩, 과학적 추론과 같은 다양한 추론 과제에서 상당한 개선을 달성했습니다. 하지만 효과적인 테스트 시간 스케일링의 도전은 연구 커뮤니티에게 여전히 열린 문제로 남아있습니다.

이전 연구들은 프로세스 기반 보상 모델, 강화학습, 몬테카를로 트리 탐색과 빔 탐색과 같은 탐색 알고리즘 등 다양한 접근법을 탐구해왔습니다. 하지만 이러한 방법들 중 어느 것도 OpenAI의 o1 시리즈 모델들과 비교할 만한 일반적인 추론 성능을 달성하지 못했습니다.

순수 강화학습을 통한 추론 능력 개발

이 논문에서는 순수 강화학습(RL)을 사용하여 언어 모델의 추론 능력을 향상시키는 첫 번째 단계를 제시합니다. 연구의 목표는 지도 데이터 없이 LLM이 추론 능력을 개발할 수 있는 잠재력을 탐구하는 것으로, 순수한 RL 과정을 통한 자기 진화에 초점을 맞춥니다.

구체적으로 DeepSeek-V3-Base를 기본 모델로 사용하고 GRPO(Group Relative Policy Optimization)를 RL 프레임워크로 채택하여 추론에서의 모델 성능을 향상시켰습니다. 훈련 과정에서 DeepSeek-R1-Zero는 자연스럽게 수많은 강력하고 흥미로운 추론 행동들을 발현시켰습니다. 수천 번의 RL 단계를 거친 후, DeepSeek-R1-Zero는 추론 벤치마크에서 뛰어난 성능을 보여줍니다. 예를 들어, AIME 2024에서 pass@1 점수가 15.6%에서 71.0%로 증가했으며, 다수결 투표를 통해 점수가 86.7%까지 향상되어 OpenAI-o1-0912의 성능과 일치했습니다.

하지만 DeepSeek-R1-Zero는 가독성 저하와 언어 혼용과 같은 문제들에 직면했습니다. 이러한 문제들을 해결하고 추론 성능을 더욱 향상시키기 위해 소량의 콜드 스타트 데이터와 다단계 훈련 파이프라인을 포함하는 DeepSeek-R1을 도입했습니다.

DeepSeek-R1의 다단계 훈련 파이프라인

DeepSeek-R1의 개발 과정은 다음과 같습니다. 먼저 수천 개의 콜드 스타트 데이터를 수집하여 DeepSeek-V3-Base 모델을 미세 조정합니다. 이후 DeepSeek-R1-Zero와 유사한 추론 지향적 RL을 수행합니다. RL 과정이 수렴에 가까워지면, RL 체크포인트에서 거부 샘플링을 통해 새로운 SFT 데이터를 생성하고, 이를 작문, 사실적 QA, 자기 인식과 같은 도메인의 DeepSeek-V3 지도 데이터와 결합한 후 DeepSeek-V3-Base 모델을 재훈련합니다. 새로운 데이터로 미세 조정한 후, 체크포인트는 모든 시나리오의 프롬프트를 고려한 추가적인 RL 과정을 거칩니다. 이러한 단계들을 통해 OpenAI-o1-1217과 동등한 성능을 달성하는 DeepSeek-R1 체크포인트를 얻었습니다.

작은 모델로의 증류

연구팀은 DeepSeek-R1에서 더 작은 밀집 모델들로의 증류를 추가로 탐구했습니다. Qwen2.5-32B를 기본 모델로 사용하여, DeepSeek-R1에서의 직접 증류가 해당 모델에 RL을 적용하는 것보다 우수한 성능을 보였습니다. 이는 더 큰 기본 모델들이 발견한 추론 패턴이 추론 능력 향상에 중요함을 보여줍니다. 연구팀은 증류된 Qwen과 Llama 시리즈를 오픈소스로 공개합니다.

주목할 점은 증류된 14B 모델이 최신 오픈소스 QwQ-32B-Preview를 큰 차이로 능가하며, 증류된 32B와 70B 모델들이 밀집 모델 중에서 추론 벤치마크의 새로운 기록을 세웠다는 것입니다.

주요 기여사항

사후 훈련: 기본 모델에서의 대규모 강화학습

연구팀은 지도 학습 미세 조정(SFT)을 예비 단계로 의존하지 않고 기본 모델에 직접 RL을 적용했습니다. 이러한 접근법은 모델이 복잡한 문제 해결을 위한 체인 오브 소트를 탐구할 수 있게 하여 DeepSeek-R1-Zero의 개발로 이어졌습니다. DeepSeek-R1-Zero는 자기 검증, 반성, 긴 CoT 생성과 같은 능력을 보여주며, 연구 커뮤니티에게 중요한 이정표가 되었습니다. 특히 LLM의 추론 능력이 SFT 없이 순수한 RL을 통해서만 유도될 수 있음을 검증한 최초의 공개 연구로서, 이 분야의 미래 발전을 위한 길을 열었습니다.

또한 DeepSeek-R1을 개발하기 위한 파이프라인을 소개했습니다. 이 파이프라인은 개선된 추론 패턴을 발견하고 인간의 선호도와 일치시키는 것을 목표로 하는 두 개의 RL 단계와, 모델의 추론 및 비추론 능력의 씨앗 역할을 하는 두 개의 SFT 단계를 포함합니다. 이 파이프라인이 더 나은 모델을 만들어 업계에 도움이 될 것으로 믿습니다.

증류: 작은 모델도 강력할 수 있다

연구팀은 더 큰 모델의 추론 패턴을 작은 모델로 증류할 수 있으며, 이것이 작은 모델에서 RL을 통해 발견된 추론 패턴보다 더 나은 성능을 가져온다는 것을 보여주었습니다. 오픈소스 DeepSeek-R1과 그 API는 연구 커뮤니티가 미래에 더 나은 작은 모델들을 증류하는 데 도움이 될 것입니다.

DeepSeek-R1이 생성한 추론 데이터를 사용하여 연구 커뮤니티에서 널리 사용되는 여러 밀집 모델들을 미세 조정했습니다. 평가 결과는 증류된 작은 밀집 모델들이 벤치마크에서 뛰어난 성능을 보인다는 것을 보여줍니다. DeepSeek-R1-Distill-Qwen-7B는 AIME 2024에서 55.5%를 달성하여 QwQ-32B-Preview를 능가했습니다. 또한 DeepSeek-R1-Distill-Qwen-32B는 AIME 2024에서 72.6%, MATH-500에서 94.3%, LiveCodeBench에서 57.2%를 기록했습니다. 이러한 결과들은 이전 오픈소스 모델들을 크게 능가하며 o1-mini와 비교할 만합니다. 연구팀은 Qwen2.5와 Llama3 시리즈를 기반으로 한 1.5B, 7B, 8B, 14B, 32B, 70B 증류 체크포인트들을 커뮤니티에 오픈소스로 공개합니다.

평가 결과 요약

추론 과제: DeepSeek-R1은 AIME 2024에서 79.8% Pass@1 점수를 달성하여 OpenAI-o1-1217을 약간 능가했습니다. MATH-500에서는 97.3%라는 인상적인 점수를 달성하여 OpenAI-o1-1217과 동등한 성능을 보이며 다른 모델들을 크게 능가했습니다. 코딩 관련 과제에서 DeepSeek-R1은 Codeforces에서 2,029 Elo 등급을 달성하여 경쟁 참가자의 96.3%를 능가하는 전문가 수준의 코드 경쟁 능력을 보여줍니다. 엔지니어링 관련 과제에서는 DeepSeek-V3보다 약간 나은 성능을 보여 실제 업무에서 개발자들에게 도움이 될 수 있습니다.

지식: MMLU, MMLU-Pro, GPQA Diamond와 같은 벤치마크에서 DeepSeek-R1은 뛰어난 결과를 달성했으며, MMLU에서 90.8%, MMLU-Pro에서 84.0%, GPQA Diamond에서 71.5%의 점수로 DeepSeek-V3를 크게 능가했습니다. 이러한 벤치마크에서 OpenAI-o1-1217보다는 약간 낮은 성능을 보이지만, DeepSeek-R1은 다른 폐쇄형 모델들을 능가하여 교육 과제에서의 경쟁력을 보여줍니다. 사실적 벤치마크 SimpleQA에서 DeepSeek-R1은 DeepSeek-V3를 능가하여 사실 기반 쿼리 처리 능력을 보여줍니다. OpenAI-o1이 4o를 능가하는 유사한 경향이 관찰됩니다.

기타: DeepSeek-R1은 창의적 글쓰기, 일반적인 질문 답변, 편집, 요약 등을 포함한 광범위한 과제에서도 뛰어난 성능을 보입니다. AlpacaEval 2.0에서 87.6%의 인상적인 길이 제어 승률과 ArenaHard에서 92.3%의 승률을 달성하여 시험 지향적이지 않은 쿼리를 지능적으로 처리하는 강력한 능력을 보여줍니다. 또한 DeepSeek-R1은 긴 맥락 이해가 필요한 과제에서 뛰어난 성능을 보여주며, 긴 맥락 벤치마크에서 DeepSeek-V3를 크게 능가합니다.

접근법

개요

이전 연구들은 모델 성능 향상을 위해 대량의 지도 학습 데이터에 크게 의존해왔습니다. 하지만 이 연구에서는 지도 학습 미세 조정(SFT)을 콜드 스타트로 사용하지 않고도 대규모 강화학습(RL)을 통해 추론 능력을 크게 향상시킬 수 있음을 보여줍니다. 더 나아가 소량의 콜드 스타트 데이터를 포함하면 성능을 더욱 향상시킬 수 있습니다.

이러한 접근법의 핵심은 기존의 지도 학습 패러다임에서 벗어나 강화학습의 탐색적 특성을 활용한다는 점입니다. 지도 학습이 정답이 주어진 상황에서 모델을 훈련시키는 반면, 강화학습은 모델이 스스로 다양한 추론 경로를 탐색하고 보상 신호를 통해 효과적인 전략을 학습할 수 있게 합니다. 이는 마치 인간이 문제를 해결할 때 여러 가지 접근법을 시도해보고 성공적인 방법을 기억하는 과정과 유사합니다.

연구팀은 이러한 철학을 바탕으로 두 가지 주요 모델을 개발했습니다. 첫 번째는 DeepSeek-R1-Zero로, 기본 모델에 어떠한 SFT 데이터도 사용하지 않고 순수하게 RL만을 적용한 모델입니다. 이는 언어 모델이 외부의 명시적인 지도 없이도 복잡한 추론 능력을 자발적으로 개발할 수 있는지를 탐구하는 실험적 접근법입니다.

두 번째는 DeepSeek-R1으로, 수천 개의 긴 체인 오브 소트(CoT) 예시로 미세 조정된 체크포인트에서 시작하여 RL을 적용한 모델입니다. 이 접근법은 초기 추론 패턴을 제공하여 모델이 더 효율적으로 학습할 수 있는 출발점을 마련합니다. 콜드 스타트 데이터는 모델에게 추론의 기본 구조와 형식을 알려주는 역할을 하며, 이후 강화학습 과정에서 이러한 기초를 바탕으로 더 정교하고 효과적인 추론 전략을 개발할 수 있게 합니다.

마지막으로 연구팀은 DeepSeek-R1에서 학습된 추론 능력을 작은 밀집 모델들로 증류하는 과정을 탐구했습니다. 이는 대규모 모델에서 발견된 효과적인 추론 패턴을 더 작고 효율적인 모델들이 활용할 수 있도록 하는 실용적인 접근법입니다. 증류 과정을 통해 작은 모델들도 복잡한 추론 과제에서 뛰어난 성능을 보일 수 있게 되며, 이는 실제 응용에서 계산 자원의 제약을 고려할 때 매우 중요한 의미를 가집니다.

이러한 다층적 접근법은 강화학습이 단순히 성능 향상의 도구가 아니라, 언어 모델의 추론 능력을 근본적으로 변화시킬 수 있는 패러다임 전환임을 보여줍니다. 특히 순수한 강화학습만으로도 놀라운 추론 능력을 개발할 수 있다는 발견은 인공지능 모델의 자기 주도적 학습 능력에 대한 새로운 통찰을 제공합니다.

DeepSeek-R1-Zero: 기본 모델에서의 강화학습

강화학습 알고리즘

Group Relative Policy Optimization (GRPO)

DeepSeek-R1-Zero의 핵심 기술적 혁신은 Group Relative Policy Optimization (GRPO) 알고리즘의 채택입니다. 이 알고리즘은 기존의 강화학습 방법들이 가지고 있던 계산 비용 문제를 해결하기 위해 개발되었습니다. 전통적인 강화학습 방법들은 정책 모델과 동일한 크기의 비평 모델(critic model)을 필요로 하는데, 이는 훈련 비용을 두 배로 증가시키는 문제가 있었습니다.

GRPO는 이러한 문제를 해결하기 위해 비평 모델을 완전히 제거하고, 대신 그룹 점수로부터 기준선(baseline)을 추정하는 혁신적인 접근법을 사용합니다. 구체적으로 각 질문 $q$에 대해 GRPO는 이전 정책 $\pi_{\theta_{old}}$로부터 출력 그룹 ${o_1, o_2, \cdots, o_G}$를 샘플링하고, 다음 목적 함수를 최대화하여 정책 모델 $\pi_\theta$를 최적화합니다.

\[\mathcal{J}_{GRPO}(\theta) = \mathbb{E}[q\sim P(Q),\{o_{i}\}_{i=1}^{G}\sim\pi_{\theta_{old}}(O|q)]\frac{1}{G}\sum_{i=1}^{G}\left(\min\left(\frac{\pi_{\theta}(o_{i}|q)}{\pi_{\theta_{old}}(o_{i}|q)}A_{i},\text{clip}\left(\frac{\pi_{\theta}(o_{i}|q)}{\pi_{\theta_{old}}(o_{i}|q)},1-\varepsilon,1+\varepsilon\right)A_{i}\right)-\beta\mathbb{D}_{KL}\left(\pi_{\theta}||\pi_{ref}\right)\right)\]

이 수식에서 핵심적인 부분은 확률 비율 $\frac{\pi_{\theta}(o_{i} \vert q)}{\pi_{\theta_{old}}(o_{i} \vert q)}$입니다. 이는 현재 정책이 이전 정책 대비 특정 출력을 생성할 확률의 변화를 나타냅니다. 클리핑 함수는 이 비율이 $[1-\varepsilon, 1+\varepsilon]$ 범위를 벗어나지 않도록 제한하여 정책 업데이트가 너무 급격하게 일어나는 것을 방지합니다.

KL 발산 항은 다음과 같이 정의됩니다.

\[\mathbb{D}_{KL}\left(\pi_{\theta}||\pi_{ref}\right)=\frac{\pi_{ref}(o_{i}|q)}{\pi_{\theta}(o_{i}|q)}-\log\frac{\pi_{ref}(o_{i}|q)}{\pi_{\theta}(o_{i}|q)}-1\]

이 항은 현재 정책이 참조 정책 $\pi_{ref}$로부터 너무 멀어지지 않도록 정규화하는 역할을 합니다. 하이퍼파라미터 $\beta$는 이러한 정규화의 강도를 조절합니다.

GRPO의 가장 혁신적인 부분은 어드밴티지 $A_i$의 계산 방식입니다.

\[A_{i}=\frac{r_{i}-\mathrm{mean}(\{r_{1},r_{2},\cdots,r_{G}\})}{\mathrm{std}(\{r_{1},r_{2},\cdots,r_{G}\})}\]

이 공식은 각 출력의 보상 $r_i$를 같은 그룹 내 다른 출력들의 평균과 표준편차로 정규화합니다. 이는 절대적인 보상 값보다는 상대적인 성능에 초점을 맞추는 접근법으로, 보상 스케일의 변화에 더 강건하며 안정적인 학습을 가능하게 합니다.

보상 모델링

DeepSeek-R1-Zero의 훈련에서 보상은 최적화 방향을 결정하는 핵심적인 훈련 신호입니다. 연구팀은 신경망 기반 보상 모델 대신 규칙 기반 보상 시스템을 채택했는데, 이는 주로 두 가지 유형의 보상으로 구성됩니다.

정확도 보상은 응답의 정확성을 평가합니다. 수학 문제의 경우 결정론적 결과를 가지므로, 모델은 지정된 형식(예: 박스 안에 최종 답안 제시)으로 답을 제공해야 하며, 이를 통해 신뢰할 수 있는 규칙 기반 정확성 검증이 가능합니다. LeetCode 문제의 경우에는 컴파일러를 사용하여 미리 정의된 테스트 케이스를 기반으로 피드백을 생성할 수 있습니다.

형식 보상은 정확도 보상과 함께 사용되어 모델이 사고 과정을 '<think>'와 '</think>' 태그 사이에 배치하도록 강제합니다. 이는 모델의 추론 과정을 명시적으로 드러내어 해석 가능성을 높이는 중요한 역할을 합니다.

연구팀은 DeepSeek-R1-Zero 개발에서 결과 기반이나 과정 기반 신경망 보상 모델을 사용하지 않았습니다. 이는 대규모 강화학습 과정에서 신경망 보상 모델이 보상 해킹(reward hacking) 문제를 겪을 수 있고, 보상 모델을 재훈련하는 데 추가적인 훈련 자원이 필요하며 전체 훈련 파이프라인을 복잡하게 만들기 때문입니다.

훈련 템플릿

DeepSeek-R1-Zero의 훈련을 위해 연구팀은 기본 모델이 지정된 지시사항을 준수하도록 안내하는 간단한 템플릿을 설계했습니다.

템플릿 구성 요소	내용
시스템 프롬프트	사용자와 어시스턴트 간의 대화. 사용자가 질문하면 어시스턴트가 해결합니다. 어시스턴트는 먼저 마음속으로 추론 과정을 생각한 다음 사용자에게 답변을 제공합니다. 추론 과정과 답변은 각각 와 태그로 둘러싸입니다.
사용자 입력	prompt
어시스턴트 응답	추론 과정 답변

이 템플릿은 의도적으로 구조적 형식에만 제약을 두고, 반성적 추론을 의무화하거나 특정 문제 해결 전략을 촉진하는 것과 같은 내용별 편향을 피했습니다. 이러한 접근법을 통해 연구팀은 강화학습 과정에서 모델의 자연스러운 진행 과정을 정확하게 관찰할 수 있었습니다.

성능, 자기 진화 과정 및 아하 모멘트

DeepSeek-R1-Zero의 성능

AIME 정확도 변화

위 그래프는 강화학습 훈련 과정에서 DeepSeek-R1-Zero의 AIME 정확도 변화를 보여줍니다. 각 질문에 대해 16개의 응답을 샘플링하고 전체 평균 정확도를 계산하여 안정적인 평가를 보장했습니다. 그래프에서 볼 수 있듯이 DeepSeek-R1-Zero는 강화학습 훈련이 진행됨에 따라 꾸준하고 일관된 성능 향상을 보여줍니다.

특히 주목할 만한 점은 AIME 2024에서의 평균 pass@1 점수가 초기 15.6%에서 인상적인 71.0%로 크게 증가했다는 것입니다. 이는 OpenAI-o1-0912와 비교할 만한 성능 수준에 도달한 것으로, 강화학습 알고리즘의 효과를 명확하게 보여주는 결과입니다.

모델	AIME 2024	MATH-500	GPQA	LiveCode	CodeForces	Diamond
	pass@1	cons@64	pass@1	pass@1	pass@1	rating
OpenAI-o1-mini	63.6	80.0	90.0	60.0	53.8	1820
OpenAI-o1-0912	74.4	83.3	94.8	77.3	63.4	1843
DeepSeek-R1-Zero	71.0	86.7	95.9	73.3	50.0	1444

위 표는 DeepSeek-R1-Zero와 OpenAI o1 모델들의 추론 관련 벤치마크 비교 결과를 보여줍니다. 결과는 강화학습이 DeepSeek-R1-Zero로 하여금 지도 미세 조정 데이터 없이도 강력한 추론 능력을 달성할 수 있게 했음을 보여줍니다. 이는 모델이 강화학습만을 통해 효과적으로 학습하고 일반화할 수 있는 능력을 강조하는 주목할 만한 성과입니다.

또한 다수결 투표를 적용하면 DeepSeek-R1-Zero의 성능을 더욱 향상시킬 수 있습니다. 예를 들어, AIME 벤치마크에서 다수결 투표를 사용하면 성능이 71.0%에서 86.7%로 상승하여 OpenAI-o1-0912의 성능을 능가합니다.

자기 진화 과정

평균 응답 길이 변화

DeepSeek-R1-Zero의 자기 진화 과정은 강화학습이 어떻게 모델의 추론 능력을 자율적으로 향상시킬 수 있는지를 보여주는 매혹적인 사례입니다. 기본 모델에서 직접 강화학습을 시작함으로써, 연구팀은 지도 미세 조정 단계의 영향 없이 모델의 진행 과정을 면밀히 관찰할 수 있었습니다.

위 그래프에서 보듯이 DeepSeek-R1-Zero의 사고 시간은 훈련 과정 전반에 걸쳐 일관된 개선을 보여줍니다. 이러한 개선은 외부 조정의 결과가 아니라 모델 내부의 본질적인 발전입니다. DeepSeek-R1-Zero는 확장된 테스트 시간 계산을 활용하여 점점 더 복잡한 추론 과제를 해결하는 능력을 자연스럽게 습득합니다. 이러한 계산은 수백에서 수천 개의 추론 토큰을 생성하는 범위에 이르며, 모델이 사고 과정을 더 깊이 탐구하고 정제할 수 있게 합니다.

이러한 자기 진화의 가장 놀라운 측면 중 하나는 테스트 시간 계산이 증가함에 따라 정교한 행동들이 나타난다는 것입니다. 모델이 이전 단계를 재검토하고 재평가하는 반성(reflection)과 문제 해결을 위한 대안적 접근법 탐구와 같은 행동들이 자발적으로 나타납니다. 이러한 행동들은 명시적으로 프로그래밍된 것이 아니라 모델과 강화학습 환경의 상호작용 결과로 나타나는 것입니다.

아하 모멘트

DeepSeek-R1-Zero 훈련 중 관찰된 특히 흥미로운 현상은 "아하 모멘트"의 발생입니다. 이 순간은 모델의 중간 버전에서 발생하며, DeepSeek-R1-Zero가 초기 접근법을 재평가함으로써 문제에 더 많은 사고 시간을 할당하는 방법을 학습하는 시점입니다.

다음은 이러한 아하 모멘트를 보여주는 실제 예시입니다.

질문: $a > 1$일 때, $\sqrt{a-\sqrt{a+x}}=x$의 실근의 합은 얼마인가?

응답:

<think>
방정식 $\sqrt{a-\sqrt{a+x}}=x$를 풀기 위해 양변을 제곱해보겠습니다...
$(a-\sqrt{a+x})^2 = x^2 \implies a^2-2a\sqrt{a+x}+(a+x) = x^2 \implies x^4-2ax^2-x+(a^2-a) = 0$
...잠깐, 잠깐. 잠깐. 여기서 아하 모멘트를 표시할 수 있습니다.
이 단계를 단계별로 재평가하여 올바른 합이 될 수 있는지 확인해보겠습니다...
우리는 방정식으로 시작했습니다.
$\sqrt{a-\sqrt{a+x}}=x$
먼저 양변을 제곱해보겠습니다.
$a-\sqrt{a+x}=x^2 \implies \sqrt{a+x}=a-x^2$
다음으로, 양변을 다시 제곱할 수 있습니다...
...
</think>

이 예시에서 모델은 "잠깐, 잠깐. 잠깐. 여기서 아하 모멘트를 표시할 수 있습니다"라고 말하며 자신의 접근법을 재고하기 시작합니다. 이는 모델이 성장하는 추론 능력의 증거일 뿐만 아니라 강화학습이 어떻게 예상치 못한 정교한 결과를 이끌어낼 수 있는지를 보여주는 매혹적인 예시입니다.

이 순간은 모델뿐만 아니라 이를 관찰하는 연구자들에게도 "아하 모멘트"였습니다. 이는 강화학습의 힘과 아름다움을 강조합니다. 모델에게 문제를 해결하는 방법을 명시적으로 가르치는 대신, 올바른 인센티브를 제공하기만 하면 모델이 자율적으로 고급 문제 해결 전략을 개발한다는 것입니다.

DeepSeek-R1-Zero의 한계

DeepSeek-R1-Zero가 강력한 추론 능력을 보이고 예상치 못한 강력한 추론 행동을 자율적으로 개발했음에도 불구하고, 몇 가지 문제에 직면했습니다. 예를 들어, DeepSeek-R1-Zero는 가독성 저하와 언어 혼용과 같은 문제를 겪었습니다. 추론 과정을 더 읽기 쉽게 만들고 오픈 커뮤니티와 공유하기 위해, 연구팀은 인간 친화적인 콜드 스타트 데이터와 함께 강화학습을 활용하는 방법인 DeepSeek-R1을 탐구했습니다.

DeepSeek-R1: 콜드 스타트를 활용한 강화학습

DeepSeek-R1-Zero의 유망한 결과에서 영감을 받아 두 가지 자연스러운 질문이 제기됩니다. 첫째, 소량의 고품질 데이터를 콜드 스타트로 포함시켜 추론 성능을 더욱 향상시키거나 수렴을 가속화할 수 있을까요? 둘째, 명확하고 일관된 체인 오브 소트를 생성할 뿐만 아니라 강력한 일반 능력을 보여주는 사용자 친화적인 모델을 어떻게 훈련할 수 있을까요? 이러한 질문들을 해결하기 위해 연구팀은 DeepSeek-R1을 훈련하기 위한 파이프라인을 설계했습니다.

이 파이프라인은 네 단계로 구성되어 있으며, 각 단계는 모델의 추론 능력과 사용자 경험을 체계적으로 개선하는 역할을 합니다. 이러한 다단계 접근법은 순수한 강화학습의 장점을 유지하면서도 실용적인 사용성을 크게 향상시키는 혁신적인 방법론입니다.

콜드 스타트

DeepSeek-R1-Zero와 달리, DeepSeek-R1에서는 기본 모델에서 시작하는 RL 훈련의 초기 불안정한 콜드 스타트 단계를 방지하기 위해 소량의 긴 CoT 데이터를 구성하고 수집하여 모델을 초기 RL 액터로 미세 조정합니다. 이러한 접근법은 마치 학생이 어려운 수학 문제를 풀기 전에 기본적인 문제 해결 패턴을 먼저 학습하는 것과 유사합니다.

이러한 데이터를 수집하기 위해 연구팀은 여러 가지 접근법을 탐구했습니다. 긴 CoT를 예시로 사용하는 퓨 샷 프롬프팅, 반성과 검증을 포함한 상세한 답변을 생성하도록 모델에 직접 프롬프팅하기, 읽기 쉬운 형식으로 DeepSeek-R1-Zero 출력을 수집하기, 그리고 인간 주석자의 후처리를 통해 결과를 정제하는 방법들이 포함됩니다. 이 연구에서는 수천 개의 콜드 스타트 데이터를 수집하여 DeepSeek-V3-Base를 RL의 시작점으로 미세 조정했습니다.

DeepSeek-R1-Zero와 비교했을 때 콜드 스타트 데이터의 장점은 다음과 같습니다.

가독성 향상: DeepSeek-R1-Zero의 주요 한계 중 하나는 그 내용이 종종 읽기에 적합하지 않다는 것입니다. 응답이 여러 언어를 혼용하거나 사용자를 위해 답변을 강조하는 마크다운 형식이 부족할 수 있습니다. 이와 대조적으로 DeepSeek-R1을 위한 콜드 스타트 데이터를 생성할 때, 연구팀은 각 응답의 끝에 요약을 포함하고 독자 친화적이지 않은 응답을 필터링하는 읽기 쉬운 패턴을 설계했습니다.

출력 형식은 |special_token|<reasoning_process>|special_token|<summary>로 정의됩니다. 여기서 추론 과정은 쿼리에 대한 CoT이고, 요약은 추론 결과를 요약하는 데 사용됩니다. 이러한 구조화된 형식은 사용자가 모델의 사고 과정을 명확하게 따라갈 수 있게 하면서도 최종 결론을 쉽게 파악할 수 있도록 합니다.

잠재력 향상: 인간의 사전 지식으로 콜드 스타트 데이터의 패턴을 신중하게 설계함으로써, 연구팀은 DeepSeek-R1-Zero 대비 더 나은 성능을 관찰했습니다. 반복적 훈련이 추론 모델에게 더 나은 방법이라고 믿습니다. 이는 모델이 처음부터 올바른 추론 패턴을 학습할 수 있는 기반을 제공하여, 이후 강화학습 과정에서 더 효율적으로 개선될 수 있게 합니다.

추론 지향적 강화학습

콜드 스타트 데이터로 DeepSeek-V3-Base를 미세 조정한 후, 연구팀은 DeepSeek-R1-Zero에서 사용된 것과 동일한 대규모 강화학습 훈련 과정을 적용합니다. 이 단계는 모델의 추론 능력 향상에 초점을 맞추며, 특히 코딩, 수학, 과학, 논리적 추론과 같은 추론 집약적 과제에서 명확한 해결책이 있는 잘 정의된 문제들을 다룹니다.

훈련 과정에서 연구팀은 CoT가 종종 언어 혼용을 보인다는 것을 관찰했습니다. 특히 RL 프롬프트가 여러 언어를 포함할 때 이러한 현상이 두드러집니다. 언어 혼용 문제를 완화하기 위해, 연구팀은 RL 훈련 중에 언어 일관성 보상을 도입했습니다. 이는 CoT에서 목표 언어 단어의 비율로 계산됩니다.

언어 일관성 보상은 다음과 같이 정의됩니다.

\[R_{lang} = \frac{\text{목표 언어 토큰 수}}{\text{전체 CoT 토큰 수}}\]

이 보상은 모델이 일관된 언어로 추론 과정을 표현하도록 장려합니다. 제거 실험(ablation experiments)에서 이러한 정렬이 모델 성능에 약간의 저하를 가져온다는 것을 보여주지만, 이 보상은 인간의 선호도와 일치하여 더 읽기 쉽게 만듭니다.

최종적으로 연구팀은 추론 과제의 정확도와 언어 일관성에 대한 보상을 직접 합산하여 최종 보상을 형성합니다.

\[R_{total} = R_{accuracy} + \lambda \cdot R_{lang}\]

여기서 $\lambda$는 언어 일관성의 중요도를 조절하는 하이퍼파라미터입니다. 이후 미세 조정된 모델에 RL 훈련을 적용하여 추론 과제에서 수렴에 도달할 때까지 진행합니다.

거부 샘플링과 지도 미세 조정

추론 지향적 RL이 수렴하면, 연구팀은 결과 체크포인트를 활용하여 후속 라운드를 위한 SFT(Supervised Fine-Tuning) 데이터를 수집합니다. 주로 추론에 초점을 맞춘 초기 콜드 스타트 데이터와 달리, 이 단계는 다른 도메인의 데이터를 통합하여 작문, 역할 연기, 기타 범용 과제에서 모델의 능력을 향상시킵니다.

추론 데이터 수집: 연구팀은 추론 프롬프트를 큐레이션하고 위의 RL 훈련에서 나온 체크포인트로부터 거부 샘플링을 수행하여 추론 궤적을 생성합니다. 이전 단계에서는 규칙 기반 보상으로 평가할 수 있는 데이터만 포함했지만, 이 단계에서는 데이터셋을 확장하여 추가 데이터를 통합합니다. 일부는 정답과 모델 예측을 DeepSeek-V3에 입력하여 판단하는 생성적 보상 모델을 사용합니다.

또한 모델 출력이 때때로 혼란스럽고 읽기 어렵기 때문에, 연구팀은 언어가 혼용된 체인 오브 소트, 긴 문단, 코드 블록을 필터링했습니다. 각 프롬프트에 대해 여러 응답을 샘플링하고 올바른 것만 유지합니다. 총 약 60만 개의 추론 관련 훈련 샘플을 수집했습니다.

비추론 데이터 수집: 작문, 사실적 QA, 자기 인식, 번역과 같은 비추론 데이터의 경우, 연구팀은 DeepSeek-V3 파이프라인을 채택하고 DeepSeek-V3의 SFT 데이터셋 일부를 재사용합니다. 특정 비추론 과제의 경우, 프롬프팅을 통해 질문에 답하기 전에 잠재적인 체인 오브 소트를 생성하도록 DeepSeek-V3를 호출합니다. 하지만 "안녕하세요"와 같은 간단한 쿼리의 경우 응답에 CoT를 제공하지 않습니다. 최종적으로 추론과 관련이 없는 약 20만 개의 훈련 샘플을 수집했습니다.

연구팀은 위에서 큐레이션한 약 80만 개 샘플의 데이터셋을 사용하여 DeepSeek-V3-Base를 2 에포크 동안 미세 조정합니다. 이러한 균형 잡힌 데이터셋은 모델이 추론 능력을 유지하면서도 다양한 일반적 과제에서 우수한 성능을 발휘할 수 있게 합니다.

모든 시나리오를 위한 강화학습

모델을 인간의 선호도와 더욱 일치시키기 위해, 연구팀은 모델의 유용성과 무해성을 개선하는 동시에 추론 능력을 정제하는 것을 목표로 하는 2차 강화학습 단계를 구현합니다. 구체적으로 보상 신호와 다양한 프롬프트 분포의 조합을 사용하여 모델을 훈련합니다.

추론 데이터 처리: 추론 데이터의 경우, 연구팀은 DeepSeek-R1-Zero에서 설명된 방법론을 준수하여 수학, 코드, 논리적 추론 도메인에서 학습 과정을 안내하기 위해 규칙 기반 보상을 활용합니다. 이는 앞서 소개한 정확도 기반 보상 시스템과 동일한 원리를 따릅니다.

일반 데이터 처리: 일반 데이터의 경우, 복잡하고 미묘한 시나리오에서 인간의 선호도를 포착하기 위해 보상 모델에 의존합니다. 연구팀은 DeepSeek-V3 파이프라인을 기반으로 구축하고 유사한 선호도 쌍과 훈련 프롬프트 분포를 채택합니다.

유용성 평가: 유용성의 경우, 최종 요약에만 독점적으로 초점을 맞춰 평가가 기본 추론 과정에 대한 간섭을 최소화하면서 사용자에 대한 응답의 유용성과 관련성을 강조하도록 보장합니다. 이는 다음과 같이 수식화할 수 있습니다.

\[R_{helpful} = f_{reward}(\text{summary}, \text{user query})\]

여기서 $f_{reward}$는 요약이 사용자 쿼리에 얼마나 도움이 되는지를 평가하는 보상 모델입니다.

무해성 평가: 무해성의 경우, 추론 과정과 요약을 모두 포함한 모델의 전체 응답을 평가하여 생성 과정에서 발생할 수 있는 잠재적 위험, 편향 또는 유해한 콘텐츠를 식별하고 완화합니다.

\[R_{harmless} = g_{safety}(\text{reasoning process}, \text{summary})\]

여기서 $g_{safety}$는 전체 응답의 안전성을 평가하는 보상 모델입니다.

궁극적으로 보상 신호와 다양한 데이터 분포의 통합을 통해 추론에서 뛰어나면서도 유용성과 무해성을 우선시하는 모델을 훈련할 수 있게 됩니다. 최종 보상은 다음과 같이 결합됩니다.

\[R_{final} = \alpha \cdot R_{accuracy} + \beta \cdot R_{helpful} + \gamma \cdot R_{harmless} + \delta \cdot R_{lang}\]

여기서 $\alpha$, $\beta$, $\gamma$, $\delta$는 각각 정확도, 유용성, 무해성, 언어 일관성의 상대적 중요도를 조절하는 하이퍼파라미터입니다.

이러한 포괄적인 4단계 파이프라인을 통해 DeepSeek-R1은 강력한 추론 능력을 유지하면서도 사용자 친화적이고 안전한 모델로 발전할 수 있었습니다. 각 단계는 이전 단계의 성과를 바탕으로 구축되어 점진적으로 모델의 능력과 사용성을 향상시키는 체계적인 접근법을 제공합니다.

증류: 작은 모델에 추론 능력 부여

DeepSeek-R1에서 학습된 강력한 추론 능력을 더 효율적인 작은 모델들로 전달하기 위해, 연구팀은 직접적인 미세 조정 방식을 통한 증류 접근법을 탐구했습니다. 이 과정에서 Qwen과 Llama와 같은 오픈소스 모델들을 대상으로 하여, 앞서 큐레이션된 80만 개의 샘플을 활용한 직접적인 미세 조정을 수행했습니다.

증류 방법론과 모델 선택

연구팀이 채택한 증류 방법은 복잡한 중간 단계 없이 DeepSeek-R1에서 생성된 고품질 추론 데이터를 직접 활용하는 단순하면서도 효과적인 접근법입니다. 이러한 직접적인 방식은 대규모 모델에서 발견된 추론 패턴을 작은 모델이 효율적으로 학습할 수 있게 합니다.

기본 모델로는 Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B, 그리고 Llama-3.3-70B-Instruct가 선택되었습니다. 특히 Llama-3.3이 선택된 이유는 Llama-3.1 대비 약간 더 우수한 추론 능력을 보였기 때문입니다. 이러한 모델 선택은 다양한 크기와 아키텍처에서 증류 방법의 효과성을 검증하기 위한 전략적 접근입니다.

훈련 전략과 제약사항

증류된 모델들의 경우 지도 학습 미세 조정(SFT)만을 적용하고 강화학습(RL) 단계는 포함하지 않았습니다. 이는 강화학습을 포함할 경우 모델 성능을 상당히 향상시킬 수 있음에도 불구하고, 연구의 주요 목표가 증류 기법 자체의 효과성을 입증하는 것이었기 때문입니다. 강화학습 단계의 탐구는 더 넓은 연구 커뮤니티에 맡겨두고, 순수한 증류 방법론의 잠재력에 집중했습니다.

이러한 접근법은 계산 자원의 효율성과 구현의 단순성을 동시에 달성하면서도, 작은 모델들이 대규모 모델의 복잡한 추론 능력을 효과적으로 습득할 수 있음을 보여줍니다. 특히 SFT만으로도 상당한 성능 향상을 달성할 수 있다는 발견은 실용적인 관점에서 매우 중요한 의미를 가집니다.

증류의 핵심 발견사항

연구 결과는 이러한 직접적인 증류 방법이 작은 모델들의 추론 능력을 현저히 향상시킨다는 것을 보여줍니다. 이는 대규모 모델에서 학습된 추론 패턴이 단순한 미세 조정을 통해서도 효과적으로 전달될 수 있음을 의미합니다. 특히 주목할 점은 이러한 증류 과정이 복잡한 중간 처리나 특별한 아키텍처 수정 없이도 성공적으로 이루어진다는 것입니다.

이러한 발견은 AI 기술의 실용적 활용 측면에서 중요한 의미를 가집니다. 대규모 모델의 강력한 능력을 더 작고 효율적인 모델로 전달할 수 있다는 것은 제한된 계산 자원 환경에서도 고품질의 추론 능력을 활용할 수 있는 가능성을 열어줍니다.

실험 벤치마크

DeepSeek-R1과 증류된 모델들의 성능을 종합적으로 평가하기 위해 연구팀은 광범위한 벤치마크 세트를 구성했습니다. 이러한 벤치마크들은 추론, 코딩, 지식, 그리고 일반적인 능력을 포괄하는 다양한 과제들을 포함하여 모델의 전반적인 성능을 다각도로 측정할 수 있도록 설계되었습니다.

평가에 사용된 주요 벤치마크들은 다음과 같습니다. 지식 평가를 위해서는 MMLU, MMLU-Redux, MMLU-Pro, C-Eval, CMMLU가 사용되었으며, 지시 따르기 능력 평가를 위해 IFEval, 긴 맥락 이해를 위해 FRAMES, 과학적 추론을 위해 GPQA Diamond, 사실적 질문 답변을 위해 SimpleQA와 C-SimpleQA가 포함되었습니다. 코딩 능력 평가를 위해서는 SWE-Bench Verified, Aider, LiveCodeBench, Codeforces가 사용되었고, 수학적 추론을 위해서는 중국 전국 고등학교 수학 올림피아드(CNMO 2024)와 미국 수학 초청 시험 2024(AIME 2024)가 포함되었습니다.

표준 벤치마크 외에도 연구팀은 LLM을 판정자로 사용하는 개방형 생성 과제에서도 모델을 평가했습니다. 구체적으로 AlpacaEval 2.0과 Arena-Hard의 원래 구성을 준수하여 GPT-4-Turbo-1106을 판정자로 사용한 쌍별 비교를 수행했습니다. 여기서는 길이 편향을 피하기 위해 최종 요약만을 평가에 제공했습니다.

평가 프롬프트와 설정

평가 프롬프트는 DeepSeek-V3의 설정을 따라 구성되었습니다. MMLU, DROP, GPQA Diamond, SimpleQA와 같은 표준 벤치마크는 simple-evals 프레임워크의 프롬프트를 사용하여 평가되었습니다. MMLU-Redux의 경우 Zero-Eval 프롬프트 형식을 제로샷 설정에서 채택했습니다. MMLU-Pro, C-Eval, CLUE-WSC의 경우 원래 프롬프트가 퓨샷이었기 때문에 DeepSeek-R1에 적합하도록 제로샷 설정으로 약간 수정했습니다. 퓨샷에서의 체인 오브 소트가 DeepSeek-R1의 성능을 저해할 수 있기 때문입니다.

코딩과 수학 벤치마크의 경우, HumanEval-Mul 데이터셋은 8개의 주요 프로그래밍 언어(Python, Java, C++, C#, JavaScript, TypeScript, PHP, Bash)를 다룹니다. LiveCodeBench에서의 모델 성능은 2024년 8월부터 2025년 1월까지 수집된 데이터를 사용하여 체인 오브 소트 형식으로 평가되었습니다. Codeforces 데이터셋은 10개의 Div.2 대회 문제들과 전문가가 작성한 테스트 케이스를 사용하여 평가되었으며, 이후 예상 등급과 경쟁자 백분율이 계산되었습니다.

평가 설정과 Pass@k 방법론

연구팀은 모델의 최대 생성 길이를 32,768 토큰으로 설정했습니다. 긴 출력 추론 모델을 탐욕적 디코딩으로 평가하면 높은 반복률과 서로 다른 체크포인트 간의 상당한 변동성이 발생한다는 것을 발견했습니다. 따라서 기본적으로 pass@k 평가를 사용하고 0이 아닌 온도를 사용하여 pass@1을 보고합니다.

구체적으로 샘플링 온도 $0.6$과 top-$p$ 값 $0.95$를 사용하여 각 질문에 대해 $k$개의 응답을 생성합니다(일반적으로 테스트 세트 크기에 따라 $4$에서 $64$ 사이). Pass@1은 다음과 같이 계산됩니다.

\[\text{pass@1} = \frac{1}{k}\sum_{i=1}^{k}p_{i}\]

여기서 $p_i$는 $i$번째 응답의 정확성을 나타냅니다. 이 방법은 더 신뢰할 수 있는 성능 추정치를 제공합니다. AIME 2024의 경우 64개 샘플을 사용한 합의(다수결 투표) 결과도 보고하며, 이를 $\text{cons}@64$로 표시합니다.

기준 모델들

연구팀은 DeepSeek-V3, Claude-Sonnet-3.5-1022, GPT-4o-0513, OpenAI-o1-mini, OpenAI-o1-1217을 포함한 여러 강력한 기준 모델들과 종합적인 평가를 수행했습니다. 중국 본토에서 OpenAI-o1-1217 API에 접근하기 어렵기 때문에 공식 보고서를 기반으로 성능을 보고했습니다. 증류된 모델의 경우 오픈소스 모델인 QwQ-32B-Preview와도 비교했습니다.

DeepSeek-R1 평가 결과

벤치마크 (지표)	Claude-3.5-Sonnet-1022	GPT-4o-0513	DeepSeek-V3	OpenAI-o1-mini	OpenAI-o1-1217	DeepSeek-R1
아키텍처	-	-	MoE	-	-	MoE
활성화된 파라미터	-	-	37B	-	-	37B
전체 파라미터	-	-	671B	-	-	671B
영어
MMLU (Pass@1)	88.3	87.2	88.5	85.2	91.8	90.8
MMLU-Redux (EM)	88.9	88.0	89.1	86.7	-	92.9
MMLU-Pro (EM)	78.0	72.6	75.9	80.3	-	84.0
DROP (3-shot F1)	88.3	83.7	91.6	83.9	90.2	92.2
IF-Eval (Prompt Strict)	86.5	84.3	86.1	84.8	-	83.3
GPQA Diamond (Pass@1)	65.0	49.9	59.1	60.0	75.7	71.5
SimpleQA (Correct)	28.4	38.2	24.9	7.0	47.0	30.1
FRAMES (Acc.)	72.5	80.5	73.3	76.9	-	82.5
AlpacaEval2.0 (LC-winrate)	52.0	51.1	70.0	57.8	-	87.6
ArenaHard (GPT-4-1106)	85.2	80.4	85.5	92.0	-	92.3
코드
LiveCodeBench (Pass@1-COT)	38.9	32.9	36.2	53.8	63.4	65.9
Codeforces (Percentile)	20.3	23.6	58.7	93.4	96.6	96.3
Codeforces (Rating)	717	759	1134	1820	2061	2029
SWE Verified (Resolved)	50.8	38.8	42.0	41.6	48.9	49.2
Aider-Polyglot (Acc.)	45.3	16.0	49.6	32.9	61.7	53.3
수학
AIME 2024 (Pass@1)	16.0	9.3	39.2	63.6	79.2	79.8
MATH-500 (Pass@1)	78.3	74.6	90.2	90.0	96.4	97.3
CNMO 2024 (Pass@1)	13.1	10.8	43.2	67.6	-	78.8
중국어
CLUE-WSC (EM)	85.4	87.9	90.9	89.9	-	92.8
C-Eval (EM)	76.7	76.0	86.5	68.9	-	91.8
C-SimpleQA (Correct)	55.4	58.7	68.0	40.3	-	63.7

교육 지향적 지식 벤치마크에서의 성과

MMLU, MMLU-Pro, GPQA Diamond와 같은 교육 지향적 지식 벤치마크에서 DeepSeek-R1은 DeepSeek-V3 대비 우수한 성능을 보여줍니다. 이러한 개선은 주로 STEM 관련 질문에서의 정확도 향상에 기인하며, 대규모 강화학습을 통해 상당한 성과를 달성했습니다. 또한 DeepSeek-R1은 긴 맥락 의존적 QA 과제인 FRAMES에서 뛰어난 성능을 보여 강력한 문서 분석 능력을 입증했습니다. 이는 AI 기반 검색과 데이터 분석 과제에서 추론 모델의 잠재력을 강조합니다.

사실적 벤치마크 SimpleQA에서 DeepSeek-R1은 DeepSeek-V3를 능가하여 사실 기반 쿼리 처리 능력을 보여줍니다. OpenAI-o1이 GPT-4o를 능가하는 유사한 경향이 관찰됩니다. 하지만 DeepSeek-R1은 중국어 SimpleQA 벤치마크에서 DeepSeek-V3보다 낮은 성능을 보이는데, 이는 주로 안전 강화학습 이후 특정 쿼리에 대한 답변 거부 경향 때문입니다. 안전 강화학습 없이는 DeepSeek-R1이 70% 이상의 정확도를 달성할 수 있었습니다.

지시 따르기와 개방형 생성 과제

DeepSeek-R1은 모델의 형식 지시 따르기 능력을 평가하도록 설계된 벤치마크인 IF-Eval에서도 인상적인 결과를 제공합니다. 이러한 개선은 지도 미세 조정(SFT)과 강화학습 훈련의 최종 단계에서 지시 따르기 데이터를 포함한 것과 연결될 수 있습니다.

더욱 주목할 만한 성능은 AlpacaEval2.0과 ArenaHard에서 관찰되며, 이는 DeepSeek-R1의 작문 과제와 개방 도메인 질문 답변에서의 강점을 나타냅니다. DeepSeek-V3 대비 상당한 성능 향상은 대규모 강화학습의 일반화 이점을 강조하며, 이는 추론 능력을 향상시킬 뿐만 아니라 다양한 도메인에서의 성능도 개선합니다.

또한 DeepSeek-R1이 생성하는 요약 길이는 간결하여 ArenaHard에서 평균 689 토큰, AlpacaEval 2.0에서 평균 2,218 문자를 기록했습니다. 이는 DeepSeek-R1이 GPT 기반 평가에서 길이 편향을 도입하지 않음을 나타내며, 여러 과제에서의 견고성을 더욱 확고히 합니다.

수학과 코딩 과제에서의 탁월한 성능

수학 과제에서 DeepSeek-R1은 OpenAI-o1-1217과 동등한 성능을 보여주며, 다른 모델들을 큰 차이로 능가합니다. LiveCodeBench와 Codeforces와 같은 코딩 알고리즘 과제에서도 유사한 경향이 관찰되며, 추론 중심 모델들이 이러한 벤치마크를 지배하고 있습니다.

엔지니어링 지향적 코딩 과제에서는 OpenAI-o1-1217이 Aider에서 DeepSeek-R1을 능가하지만 SWE Verified에서는 비교할 만한 성능을 달성합니다. 연구팀은 현재 관련 강화학습 훈련 데이터의 양이 매우 제한적이기 때문에 DeepSeek-R1의 엔지니어링 성능이 다음 버전에서 개선될 것으로 믿고 있습니다.

증류된 모델 평가

모델	AIME 2024		MATH-500	GPQA Diamond	LiveCode Bench	CodeForces
	pass@1	cons@64	pass@1	pass@1	pass@1	rating
GPT-4o-0513	9.3	13.4	74.6	49.9	32.9	759
Claude-3.5-Sonnet-1022	16.0	26.7	78.3	65.0	38.9	717
OpenAI-o1-mini	63.6	80.0	90.0	60.0	53.8	1820
QwQ-32B-Preview	50.0	60.0	90.6	54.5	41.9	1316
DeepSeek-R1-Distill-Qwen-1.5B	28.9	52.7	83.9	33.8	16.9	954
DeepSeek-R1-Distill-Qwen-7B	55.5	83.3	92.8	49.1	37.6	1189
DeepSeek-R1-Distill-Qwen-14B	69.7	80.0	93.9	59.1	53.1	1481
DeepSeek-R1-Distill-Qwen-32B	72.6	83.3	94.3	62.1	57.2	1691
DeepSeek-R1-Distill-Llama-8B	50.4	80.0	89.1	49.0	39.6	1205
DeepSeek-R1-Distill-Llama-70B	70.0	86.7	94.5	65.2	57.5	1633

위 표에서 보듯이 DeepSeek-R1의 출력을 단순히 증류하는 것만으로도 효율적인 DeepSeek-R1-7B(즉, DeepSeek-R1-Distill-Qwen-7B)가 GPT-4o-0513을 전반적으로 능가할 수 있게 됩니다. DeepSeek-R1-14B는 모든 평가 지표에서 QwQ-32B-Preview를 능가하며, DeepSeek-R1-32B와 DeepSeek-R1-70B는 대부분의 벤치마크에서 o1-mini를 크게 능가합니다. 이러한 결과들은 증류의 강력한 잠재력을 보여줍니다.

또한 연구팀은 이러한 증류된 모델들에 강화학습을 적용하면 상당한 추가 성과를 얻을 수 있다는 것을 발견했습니다. 이는 더 많은 탐구가 필요한 영역이라고 믿으며, 따라서 여기서는 단순한 SFT 증류 모델의 결과만을 제시합니다.

증류된 모델들의 성능은 특히 인상적입니다. 가장 작은 1.5B 모델조차도 많은 벤치마크에서 상당한 성능을 보여주며, 7B 모델은 GPT-4o-0513과 같은 대규모 상용 모델을 능가합니다. 32B와 70B 증류 모델들은 OpenAI-o1-mini와 비교할 만한 성능을 달성하여 증류 기법의 효과성을 명확히 보여줍니다.

이러한 결과들은 대규모 추론 모델에서 학습된 능력을 더 작고 효율적인 모델로 성공적으로 전달할 수 있음을 입증합니다. 특히 DeepSeek-R1-Distill-Qwen-32B가 AIME 2024에서 72.6%, MATH-500에서 94.3%를 달성한 것은 증류된 모델이 복잡한 수학적 추론 과제에서도 뛰어난 성능을 발휘할 수 있음을 보여줍니다.

토론

증류 대 강화학습

DeepSeek-R1의 개발 과정에서 중요한 질문이 제기됩니다. 앞서 설명한 증류 방법을 통해 작은 모델이 인상적인 결과를 달성할 수 있음을 확인했지만, 증류 없이 논문에서 논의된 대규모 강화학습 훈련만으로도 비교할 만한 성능을 달성할 수 있을까요? 이 질문에 답하기 위해 연구팀은 수학, 코드, STEM 데이터를 사용하여 Qwen-32B-Base에 대규모 강화학습 훈련을 10,000단계 이상 수행하여 DeepSeek-R1-Zero-Qwen-32B를 개발했습니다.

모델	AIME 2024		MATH-500	GPQA Diamond	LiveCodeBench
	pass@1	cons@64	pass@1	pass@1	pass@1
QwQ-32B-Preview	50.0	60.0	90.6	54.5	41.9
DeepSeek-R1-Zero-Qwen-32B	47.0	60.0	91.6	55.0	40.2
DeepSeek-R1-Distill-Qwen-32B	72.6	83.3	94.3	62.1	57.2

실험 결과는 매우 흥미로운 통찰을 제공합니다. 32B 기본 모델이 대규모 강화학습 훈련을 거친 후 QwQ-32B-Preview와 동등한 성능을 달성했습니다. 이는 강화학습만으로도 상당한 추론 능력을 개발할 수 있음을 보여줍니다. 하지만 DeepSeek-R1에서 증류된 DeepSeek-R1-Distill-Qwen-32B는 모든 벤치마크에서 DeepSeek-R1-Zero-Qwen-32B를 크게 능가했습니다.

이러한 결과로부터 두 가지 중요한 결론을 도출할 수 있습니다. 첫째, 더 강력한 모델을 작은 모델로 증류하는 것은 뛰어난 결과를 가져오는 반면, 작은 모델이 이 논문에서 언급된 대규모 강화학습에만 의존하는 경우 엄청난 계산 능력이 필요하며 증류의 성능에도 미치지 못할 수 있습니다. 이는 마치 숙련된 교사가 학생에게 직접 지식을 전달하는 것이 학생이 스스로 모든 것을 발견하려고 노력하는 것보다 훨씬 효율적인 것과 유사합니다.

둘째, 증류 전략이 경제적이고 효과적이긴 하지만, 지능의 경계를 넘어서는 발전을 위해서는 여전히 더 강력한 기본 모델과 더 대규모의 강화학습이 필요할 수 있습니다. 이는 증류가 기존 지식의 효율적인 전달에는 탁월하지만, 완전히 새로운 능력의 창발에는 한계가 있을 수 있음을 시사합니다.

실패한 시도들

DeepSeek-R1 개발 초기 단계에서 연구팀은 여러 실패와 좌절을 경험했습니다. 이러한 실패 경험을 공유하는 것은 통찰을 제공하기 위함이며, 이러한 접근법들이 효과적인 추론 모델을 개발할 수 없다는 것을 의미하지는 않습니다.

프로세스 보상 모델 (PRM)

프로세스 보상 모델은 추론 과제를 해결하기 위한 더 나은 접근법으로 모델을 안내하는 합리적인 방법입니다. Uesato et al., Lightman et al., Wang et al.의 연구에서 보듯이 프로세스 기반 감독은 결과 기반 감독보다 더 신뢰할 수 있는 보상 모델을 훈련할 수 있으며, 단계별 피드백을 통해 모델의 추론 과정을 세밀하게 개선할 수 있습니다.

하지만 실제로 PRM은 궁극적인 성공을 방해할 수 있는 세 가지 주요 한계를 가지고 있습니다. 첫째, 일반적인 추론에서 세밀한 단계를 명시적으로 정의하는 것이 어렵습니다. 수학 문제와 달리 일반적인 추론 과정은 명확한 단계별 구분이 모호할 수 있으며, 무엇이 하나의 "단계"를 구성하는지 정의하기 어렵습니다.

둘째, 현재 중간 단계가 올바른지 판단하는 것은 도전적인 과제입니다. 모델을 사용한 자동 주석은 만족스러운 결과를 얻지 못할 수 있으며, 수동 주석은 확장에 도움이 되지 않습니다. Lightman et al.의 연구에서도 언급되듯이, 인간 주석자들조차 복잡한 추론 단계의 정확성을 평가하는 데 어려움을 겪을 수 있으며, 이는 대규모 데이터셋 구축에 상당한 장벽이 됩니다.

셋째, 모델 기반 PRM이 도입되면 필연적으로 보상 해킹(reward hacking) 문제가 발생합니다. Gao et al.의 연구에서 보여주듯이, 강화학습 과정에서 모델은 실제 성능 향상 없이도 보상 모델을 속이는 방법을 학습할 수 있습니다. 보상 모델을 재훈련하는 것은 추가적인 훈련 자원이 필요하며 전체 훈련 파이프라인을 복잡하게 만듭니다.

결론적으로, PRM이 모델이 생성한 상위 N개 응답을 재순위화하거나 Snell et al.에서 제안된 것처럼 안내된 탐색을 지원하는 데 좋은 능력을 보여주지만, 연구팀의 실험에서 대규모 강화학습 과정 중에 도입되는 추가적인 계산 오버헤드에 비해 그 장점은 제한적이었습니다.

몬테카를로 트리 탐색 (MCTS)

AlphaGo와 AlphaZero에서 영감을 받아, 연구팀은 몬테카를로 트리 탐색을 사용하여 테스트 시간 계산 확장성을 향상시키는 방법을 탐구했습니다. 이 접근법은 답변을 더 작은 부분으로 나누어 모델이 해결책 공간을 체계적으로 탐색할 수 있게 하는 것을 포함합니다.

이를 촉진하기 위해 연구팀은 모델이 탐색에 필요한 특정 추론 단계에 해당하는 여러 태그를 생성하도록 프롬프트했습니다. 훈련을 위해 먼저 수집된 프롬프트를 사용하여 사전 훈련된 가치 모델의 안내를 받는 MCTS를 통해 답을 찾습니다. 이후 결과로 나온 질문-답변 쌍을 사용하여 액터 모델과 가치 모델을 모두 훈련하여 과정을 반복적으로 정제합니다.

하지만 이 접근법은 훈련을 확장할 때 여러 도전에 직면합니다. 첫째, 체스와 달리 상대적으로 잘 정의된 탐색 공간을 가진 게임과 달리, 토큰 생성은 기하급수적으로 더 큰 탐색 공간을 제시합니다. 이를 해결하기 위해 각 노드에 대한 최대 확장 한계를 설정했지만, 이는 모델이 지역 최적해에 갇히게 할 수 있습니다.

둘째, 가치 모델이 탐색 과정의 각 단계를 안내하므로 생성 품질에 직접적인 영향을 미칩니다. 세밀한 가치 모델을 훈련하는 것은 본질적으로 어려우며, 이는 모델이 반복적으로 개선되기 어렵게 만듭니다. AlphaGo의 핵심 성공은 성능을 점진적으로 향상시키기 위한 가치 모델 훈련에 의존했지만, 토큰 생성의 복잡성으로 인해 이 원리를 연구팀의 설정에서 복제하기 어려웠습니다.

결론적으로, MCTS가 사전 훈련된 가치 모델과 결합될 때 추론 중 성능을 향상시킬 수 있지만, 자기 탐색을 통해 모델 성능을 반복적으로 향상시키는 것은 여전히 상당한 도전으로 남아있습니다. 이는 게임과 같은 명확한 규칙과 목표가 있는 도메인에서 성공한 방법들이 자연어 생성과 같은 개방형 도메인으로 직접 전이되기 어려움을 보여줍니다.

이러한 실패 경험들은 DeepSeek-R1 개발에서 최종적으로 채택된 접근법의 가치를 더욱 부각시킵니다. 복잡한 중간 단계나 탐색 알고리즘 대신, 직접적인 강화학습과 증류를 통한 단순하면서도 효과적인 방법론이 실제로 더 나은 결과를 가져올 수 있음을 보여줍니다.

결론, 한계점, 그리고 향후 연구 방향

이 연구에서 연구팀은 강화학습을 통해 모델의 추론 능력을 향상시키는 여정을 공유했습니다. DeepSeek-R1-Zero는 콜드 스타트 데이터에 의존하지 않는 순수한 강화학습 접근법을 나타내며, 다양한 과제에서 강력한 성능을 달성했습니다. DeepSeek-R1은 콜드 스타트 데이터와 반복적인 강화학습 미세 조정을 활용하여 더욱 강력한 성능을 보여줍니다. 궁극적으로 DeepSeek-R1은 다양한 과제에서 OpenAI-o1-1217과 비교할 만한 성능을 달성했습니다.

작은 모델로의 추론 능력 증류

연구팀은 추론 능력을 작은 밀집 모델들로 증류하는 방법을 추가로 탐구했습니다. DeepSeek-R1을 교사 모델로 사용하여 80만 개의 훈련 샘플을 생성하고, 여러 작은 밀집 모델들을 미세 조정했습니다. 결과는 매우 유망했습니다. DeepSeek-R1-Distill-Qwen-1.5B는 AIME에서 28.9%, MATH에서 83.9%를 달성하여 GPT-4o와 Claude-3.5-Sonnet을 수학 벤치마크에서 능가했습니다.

이러한 증류 결과는 대규모 추론 모델에서 학습된 복잡한 추론 패턴이 효과적으로 작은 모델로 전달될 수 있음을 보여줍니다. 특히 주목할 점은 단순한 지도 학습 미세 조정만으로도 이러한 놀라운 성과를 달성할 수 있다는 것입니다. 다른 밀집 모델들도 인상적인 결과를 달성하여, 동일한 기본 체크포인트를 기반으로 한 다른 지시 조정 모델들을 크게 능가했습니다.

향후 연구 방향

연구팀은 DeepSeek-R1의 향후 연구를 위해 다음과 같은 방향들에 투자할 계획입니다.

일반 능력 향상: 현재 DeepSeek-R1의 능력은 함수 호출, 다중 턴 대화, 복잡한 역할 연기, JSON 출력과 같은 과제에서 DeepSeek-V3에 미치지 못합니다. 앞으로 연구팀은 긴 체인 오브 소트가 이러한 분야의 과제를 향상시키는 데 어떻게 활용될 수 있는지 탐구할 계획입니다. 이는 추론 능력과 일반적인 언어 모델 능력 사이의 균형을 맞추는 중요한 도전 과제입니다.

언어 혼용 문제 해결: DeepSeek-R1은 현재 중국어와 영어에 최적화되어 있어, 다른 언어로 된 쿼리를 처리할 때 언어 혼용 문제가 발생할 수 있습니다. 예를 들어, DeepSeek-R1은 쿼리가 영어나 중국어가 아닌 다른 언어로 되어 있어도 추론과 응답에 영어를 사용할 수 있습니다. 연구팀은 향후 업데이트에서 이러한 한계를 해결하는 것을 목표로 합니다. 이는 다국어 환경에서의 모델 활용성을 크게 향상시킬 것입니다.

프롬프트 엔지니어링 최적화: DeepSeek-R1을 평가하는 과정에서 연구팀은 모델이 프롬프트에 민감하다는 것을 관찰했습니다. 퓨 샷 프롬프팅은 일관되게 성능을 저하시킵니다. 따라서 최적의 결과를 위해 사용자들이 문제를 직접 설명하고 제로샷 설정을 사용하여 출력 형식을 지정하는 것을 권장합니다. 이는 모델의 추론 과정이 외부 예시에 의해 방해받지 않고 자연스럽게 전개될 수 있도록 하는 중요한 발견입니다.

소프트웨어 엔지니어링 과제 개선: 긴 평가 시간으로 인해 강화학습 과정의 효율성에 영향을 미치기 때문에, 대규모 강화학습이 소프트웨어 엔지니어링 과제에 광범위하게 적용되지 못했습니다. 그 결과 DeepSeek-R1은 소프트웨어 엔지니어링 벤치마크에서 DeepSeek-V3 대비 큰 개선을 보여주지 못했습니다. 향후 버전에서는 소프트웨어 엔지니어링 데이터에 대한 거부 샘플링을 구현하거나 강화학습 과정 중 비동기 평가를 통합하여 효율성을 개선함으로써 이 문제를 해결할 예정입니다.

연구의 의의와 기여

이 연구는 강화학습을 통한 언어 모델의 추론 능력 향상에 대한 중요한 통찰을 제공합니다. 특히 DeepSeek-R1-Zero가 보여준 순수한 강화학습만을 통한 추론 능력 개발은 인공지능 모델의 자기 주도적 학습 가능성을 입증하는 중요한 이정표입니다. 또한 증류를 통해 작은 모델들도 강력한 추론 능력을 획득할 수 있다는 발견은 실용적인 AI 응용에서 계산 효율성과 성능 사이의 균형을 달성하는 새로운 방향을 제시합니다.

연구팀이 공개한 DeepSeek-R1-Zero, DeepSeek-R1, 그리고 다양한 크기의 증류된 모델들은 연구 커뮤니티가 추론 능력 향상에 대한 연구를 더욱 발전시킬 수 있는 귀중한 자원이 될 것입니다. 이러한 오픈소스 접근법은 AI 연구의 민주화와 투명성을 촉진하며, 더 많은 연구자들이 고급 추론 모델 개발에 참여할 수 있는 기회를 제공합니다.

References

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning