DeepSeek-R1은 여러 단계로 학습하고 다양한 기술을 결합하여 추론하고 의사 결정의 정확도를 향상시킨다. Cold Start Data, Supervised Fine-Tuning(SFT), 강화 학습(Reinforcement Learning, RL)의 단계를 세분화하여 알아보자.

🧊 1단계: Cold Start Data를 사용한 기본 구조 학습
🔹 목적: 무작위성과 나쁜 습관을 피하기 위해 모델에 초기 기초를 교육하기 위함.
🔹 방법: 구조화된 고품질 예제로 구성된 작은 데이터셋으로 모델을 훈련 시킨다.
🔹 사용 이유: Cold Start Data가 없으면 모델이 비정형적이고 가독성이 떨어지는 답변을 생성할 수 있음.
📌 예제: Cold Start Data로 수학 가르치기
💡 훈련 전에는 AI가 무작위로 불분명한 답변을 제공할 수 있다.
- 문제: 7 × 6 = ?
- AI 응답 (훈련 전):
Maybe 45? No, 50? Hmm… I guess it’s 42?
❌ 지저분하고 불확실한 응답
Cold Start Data훈련 예제:
|special_token|<think>
To solve 7 × 6:
– Multiply 7 by 6 → 7 × 6 = 42
Thus, the correct answer is 42.
</think>|special_token|
<answer> 42 </answer>
✅ AI가 응답 결과를 올바르게 구조화하도록 가르친다.
✅ 논리적 추론이 포함되도록 단련 시킨다.
AI 응답(Cold Start Data 학습 후):
7 × 6 = 42. Multiplication means adding 7 six times: 7 + 7 + 7 + 7 + 7 + 7 = 42.
🎉 이제 AI가 체계적으로 답변한다.
📖 2단계: Supervised Fine-Tuning(SFT)을 통한 정확도 및 더 많은 지식 학습
🔹 목적: 다양한 주제의 대규모 정답 데이터셋을 사용하여 모델을 훈련시키기 위함
🔹 방법: 수천 개의 라벨링 된 예제에 단계별 설명을 제공한다.
🔹 사용 이유: AI 응답의 정확성을 향상시키고 지식을 올바르게 적용하는 데 도움이 된다.
📌 예제: 일반 지식을 위한 SFT
💡 Cold Start Data 학습이후 AI가 응답을 구조화할 수 있게 되었으니, 이제는 AI에게 올바른 사실을 가르친다.
- 질문: 아메리카를 발견한 사람은 누구인가요?
- AI 응답(SFT 이전):
Maybe Columbus? Or the Vikings? I’m not sure.
❌ 불확실하고 설명이 부족하다.
SFT 교육 예시:
Question: Who discovered America?
Answer: Christopher Columbus.
Explanation: Columbus is credited with discovering America in 1492 when he landed in the Bahamas while searching for a new route to Asia.
✅ 설명과 함께 AI에게 올바른 사실을 가르친다.
✅ AI가 주제 전반에 걸쳐 지식을 일반화하는 데 도움을 준다.
AI 응답(SFT 교육 후):
Christopher Columbus is credited with discovering America in 1492 when he landed in the Bahamas while searching for a new route to Asia.
🎉 이제 AI가 명확하고 정확한 답변을 제공한다.
🤖 3단계: 강화 학습(RL)을 통해 더 나은 결정을 내리는 방법 배우기
🔹 목적: AI가 시행착오를 통해 깊이 생각하고 최선의 답을 선택하도록 가르치기 위함
🔹 방법: AI는 다양한 답변을 시도하고 올바른 추론에 대한 보상과 실수에 대한 페널티를 받는다.
🔹 사용 이유: 시간이 지남에 따라 체스 선수가 실력이 느는 것처럼 AI가 더 논리적이고 전략적으로 발전할 수 있도록 도와준다.
📌 예제: 의사 결정을 위한 강화 학습(RL)
💡 Supervised Fine-Tuning을 통해 AI는 지식을 학습했다. 이제 시행착오를 통해 추론하는 법을 배울 차례이다.
- 질문: 23은 소수인가요? 그 이유를 설명해 주세요.
- AI 응답(RL 교육 전):
23 is prime. I think because it is odd?
❌ 정답이지만 추론 과정이 부족하다.
강화 학습이 답변을 개선하는 방법:
- AI는 다양한 응답을 시도한다.
- 논리적 추론에 대한 보상과 오류에 대한 페널티를 받는다.
- 시간이 지남에 따라 AI는 답변을 명확하게 설명하는 가장 좋은 방법을 학습합니다.
AI 응답(RL 훈련 후):
Yes, 23 is a prime number. A prime number is only divisible by 1 and itself. Since 23 has no divisors other than 1 and 23, it is prime.
✅ 이제 AI가 논리적으로 답변 내용을 설명한다.
🚀 DeepSeek-R1에서 이 단계들이 작동하는 방법
| 단계 | 목적 | AI가 학습하는 것 | 예제 |
|---|---|---|---|
| Cold Start Data 🧊 | AI에게 체계적인 사고 방식 제공 | 명확하고 논리적인 답변 | “7 × 6에 대한 단계별 추론” |
| Supervised Fine-Tuning 📖 | 올바른 지식으로 AI 교육 | 더 정확한 응답 | “콜럼버스는 1492년에 미국을 발견했습니다.” |
| Reinforcement Learning 🤖 | AI의 의사 결정 개선 | 추론과 문제 해결 배우기 | “23은 소수입니다. 왜냐하면 다른 약수가 없기 때문입니다.” |
각 단계는 이전 단계를 기반으로 하여 DeepSeek-R1이 더 똑똑하고 추론 능력이 뛰어나게 발전한다. 🎯
[ DeepSeek 관련 게시글 ]
Cold Start Data 가장 쉽게 설명하기, AI 모델 강화 학습 전에 기초 훈련하기
SUPERVISED FINE-TUNING(SFT) 가장 쉽게 설명하기: AI의 정확도와 지식을 향상 시키는 방법
강화 학습이 AI 의사 결정을 향상 시키는 방법(DeepSeek-R1 예시)
