DeepSeek-R1이 Cold Start Data, Supervised Fine-Tuning (SFT), Reinforcement Learning (RL)을 사용하여 학습하는 방법

DeepSeek-R1은 여러 단계로 학습하고 다양한 기술을 결합하여 추론하고 의사 결정의 정확도를 향상시킨다. Cold Start Data, Supervised Fine-Tuning(SFT), 강화 학습(Reinforcement Learning, RL)의 단계를 세분화하여 알아보자.



🧊 1단계: Cold Start Data를 사용한 기본 구조 학습

🔹 목적: 무작위성과 나쁜 습관을 피하기 위해 모델에 초기 기초를 교육하기 위함.

🔹 방법: 구조화된 고품질 예제로 구성된 작은 데이터셋으로 모델을 훈련 시킨다.

🔹 사용 이유: Cold Start Data가 없으면 모델이 비정형적이고 가독성이 떨어지는 답변을 생성할 수 있음.


📌 예제: Cold Start Data로 수학 가르치기

💡 훈련 전에는 AI가 무작위로 불분명한 답변을 제공할 수 있다.

  • 문제: 7 × 6 = ?
  • AI 응답 (훈련 전):

Maybe 45? No, 50? Hmm… I guess it’s 42?

❌ 지저분하고 불확실한 응답

Cold Start Data훈련 예제:

|special_token|<think> 

To solve 7 × 6: 

– Multiply 7 by 6 → 7 × 6 = 42 

Thus, the correct answer is 42. 

</think>|special_token| 

<answer> 42 </answer>

✅ AI가 응답 결과를 올바르게 구조화하도록 가르친다.

✅ 논리적 추론이 포함되도록 단련 시킨다.

AI 응답(Cold Start Data 학습 후):

7 × 6 = 42. Multiplication means adding 7 six times: 7 + 7 + 7 + 7 + 7 + 7 = 42.

🎉 이제 AI가 체계적으로 답변한다.


📖 2단계: Supervised Fine-Tuning(SFT)을 통한 정확도 및 더 많은 지식 학습

🔹 목적: 다양한 주제의 대규모 정답 데이터셋을 사용하여 모델을 훈련시키기 위함

🔹 방법: 수천 개의 라벨링 된 예제에 단계별 설명을 제공한다.

🔹 사용 이유: AI 응답의 정확성을 향상시키고 지식을 올바르게 적용하는 데 도움이 된다.


📌 예제: 일반 지식을 위한 SFT

💡 Cold Start Data 학습이후 AI가 응답을 구조화할 수 있게 되었으니, 이제는 AI에게 올바른 사실을 가르친다.

  • 질문: 아메리카를 발견한 사람은 누구인가요?
  • AI 응답(SFT 이전):

Maybe Columbus? Or the Vikings? I’m not sure.

❌ 불확실하고 설명이 부족하다.

SFT 교육 예시:

Question: Who discovered America? 

Answer: Christopher Columbus. 

Explanation: Columbus is credited with discovering America in 1492 when he landed in the Bahamas while searching for a new route to Asia.

✅ 설명과 함께 AI에게 올바른 사실을 가르친다.

✅ AI가 주제 전반에 걸쳐 지식을 일반화하는 데 도움을 준다.

AI 응답(SFT 교육 후):

Christopher Columbus is credited with discovering America in 1492 when he landed in the Bahamas while searching for a new route to Asia.

🎉 이제 AI가 명확하고 정확한 답변을 제공한다.


🤖 3단계: 강화 학습(RL)을 통해 더 나은 결정을 내리는 방법 배우기

🔹 목적: AI가 시행착오를 통해 깊이 생각하고 최선의 답을 선택하도록 가르치기 위함

🔹 방법: AI는 다양한 답변을 시도하고 올바른 추론에 대한 보상과 실수에 대한 페널티를 받는다.

🔹 사용 이유: 시간이 지남에 따라 체스 선수가 실력이 느는 것처럼 AI가 더 논리적이고 전략적으로 발전할 수 있도록 도와준다.


📌 예제: 의사 결정을 위한 강화 학습(RL)

💡 Supervised Fine-Tuning을 통해 AI는 지식을 학습했다. 이제 시행착오를 통해 추론하는 법을 배울 차례이다.

  • 질문: 23은 소수인가요? 그 이유를 설명해 주세요.
  • AI 응답(RL 교육 전):

23 is prime. I think because it is odd?

❌ 정답이지만 추론 과정이 부족하다.

강화 학습이 답변을 개선하는 방법:

  1. AI는 다양한 응답을 시도한다.
  2. 논리적 추론에 대한 보상과 오류에 대한 페널티를 받는다.
  3. 시간이 지남에 따라 AI는 답변을 명확하게 설명하는 가장 좋은 방법을 학습합니다.


AI 응답(RL 훈련 후):

Yes, 23 is a prime number. A prime number is only divisible by 1 and itself. Since 23 has no divisors other than 1 and 23, it is prime.

✅ 이제 AI가 논리적으로 답변 내용을 설명한다.


🚀 DeepSeek-R1에서 이 단계들이 작동하는 방법

단계목적AI가 학습하는 것예제
Cold Start Data 🧊AI에게 체계적인 사고 방식 제공명확하고 논리적인 답변“7 × 6에 대한 단계별 추론”
Supervised Fine-Tuning 📖올바른 지식으로 AI 교육더 정확한 응답“콜럼버스는 1492년에 미국을 발견했습니다.”
Reinforcement Learning 🤖AI의 의사 결정 개선추론과 문제 해결 배우기“23은 소수입니다. 왜냐하면 다른 약수가 없기 때문입니다.”

각 단계는 이전 단계를 기반으로 하여 DeepSeek-R1이 더 똑똑하고 추론 능력이 뛰어나게 발전한다. 🎯


[ DeepSeek 관련 게시글 ]

Cold Start Data 가장 쉽게 설명하기, AI 모델 강화 학습 전에 기초 훈련하기

SUPERVISED FINE-TUNING(SFT) 가장 쉽게 설명하기: AI의 정확도와 지식을 향상 시키는 방법

강화 학습이 AI 의사 결정을 향상 시키는 방법(DeepSeek-R1 예시)

Cold Start Data와 Supervised Fine-Tuning (SFT)의 차이점

강화 학습(Reinforcement Learning)이 의사 결정을 개선하는 방법

위로 스크롤