Cold Start Data와 Supervised Fine-Tuning (SFT)은 모두 AI 모델을 개선하는 데 도움이 되지만, 서로 다른 용도로 사용됩니다. 이 둘의 차이점을 알기 쉽게 구분해 보겠습니다.

🎯 한눈에 알아보는 Cold Start Data vs. Supervised Fine-Tuning (SFT)
| 구분 | Cold Start Data 🧊 | Supervised Fine-Tuning (SFT) 📖 |
|---|---|---|
| 목적 | 심화 교육 전에 모델에 시작 기반을 제공한다. | 정답과 설명을 사용하여 모델을 가르친다. |
| 비유 | 아이에게 문장을 배우기 전에 알파벳을 가르치는 것과 같다. | 학생들에게 공부하고 연습할 수 있는 예제가 담긴 교과서를 제공하는 것과 같다. |
| 훈련 과정 | 나쁜 응답 습관을 방지하기 위해 강화 학습(RL) 전에 사용. | 단계별 학습을 통해 모델을 미세 조정하는 데 사용. |
| 데이터 유형 | 명확한 구조로 모델을 시작하는 데 도움이 되는 소규모 고품질 데이터 세트 | 레이블이 지정된 예제(질문 + 답변)의 대규모 데이터 세트 |
| 목표 | 모델의 무작위적이고 잘 정리되지 않은 응답을 줄이는 것 | 특정 작업의 정확성과 추론 능력 향상 |
| 사용 사례 | 모델이 처음부터 올바른 추론 구조를 따르도록 할 때 | 수학, 코딩, 역사 또는 정답이 있는 모든 과목을 가르칠 때 |
📝 비유: 아이에게 글쓰기 가르치기
아이에게 에세이 쓰는 방법을 가르친다고 상상해 보자:
1️⃣ Cold Start Data 🧊 (Early Basics)
– 에세이를 쓰기 전에 알파벳과 기본적인 문장 구조를 가르친다.
– 이렇게 하면 아이들이 아무 단어나 낙서하는 것을 방지하고 올바르게 글쓰기를 시작할 수 있다.
2️⃣ Supervised Fine-Tuning (SFT) 📖 (Detailed Learning)
– 이제 학생들에게 잘 쓰여진 에세이가 담긴 교과서를 주고 공부하고 연습하게 한다.
– 이를 통해 글쓰기 능력이 향상되고 스스로 더 나은 에세이를 작성할 수 있게된다.
이처럼 Cold Start Data는 아이에게 복잡한 과목을 가르치기 전에 기본 기술을 가르치는 것과 같고 Supervised Fine-Tuning(SFT)는 해당 과목을 마스터할 수 있도록 체계적인 수업을 제공하는 것과 같다.
📌 실제 사례: AI에게 수학 학습 시키기
수학 문제를 풀기 위해 AI 모델을 학습 시킨다고 가정해 보자.
먼저 아무런 사전학습 없이 질문하기 (지저분한 응답)
– 질문: 7 × 6 = ?
– 응답:
Uh… maybe 40? No, 50? I think it’s 42, but not sure.
❌ 혼란스럽고 구조화되지 않은 응답
다음은 Cold Start Data와 Supervised Fine-Tuning을 진행해보자.
🧊 Step 1: Cold Start Data (구조 가르치기)
먼저 단계별 사고 방법을 보여주는 Cold Start Data로 모델을 훈련시킨다.
Cold Start Data 예제:
|special_token|<think>
To solve 7 × 6:
– Multiply 7 by 6 → 7 × 6 = 42
Thus, the correct answer is 42.
</think>|special_token|
<answer> 42 </answer>
✅ 모델에게 구조화된 사고 방식을 가르친다.
✅ 명확한 응답 서식을 학습시킨다.
📖 Step 2: Supervised Fine-Tuning (정확도 및 보다 복잡한 문제 교육)
이제 많은 수학 문제와 정답으로 구성된 대규모 데이터 세트로 모델을 훈련시킨다.
SFT Training Data 예제:
Question: What is 12 × 9?
Answer: 12 × 9 = 108.
Explanation: Multiplication means adding 12 nine times: 12 + 12 + 12 + 12 + 12 + 12 + 12 + 12 + 12 = 108.
✅ 정확도 향상
✅ 다양한 문제 해결 방법 학습
🔍 최종 응답결과 (Cold Start Data와 SFT 학습을 모두 마친 후)
– 질문: 7 × 6 = ?
– 응답:
7 × 6 = 42.
Multiplication means adding 7 six times: 7 + 7 + 7 + 7 + 7 + 7 = 42.
Thus, the answer is 42.
✅ 잘 구성된 구조
✅ 정확하고 명확한 설명
🔑 주요 내용
– Cold Start Data: 지저분한 응답을 줄이기 위해 모델에 기초를 가르친다.
– Supervised Fine-Tuning (SFT): 응답의 정확도를 높이기 위해 대량의 정답 데이터 세트로 모델을 학습시킨다.
– Cold Start Data가 우선이고, 그 다음 SFT가 성능을 더욱 향상 시킨다.
[ 관련 게시글 ]
Cold Start Data 가장 쉽게 설명하기, AI 모델 강화 학습 전에 기초 훈련하기
SUPERVISED FINE-TUNING(SFT) 가장 쉽게 설명하기: AI의 정확도와 지식을 향상 시키는 방법
