Cold Start Data와 Supervised Fine-Tuning (SFT)의 차이점

Cold Start Data와 Supervised Fine-Tuning (SFT)은 모두 AI 모델을 개선하는 데 도움이 되지만, 서로 다른 용도로 사용됩니다. 이 둘의 차이점을 알기 쉽게 구분해 보겠습니다.


🎯 한눈에 알아보는 Cold Start Data vs. Supervised Fine-Tuning (SFT)

구분Cold Start Data 🧊Supervised Fine-Tuning (SFT) 📖
목적심화 교육 전에 모델에 시작 기반을 제공한다.정답과 설명을 사용하여 모델을 가르친다.
비유아이에게 문장을 배우기 전에 알파벳을 가르치는 것과 같다.학생들에게 공부하고 연습할 수 있는 예제가 담긴 교과서를 제공하는 것과 같다.
훈련 과정나쁜 응답 습관을 방지하기 위해 강화 학습(RL) 전에 사용.단계별 학습을 통해 모델을 미세 조정하는 데 사용.
데이터 유형 명확한 구조로 모델을 시작하는 데 도움이 되는 소규모 고품질 데이터 세트레이블이 지정된 예제(질문 + 답변)의 대규모 데이터 세트
목표모델의 무작위적이고 잘 정리되지 않은 응답을 줄이는 것특정 작업의 정확성과 추론 능력 향상
사용 사례모델이 처음부터 올바른 추론 구조를 따르도록 할 때수학, 코딩, 역사 또는 정답이 있는 모든 과목을 가르칠 때


📝 비유: 아이에게 글쓰기 가르치기

아이에게 에세이 쓰는 방법을 가르친다고 상상해 보자:

1️⃣ Cold Start Data 🧊 (Early Basics)

  – 에세이를 쓰기 전에 알파벳과 기본적인 문장 구조를 가르친다.

  – 이렇게 하면 아이들이 아무 단어나 낙서하는 것을 방지하고 올바르게 글쓰기를 시작할 수 있다.

2️⃣ Supervised Fine-Tuning (SFT) 📖 (Detailed Learning)

  – 이제 학생들에게 잘 쓰여진 에세이가 담긴 교과서를 주고 공부하고 연습하게 한다.

  – 이를 통해 글쓰기 능력이 향상되고 스스로 더 나은 에세이를 작성할 수 있게된다.

이처럼 Cold Start Data는 아이에게 복잡한 과목을 가르치기 전에 기본 기술을 가르치는 것과 같고 Supervised Fine-Tuning(SFT)는 해당 과목을 마스터할 수 있도록 체계적인 수업을 제공하는 것과 같다.


📌 실제 사례: AI에게 수학 학습 시키기

수학 문제를 풀기 위해 AI 모델을 학습 시킨다고 가정해 보자.

먼저 아무런 사전학습 없이 질문하기 (지저분한 응답)

– 질문: 7 × 6 = ?

– 응답:

Uh… maybe 40? No, 50? I think it’s 42, but not sure.

혼란스럽고 구조화되지 않은 응답


다음은 Cold Start Data와 Supervised Fine-Tuning을 진행해보자.

🧊 Step 1: Cold Start Data (구조 가르치기)

먼저 단계별 사고 방법을 보여주는 Cold Start Data로 모델을 훈련시킨다.

Cold Start Data 예제:

|special_token|<think> 

To solve 7 × 6: 

– Multiply 7 by 6 → 7 × 6 = 42 

Thus, the correct answer is 42. 

</think>|special_token| 

<answer> 42 </answer> 

✅ 모델에게 구조화된 사고 방식을 가르친다.

✅ 명확한 응답 서식을 학습시킨다.


📖 Step 2: Supervised Fine-Tuning (정확도 보다 복잡한 문제 교육)

이제 많은 수학 문제와 정답으로 구성된 대규모 데이터 세트로 모델을 훈련시킨다.

SFT Training Data 예제:

Question: What is 12 × 9? 

Answer: 12 × 9 = 108. 

Explanation: Multiplication means adding 12 nine times: 12 + 12 + 12 + 12 + 12 + 12 + 12 + 12 + 12 = 108. 

✅ 정확도 향상

✅ 다양한 문제 해결 방법 학습


🔍 최종 응답결과 (Cold Start Data와 SFT 학습을 모두 마친 후)

– 질문: 7 × 6 = ?

– 응답:

7 × 6 = 42. 

Multiplication means adding 7 six times: 7 + 7 + 7 + 7 + 7 + 7 = 42. 

Thus, the answer is 42. 

✅ 잘 구성된 구조

✅ 정확하고 명확한 설명


🔑 주요 내용

  – Cold Start Data: 지저분한 응답을 줄이기 위해 모델에 기초를 가르친다.

  – Supervised Fine-Tuning (SFT): 응답의 정확도를 높이기 위해 대량의 정답 데이터 세트로 모델을 학습시킨다.

  – Cold Start Data가 우선이고, 그 다음 SFT가 성능을 더욱 향상 시킨다.



[ 관련 게시글 ]
Cold Start Data 가장 쉽게 설명하기, AI 모델 강화 학습 전에 기초 훈련하기

SUPERVISED FINE-TUNING(SFT) 가장 쉽게 설명하기: AI의 정확도와 지식을 향상 시키는 방법

위로 스크롤