Cold Start Data 가장 쉽게 설명하기, AI 모델 강화 학습 전에 기초 훈련하기

Cold Start Data는 LLM 모델이 학습을 진행하기 전, LLM 모델에게 좋은 출발점을 제공하기 위해 사용되는 소규모의 고품질 데이터 세트를 말한다. LLM 모델이 스스로 고급 기술을 학습하기 전에 기본적인 사항을 먼저 가르치는 과정이라고 이해하면 쉽다.


Cold Start Data가 필요한 이유

– 처음부터 강화 학습(RL)으로만 LLM 모델을 학습 시키면 언어를 혼용하거나 가독성이 떨어지는 답변을 생성하는 등의 이상한 습관이 학습될 수 있다.

– LLM 모델이 잘 구조화되고 인간 친화적인 데이터로 먼저 학습을 하게 되면 다음과 같은 이점이 있다.

  1.   명쾌하고 논리적인 추론 가능
  2.   이해하기 쉬운 서식으로 답변 생성
  3.   긴 답변을 적절하게 구성하는 방법 학습

  – Cold Start Data는 이후 강화 학습을 훨씬 더 효과적으로 진행되게 하며 LLM 모델이 더 정확하고 이해하기 쉬운 답변을 생성할 수 있다.


아이에게 글쓰기 방법 가르치기

아이에게 일기 쓰는 방법을 가르친다고 상상해 보자.

  – Cold Start Data없이 강화 학습만 진행하는 경우: 아이에게 빈 종이를 주며 “뭐라도 써봐!”라고 말하는 것과 같다. 아이들은 낙서하듯이 아무 단어나 쓰거나 일관성 없는 언어를 사용할 것이다.

  – Cold Start Data 학습 : 아이에게 잘 쓰여진 일기를 보여주고 기본 문법과 글쓰기의 구조를 먼저 설명한다. 그런 다음 지속적인 피드백을 통해 일기 쓰기 연습을 하는 것과 같다.


DeepSeek-R1 Cold Start Data 활용하는 방식

  – DeepSeek-R1은 수천 개의 고품질 추론 예제들을 먼저 학습한다.

  – 이 예제들은 명확한 논리, 좋은 구조, 적절한 언어를 사용하는 모범적인 형식을 갖추고 있어야 한다.

  – 이렇게 기초를 다진 후, DeepSeek-R1은 추론 능력을 더욱 향상 시키기 위해 강화 학습을 통해 학습을 계속한다.


Cold Start Data 학습의 장점

 – 더 빠른 학습 : 기초 없이 처음부터 시작하는 것보다 LLM 모델이 더 빠르게 개선된다.

 – 더 뛰어난 가독성 : 답변이 명쾌하고 이해하기 쉽게 구조화된다.

 – 더욱 안정적인 응답 : 무작위적이고 혼란스러운 응답을 방지한다.

Cold Start Data 실제 예시

추론을 사용하여 수학 문제를 풀도록 DeepSeek-R1을 훈련한다고 가정해 보자.

Cold Start Data 없이 강화 학습만 수행한 경우:

구조화된 데이터 없이 강화 학습(RL)만 사용하여 LLM 모델을 훈련하면 다음과 같은 결과를 생성할 수 있다.

▶ 문제: 5 + 3 = 8 ?

▶ 응답:

5 + 3 is like, hmm, I think it’s 7 or 9. Not sure. Maybe 8? Yeah, 8.

정답, 하지만 응답의 가독성이 떨어짐

추론 과정이 명쾌하지 않다

응답 형식이 잘 지정되지 않음


Cold Start Data 사용한 기초 훈련

강화 학습을 하기 전에 LLM 모델이 훈련할 수 있도록 잘 구조화된 예제를 Cold Start Data로 제공한다.

학습용 Cold Start Data 예시:

|special_token|<think> 

To solve 5 + 3, we break it down: 

– Start with the number 5. 

– Add 3 to it: 5 + 3 = 8. 

Thus, the answer is 8. 

</think>|special_token| 

<answer> 8 </answer> 

단계별 추론 절차가 명확함

잘 구성된 응답 형식

논리적인 문제해결 능력 학습


Cold Start Data 학습한 이후

위와 같은 구조화된 예시를 통해 학습한 LLM 모델은 새로운 질문을 받았을 때 더 나은 답변을 생성할 수 있다.

▶ 문제: 12 × 4 = ?

▶ Cold Start Data 학습 후 답변:

|special_token|<think> 

To solve 12 × 4, we use multiplication: 

– 12 times 4 means adding 12 four times: 

  12 + 12 + 12 + 12 = 48. 

Thus, the answer is 48. 

</think>|special_token| 

<answer> 48 </answer> 

훨씬 더 명확하고 구조화된 응답 제공

가독성이 좋고 추론 절차를 이해하기 쉬움

추가적인 학습을 위한 일관된 형식을 갖춤


결론: Cold Start Data가 중요한 이유

  – 강화 학습과 미세조정을 하기 전에 LLM 모델이 올바른 답변 제시 방법을 학습하도록 도와준다.

  – 가독성이 좋고 잘 구조화된 응답을 보장해준다.

  – 학습 속도를 높이고 LLM 모델이 작업 전반에 걸쳐 더 잘 일반화할 수 있도록 도와준다.


[ Cold Start Data 관련 게시글 ]

SUPERVISED FINE-TUNING(SFT) 가장 쉽게 설명하기: AI의 정확도와 지식을 향상 시키는 방법

Cold Start Data와 Supervised Fine-Tuning (SFT)의 차이점

위로 스크롤