딥시크(DeepSeek) 가장 쉽게 설명하기: 강화 학습 기반의 추론 모델
딥시크-R1(DeepSeek-R1): 강화학습(Reinforcement Learning)을 통한 LLM 추론능력 향상 DeepSeek-AI는 강화 학습(RL)을 사용하여 개발된 두 가지 추론 중심 대형 언어 모델(LLM)인 DeepSeek-R1-Zero와 […]
딥시크-R1(DeepSeek-R1): 강화학습(Reinforcement Learning)을 통한 LLM 추론능력 향상 DeepSeek-AI는 강화 학습(RL)을 사용하여 개발된 두 가지 추론 중심 대형 언어 모델(LLM)인 DeepSeek-R1-Zero와 […]
Cold Start Data는 LLM 모델이 학습을 진행하기 전, LLM 모델에게 좋은 출발점을 제공하기 위해 사용되는 소규모의 고품질 데이터 세트를 말한다.
Cold Start Data와 Supervised Fine-Tuning (SFT)은 모두 AI 모델을 개선하는 데 도움이 되지만, 서로 다른 용도로 사용됩니다. 이 둘의 차이점을