딥시크-R1(DeepSeek-R1): 강화학습(Reinforcement Learning)을 통한 LLM 추론능력 향상

DeepSeek-AI는 강화 학습(RL)을 사용하여 개발된 두 가지 추론 중심 대형 언어 모델(LLM)인 DeepSeek-R1-Zero와 DeepSeek-R1을 말한다. DeepSeek-R1-Zero는 강화 학습(RL)로만 학습되었으며, DeepSeek-R1은 가독성과 추론 능력을 향상 시키기 위해 cold-start fine tuning과 multi-stage trainig 과정을 통합하여 학습된다.
강화 학습 기반 추론
– DeepSeek-R1-Zero는 supervised fine-tuning(SFT) 없이 대규모 RL을 통해 학습된다.
– 경쟁력 있는 추론 성능을 발휘하지만 가독성(readability)이 떨어지고 언어 혼용(language mixing) 처리에 약점을 보인다.
– DeepSeek-R1은 이러한 문제를 해결하기 위해 cold-start data와 supervised fine-tuning(SFT)을 통합했다.
벤치마크 성능
DeepSeek-R1은 많은 추론이 필요한 작업에서 우수한 성과를 달성했다.
– 수학: 97.3% on MATH-500 (better than OpenAI-o1-1217).
– 코딩: 96.3% on Codeforces.
– 일반 지식: 90.8% on MMLU, 많은 오픈소스 모델들을 능가한다.
소형 모델 증류
– DeepSeek-R1의 학습 지식은 더 작은 모델(15억~70억 개의 매개변수)로 증류된다.
– 증류된 32B 및 70B 모델은 QwQ-32B-Preview를 능가하는 성능을 보이며 유사 모델 중 돋보이는 기록을 세웠다.
학습 방법 진화
1. DeepSeek-R1-Zero (강화 학습)
– SFT를 사용하지 않음
– 창의적인 추론 행동을 보임
– 가독성이 떨어지고 언어 혼용 처리에 취약함
2. DeepSeek-R1 (Cold-Start + 강화 학습)
– 선별된 Cold-start data로 미세조정 수행
– 강화 학습을 통한 추론능력 향상
– Supervised fine-tuning을 통해 다양한 dataset 학습
– 사람의 선호도 반영을 위해 최종 강화 학습 수행
3. 소형 모델 추출
– 800만 개의 추론 샘플로 더 작은 모델(Qwen, Llama 시리즈)을 미세 조정한다.
연구 결과와 한계점
– 소형 모델에는 강화 학습만으로는 학습효과가 충분하지 않아 모델 증류가 더 효과적이다.
– 강화 학습의 비효율성으로 인해 소프트웨어 엔지니어링 작업이 어렵다.
– 프롬프트 민감성: Few-shot 프롬프트는 추론 성능을 저하시킨다.
– 다국어 제한: 영어와 중국어 외의 언어에서는 언어 혼용 문제가 여전히 지속된다.
향후 계획
– 함수 호출과 롤플레잉과 같은 일반적인 기능 개선
– 다국어 질의에 대한 추론 결과 전달 일관성 향상
– 소프트웨어 엔지니어링 작업에 대한 강화 학습 최적화
[DeepSeek 관련 게시글 ]
Cold Start Data 가장 쉽게 설명하기, AI 모델 강화 학습 전에 기초 훈련하기
SUPERVISED FINE-TUNING(SFT) 가장 쉽게 설명하기: AI의 정확도와 지식을 향상 시키는 방법