딥시크(DeepSeek) 가장 쉽게 설명하기: 강화 학습 기반의 추론 모델

딥시크-R1(DeepSeek-R1): 강화학습(Reinforcement Learning)을 통한 LLM 추론능력 향상

DeepSeek-R1

DeepSeek-AI는 강화 학습(RL)을 사용하여 개발된 두 가지 추론 중심 대형 언어 모델(LLM)인 DeepSeek-R1-Zero와 DeepSeek-R1을 말한다. DeepSeek-R1-Zero는 강화 학습(RL)로만 학습되었으며, DeepSeek-R1은 가독성과 추론 능력을 향상 시키기 위해 cold-start fine tuning과 multi-stage trainig 과정을 통합하여 학습된다.


강화 학습 기반 추론

  – DeepSeek-R1-Zero는 supervised fine-tuning(SFT) 없이 대규모 RL을 통해 학습된다.

  – 경쟁력 있는 추론 성능을 발휘하지만 가독성(readability)이 떨어지고 언어 혼용(language mixing) 처리에 약점을 보인다.

  – DeepSeek-R1은 이러한 문제를 해결하기 위해 cold-start data와 supervised fine-tuning(SFT)을 통합했다.


벤치마크 성능

DeepSeek-R1은 많은 추론이 필요한 작업에서 우수한 성과를 달성했다.

  – 수학: 97.3% on MATH-500 (better than OpenAI-o1-1217).

  – 코딩: 96.3% on Codeforces.

  – 일반 지식: 90.8% on MMLU, 많은 오픈소스 모델들을 능가한다.


소형 모델 증류

  – DeepSeek-R1의 학습 지식은 더 작은 모델(15억~70억 개의 매개변수)로 증류된다.

  – 증류된 32B 및 70B 모델은 QwQ-32B-Preview를 능가하는 성능을 보이며 유사 모델 중 돋보이는 기록을 세웠다.


학습 방법 진화

1. DeepSeek-R1-Zero (강화 학습)

  – SFT를 사용하지 않음

  – 창의적인 추론 행동을 보임

  – 가독성이 떨어지고 언어 혼용 처리에 취약함


2. DeepSeek-R1 (Cold-Start + 강화 학습)

  – 선별된 Cold-start data로 미세조정 수행

  – 강화 학습을 통한 추론능력 향상

  – Supervised fine-tuning을 통해 다양한 dataset 학습

  – 사람의 선호도 반영을 위해 최종 강화 학습 수행


3. 소형 모델 추출

  – 800만 개의 추론 샘플로 더 작은 모델(Qwen, Llama 시리즈)을 미세 조정한다.


연구 결과와 한계점

  – 소형 모델에는 강화 학습만으로는 학습효과가 충분하지 않아 모델 증류가 더 효과적이다.

  – 강화 학습의 비효율성으로 인해 소프트웨어 엔지니어링 작업이 어렵다.

  – 프롬프트 민감성: Few-shot 프롬프트는 추론 성능을 저하시킨다.

  – 다국어 제한: 영어와 중국어 외의 언어에서는 언어 혼용 문제가 여전히 지속된다.


향후 계획

  – 함수 호출과 롤플레잉과 같은 일반적인 기능 개선

  – 다국어 질의에 대한 추론 결과 전달 일관성 향상

  – 소프트웨어 엔지니어링 작업에 대한 강화 학습 최적화



[DeepSeek 관련 게시글 ]

Cold Start Data 가장 쉽게 설명하기, AI 모델 강화 학습 전에 기초 훈련하기

SUPERVISED FINE-TUNING(SFT) 가장 쉽게 설명하기: AI의 정확도와 지식을 향상 시키는 방법

강화 학습이 AI 의사 결정을 향상 시키는 방법(DeepSeek-R1 예시)

DeepSeek-R1이 Cold Start Data, Supervised Fine-Tuning (SFT), Reinforcement Learning (RL)을 사용하여 학습하는 방법

위로 스크롤