반응형
[ADsp 정리] 3-5-3. 앙상블 분석(Ensemble)
1.정의
- 여러개의 예측 모형을 만든 후 조합하여 최종 예측 모형을 만드는 다중 모델 조합(Combining Multiple Models), 분류기 조합(Classifier Combination)이 있다.
2. 앙상블 기법의 종류
A. 배깅
- 부트스트랩(Bootstrap)기법이란 랜덤하게 동일한 크기의 표번을 샘플링하는 방법
- 부트스트랩 자료를 생성한 후, 예측모형을 만든후 이들을 결합하여 최종 예측모형을 만드는 방법
- 보팅(Voting)이란 여러개의 모형에서 산출된 결과를 다수결로 최종 선정하는 방법이며 이를 통해 최종 모델을 선택함
(예를들어 빨강 6, 파랑 5가 나왔으면, 빨강이 정답인 것이다. 그러므로 홀수개의 모델을 만들어야 이진 분류가 된다.)
- Decision Tree에서 가지치기(Pruning)이지만, 배깅 기법에서는 최대한 가지를 갖는 것을 목표로 함
B. 부스팅
- 예측력이 약한 모델을 결합하여 강한 예측 모형을 만드는 방법
- 훈련 오차를 빠르고 쉽게 줄일 수 있음
- Adaboost : N개에 가중치를 각각 선정하고, N개의 분류기를 결합하여 최종 분류기를 만드는 방법이며 가중치의 합은 1
- 분류기의 결합인 Adaboost는 배깅에 비해 성능이 좋은 경우가 많다.
C. 랜덤 포레스트(Random Forest)
- Decision Tree의 경우 분산이 크므로, 배깅과 부스팅보다 더 많은 무작위를 주어 약한 학습기들을 생성한 후, 선형 결합하여 최종 학습기를 만드는 것
- Random input 에 따른 forest of tree를 이용한 분류방법으로 예측력이 좋다.
반응형