반응형

[ADsp 정리] 3-5-2. 분류 분석(Decision Tree)

 

1. 분류 분석 vs 예측 분석
1. 분류 분석
- Clustering과 유사하지만, 각 그룹이 정해져 있어서 지도학습에 속한다. 
- 범주형 값을 맞추는 것
- 반응 변수가 범주형인(Classification) 경우 적용되는 회귀 분석 모형 Regression Analysis Model
- 모형의 적합을 통해 추정된 확률을 사후확률(Posterior Probability)라고 함
- 통계학에서 로지스틱 분포로 Sigmoid를 주로 사용한다

2.  예측 분석
- 한개의 설명 변수를 갖는 것
- 연속형 속성의 값을 맞추는 것

   선형 회귀  로지스틱 회귀
종속 변수(출력) 연속형 변수 0~1
계수 추정법 최소 제곱법 최대우도추정법(Maximum Likelidhood Estimation)
모형 검정 F-검정, T검정 카이제곱 검정

 

2. 의사결정나무(Decision Tree)
A. 정의
- 나무 모양으로 그림을 그려 문제를 푸는 방법
- 분류형과 회귀형이 존재함3. 선형 회귀 vs 로지스틱 회귀 분석

B. 예측력과 해석력 이란
- 예측력 : 고객의 수를 예측 
- 해석력 : 고객에게 탈락의 이유를 설명하기 위한 해명

C. 의사결정나무 사례
- 분류, 세분화
- 예측
- 차원축소 및 변수 선택 : 예측 변수증 목표변수에 영향을 미치는 변수를 선택
- 교호작용효과의 파악 : 예측 변수를 통해 규칙을 파악 
- 범주의 병합 : 범주형 목표변수의 범주를 줄임
- 연속형 변수의 이산화 : 연속형 목표 변수를 이산화 

D.장점
- 설명 쉬움
- 계산 복잡 X
- 대용량도 거뜬
- 비정상 데이터에도 강건
- 상관성이 높은 불필요한 변수에도 영향  X
- 수치형 변수 범주형 변수 무관
- 높은 정확도

E. 단점
- 과대적합 가능성 높음 : 새로운 데이터에 반응하지 못할 가능성 높음
- 경계선 부근 자료값에 대한 오차가 큼
- 설명 변수간 중요도 판단이 쉽지 않음 


F. Decision Tree의 분석과정
성장 단계 :  최적의 분리규칙(Spliting Rule)을 찾아서 분리한 후, 정지규칙(Stopping Rule)을 만족하면 중단한다. 깊이 지정, 레코드 수의 최소 개수가 Stopping Criterion이 된다.
분류 기준으로는 카이제곱 통게량, 지니지수, 엔트로피 지수를 활용한다.   

가지치기(Pruning) : 오차를 크게할 부적절한 추론 규칙을 가지고 있거나 불필요한 가지를 잘라내기한다. 자료가 일정 수 이하이면 분할을 정지하고 Cost Complexity Pruning 을 이용하여 가지치기 한다. 

타당성 평가 : Gain Chart, Risk Chart, 시험자료를 이용하여 의사결정 나무를 평가하는 단계
해석 및 예측 단계 : 구축된 나무 모형을 해석하고 예측모형을 설정하여 적용하는 단계

G. 의사결정 알고리즘
G-1. CART(Classification and Regression Tree)
- 불순도를 측도(출력변수 범주형) :  지니변수
- 불순도를 측도(출력변수 연속형) :  이진분리 
- 변수들 간의 선형 결합들 중에서 최적의 분리를 찾을 수 있음

G-2. C4.5와 C5.0
- 다지 분리(Multiple Split)이 가능
- 불순도 측도 : 엔트로피

G-4 CHAID(CHi-squared Automatic Interaction Detection)
- 적당한 크기에서 성장을 중지, 입력 변수가 반드시 범주형
- 불순도 측도 : 카이제곱 통계량 
반응형

+ Recent posts