반응형
[ADsp 정리] 3-5-2. 분류 분석(Decision Tree)
1. 분류 분석 vs 예측 분석
1. 분류 분석
- Clustering과 유사하지만, 각 그룹이 정해져 있어서 지도학습에 속한다.
- 범주형 값을 맞추는 것
- 반응 변수가 범주형인(Classification) 경우 적용되는 회귀 분석 모형 Regression Analysis Model
- 모형의 적합을 통해 추정된 확률을 사후확률(Posterior Probability)라고 함
- 통계학에서 로지스틱 분포로 Sigmoid를 주로 사용한다
2. 예측 분석
- 한개의 설명 변수를 갖는 것
- 연속형 속성의 값을 맞추는 것
선형 회귀 | 로지스틱 회귀 | |
종속 변수(출력) | 연속형 변수 | 0~1 |
계수 추정법 | 최소 제곱법 | 최대우도추정법(Maximum Likelidhood Estimation) |
모형 검정 | F-검정, T검정 | 카이제곱 검정 |
2. 의사결정나무(Decision Tree)
A. 정의
- 나무 모양으로 그림을 그려 문제를 푸는 방법
- 분류형과 회귀형이 존재함3. 선형 회귀 vs 로지스틱 회귀 분석
B. 예측력과 해석력 이란
- 예측력 : 고객의 수를 예측
- 해석력 : 고객에게 탈락의 이유를 설명하기 위한 해명
C. 의사결정나무 사례
- 분류, 세분화
- 예측
- 차원축소 및 변수 선택 : 예측 변수증 목표변수에 영향을 미치는 변수를 선택
- 교호작용효과의 파악 : 예측 변수를 통해 규칙을 파악
- 범주의 병합 : 범주형 목표변수의 범주를 줄임
- 연속형 변수의 이산화 : 연속형 목표 변수를 이산화
D.장점
- 설명 쉬움
- 계산 복잡 X
- 대용량도 거뜬
- 비정상 데이터에도 강건
- 상관성이 높은 불필요한 변수에도 영향 X
- 수치형 변수 범주형 변수 무관
- 높은 정확도
E. 단점
- 과대적합 가능성 높음 : 새로운 데이터에 반응하지 못할 가능성 높음
- 경계선 부근 자료값에 대한 오차가 큼
- 설명 변수간 중요도 판단이 쉽지 않음
F. Decision Tree의 분석과정
성장 단계 : 최적의 분리규칙(Spliting Rule)을 찾아서 분리한 후, 정지규칙(Stopping Rule)을 만족하면 중단한다. 깊이 지정, 레코드 수의 최소 개수가 Stopping Criterion이 된다.
분류 기준으로는 카이제곱 통게량, 지니지수, 엔트로피 지수를 활용한다.
가지치기(Pruning) : 오차를 크게할 부적절한 추론 규칙을 가지고 있거나 불필요한 가지를 잘라내기한다. 자료가 일정 수 이하이면 분할을 정지하고 Cost Complexity Pruning 을 이용하여 가지치기 한다.
타당성 평가 : Gain Chart, Risk Chart, 시험자료를 이용하여 의사결정 나무를 평가하는 단계
해석 및 예측 단계 : 구축된 나무 모형을 해석하고 예측모형을 설정하여 적용하는 단계
G. 의사결정 알고리즘
G-1. CART(Classification and Regression Tree)
- 불순도를 측도(출력변수 범주형) : 지니변수
- 불순도를 측도(출력변수 연속형) : 이진분리
- 변수들 간의 선형 결합들 중에서 최적의 분리를 찾을 수 있음
G-2. C4.5와 C5.0
- 다지 분리(Multiple Split)이 가능
- 불순도 측도 : 엔트로피
G-4 CHAID(CHi-squared Automatic Interaction Detection)
- 적당한 크기에서 성장을 중지, 입력 변수가 반드시 범주형
- 불순도 측도 : 카이제곱 통계량
반응형
'데이터 분석 전문가(ADP, ADSP) > 데이터 분석 개념' 카테고리의 다른 글
[ADsp 정리] 3-4-1. 통계 분석 (0) | 2020.11.30 |
---|---|
[ADsp 정리] 3-4-4. 다차원척도(MDS),주성분 분석(PCA) (0) | 2020.11.27 |
[ADsp 정리] 3-5-5. 군집 분석(Clustering Analysis) (0) | 2020.11.26 |
[ADsp 정리] 3-5-1. 정형 데이터 마이닝 (0) | 2020.11.21 |
[ADsp 정리] 3-1-1 데이터 분석 개요 (0) | 2020.11.20 |