[ADsp 정리] 3-5-2. 분류 분석(Decision Tree)

2020. 11. 22. 12:00

[ADsp 정리] 3-5-2. 분류 분석(Decision Tree)

1. 분류 분석 vs 예측 분석

1. 분류 분석
- Clustering과 유사하지만, 각 그룹이 정해져 있어서 지도학습에 속한다.
- 범주형 값을 맞추는 것
- 반응 변수가 범주형인(Classification) 경우 적용되는 회귀 분석 모형 Regression Analysis Model
- 모형의 적합을 통해 추정된 확률을 사후확률(Posterior Probability)라고 함
- 통계학에서 로지스틱 분포로 Sigmoid를 주로 사용한다

2. 예측 분석
- 한개의 설명 변수를 갖는 것
- 연속형 속성의 값을 맞추는 것

	선형 회귀	로지스틱 회귀
종속 변수(출력)	연속형 변수	0~1
계수 추정법	최소 제곱법	최대우도추정법(Maximum Likelidhood Estimation)
모형 검정	F-검정, T검정	카이제곱 검정

2. 의사결정나무(Decision Tree)

A. 정의
- 나무 모양으로 그림을 그려 문제를 푸는 방법
- 분류형과 회귀형이 존재함3. 선형 회귀 vs 로지스틱 회귀 분석

B. 예측력과 해석력 이란
- 예측력 : 고객의 수를 예측
- 해석력 : 고객에게 탈락의 이유를 설명하기 위한 해명

C. 의사결정나무 사례
- 분류, 세분화
- 예측
- 차원축소 및 변수 선택 : 예측 변수증 목표변수에 영향을 미치는 변수를 선택
- 교호작용효과의 파악 : 예측 변수를 통해 규칙을 파악
- 범주의 병합 : 범주형 목표변수의 범주를 줄임
- 연속형 변수의 이산화 : 연속형 목표 변수를 이산화

D.장점
- 설명 쉬움
- 계산 복잡 X
- 대용량도 거뜬
- 비정상 데이터에도 강건
- 상관성이 높은 불필요한 변수에도 영향 X
- 수치형 변수 범주형 변수 무관
- 높은 정확도

E. 단점
- 과대적합 가능성 높음 : 새로운 데이터에 반응하지 못할 가능성 높음
- 경계선 부근 자료값에 대한 오차가 큼
- 설명 변수간 중요도 판단이 쉽지 않음

F. Decision Tree의 분석과정
성장 단계 : 최적의 분리규칙(Spliting Rule)을 찾아서 분리한 후, 정지규칙(Stopping Rule)을 만족하면 중단한다. 깊이 지정, 레코드 수의 최소 개수가 Stopping Criterion이 된다.
분류 기준으로는 카이제곱 통게량, 지니지수, 엔트로피 지수를 활용한다.

가지치기(Pruning) : 오차를 크게할 부적절한 추론 규칙을 가지고 있거나 불필요한 가지를 잘라내기한다. 자료가 일정 수 이하이면 분할을 정지하고 Cost Complexity Pruning 을 이용하여 가지치기 한다.

타당성 평가 : Gain Chart, Risk Chart, 시험자료를 이용하여 의사결정 나무를 평가하는 단계
해석 및 예측 단계 : 구축된 나무 모형을 해석하고 예측모형을 설정하여 적용하는 단계

G. 의사결정 알고리즘
G-1. CART(Classification and Regression Tree)
- 불순도를 측도(출력변수 범주형) : 지니변수
- 불순도를 측도(출력변수 연속형) : 이진분리
- 변수들 간의 선형 결합들 중에서 최적의 분리를 찾을 수 있음

G-2. C4.5와 C5.0
- 다지 분리(Multiple Split)이 가능
- 불순도 측도 : 엔트로피

G-4 CHAID(CHi-squared Automatic Interaction Detection)
- 적당한 크기에서 성장을 중지, 입력 변수가 반드시 범주형
- 불순도 측도 : 카이제곱 통계량

저작자표시 (새창열림)

'데이터 분석 전문가(ADP, ADSP) > 데이터 분석 개념' 카테고리의 다른 글

[ADsp 정리] 3-4-1. 통계 분석 (0)	2020.11.30
[ADsp 정리] 3-4-4. 다차원척도(MDS),주성분 분석(PCA) (0)	2020.11.27
[ADsp 정리] 3-5-5. 군집 분석(Clustering Analysis) (0)	2020.11.26
[ADsp 정리] 3-5-1. 정형 데이터 마이닝 (0)	2020.11.21
[ADsp 정리] 3-1-1 데이터 분석 개요 (0)	2020.11.20

머신런닝 딥러닝

[ADsp 정리] 3-5-2. 분류 분석(Decision Tree)

[ADsp 정리] 3-5-2. 분류 분석(Decision Tree)

'데이터 분석 전문가(ADP, ADSP) > 데이터 분석 개념' 카테고리의 다른 글

+ Recent posts

티스토리툴바