반응형

[4과목 데이터 분석 소개] 데이터 분석 소개

1. 데이터 마이닝 개념

- 빅데이터 속에서 유용한 정보를 찾아내는 과정이며, 새로운 정보를 발견하고 의사결정에 활용하는 일련의 작업
-  입력 값은 독립 변수, 출력은 종속 변수 혹은 반응 변수라고 한다. 데이터 마이닝은 독립변수에 따른 종속변수가 어떻게 나오는지 모델링하는 것이라고 할 수 있다. .

2. 데이터 마이닝 분석 방법

- 지도학습은 정답이 있는 것을 학습시키는 방식이며, 의사결정나무, 인공신경망, 회귀 분석, 로지스틱 회귀분석 등이 있다. 
- 이러한 지도학습은 분류(Classification) 과 예측(Regression) 문제로 나뉜다.
- 비지도학습은 정답이 없는 것을 학습하는 것이며, 군집분석, 연관성 분석이 이에 해당한다. 

3. 의사결정나무

- 소집단으로 분류하거나 예측 수행하는 분석
- 시각화가 가능하여 성과를 한눈에 볼 수 있다.
- 분류나무 회귀 나무가 존재한다. 

- iris의 경우 꽃잎의 길이와 넓이에 따라 품종을 classification 할 수 있다. 
- 의사결정 나무에서 Overfitting이 발생하지 않도록 가지치기(Prunning) 을 수행해야 한다.
- 결과에 노이즈가 끼지 않고  잡음 데이터에 민감함 없이 분류할 수 있다는 장점이 있다. 

 

참조

https://www.youtube.com/watch?v=yTDtSxzOeFw

 

 

반응형

+ Recent posts