반응형
[ADsp 정리] 3-5-1. 정형 데이터 마이닝
1. 데이터 마이닝
1.1 의미
- 대용량의 데이터에서 특징 및 패턴을 찾아 의사결정에 활용하는 방버
- 통계적 분석은 분석이나 검증을 수행하지만, 의미있는 정보를 찾는다는 점에서 차이가 존재함
1.2 정보를 찾는 방법에 따른 종류
- Aritifical Intelligence, Decision Tree, K mean clustering, 연관분석, 회귀 분석, 로짓 분석, Nearest Neighborhood
2. 지도학습 및 비지도학습 분류
2.1 지도 학습
Decision Tree, Artificial Neural Network, 일반화 선형 모델, 회귀 분석, 로지스틱 회귀분석, 사례기반 추론, K-Nearest Neighbor
2.2 비지도 학습
OLAP(On-Line Analytical Processing), 연관성 규칙발견, 군집 분석( K-Mean Clustering), SOM(Self Organizing Map)
3. 분석 목적에 따른 유형 분류
2.1 예측 모델링
Classification : 회귀 분석, 판별분석, 신경망, 의사 결정 나무
2.2 설명 모델링
연관규칙 : 항목간 연관 규칙
연속규칙 : 시간 정보 포함
데이터 군집화 : 그룹 분할
4. 데이터 마이닝 단계
목적 설정 -> 데이터 준비 -> 데이터 가공 -> 데이터마이닝 기법 적용 -> 검증
5. 데이터 마이닝을 위한 데이터 분할
5.1. Training data : 50%
모델을 훈련시킬 때 사용
5.2 Validation data : 30%
모델의 성능을 검증할 때 활용
5.3 Test data : 20%
5.4 데이터 양이 충분치 않을 경우
홀드 아웃(Hold Out) : Training data, Test data 만 나누어 사용
교차 확인(Cross Validation ) : k fold cross validation 라고하며 10-fold 교차분석을 주로 사용한다.
주어진 데이터를 k개로 나눈 후, k-1집단을 학습, 나머지는 검증용으로 사용하여 k번 반복 측정 후, 평균을 내는 방법
6. 성과 분석
Positive(Condition) | Negative(Condition) | ||
Positive(Predict) | TP(True Positive) 옳은 검출 |
FP(False Positive) 틀린 검출 |
Precision(정확도) |
Negatice(Predict) | FN(False Negative) 검출되어야 하는데 검출 X |
TN(True Negative) 검출안되야 하는데 검출 X |
X |
Sensitive(민감도) Recall(재현율) |
Specificity(특이도) |
1) 정분류율(Accuracy)
Accuracy = (TP+TN)/(TP+TN+FP+FN)
2) 오분류율(Error Rate)
1-Accuracy = (FP+FN)/(TP+TN+FP+FN)
3) 특이도(Specificity)
True Negative Rate = TN / (TN+FP)
4) 재현율(Recall) / 민감도(Sensitivity),
True Positive Rate = TP/(TP+FN)
5) 정확도(Precision)
Precision = TP/(TP+FP)
6) 재현율(Recall)
Recall = TP/(TP+FN)
7) F1 Score
F1 = 2 x (Precision x Recall)/ (Precision+Recall)
8) 평가 방법
A. ROC Curve (Receiver Operating Characteristic Curve)
- ROC Curve란 가로축 FPR(False Positive Rate = 1- 특이도), 세로축 TPR(True Positive Rate, 민감도) 도 시각화
- 2진 분류에 사용되며, ROC의 면적을 나타내는 AUROC(Area Under ROC)값이 클수록 모형의 성능이 좋음
- TPR은 True인 케이스를 True로 예측한 비율
- False 케이스를 True 로 잘못 예측한 비율이다.
- AUROC의 면적이 정확도 판단 기준은 0.9~1 : Exellent, 0.8~0.9 : Good, 0.7~0.8 :Fair, 0.6~0.7:Poor, 0.5~0.6:Fail
B. mAP(mean Average Precision)
- Object Detection에서 map라는 지표를 사용하여 정답을 판단한다.
- IoU(Intersection Over Union)가 0.5 이상일 경우 TP, 이하일 경우 FP라고 한다.
- IoU는 예측한 면적과 Ground Truth면적의 교집합/ 합집합 이다.
- Object Detcion에서는 Precision 과 Recall 값을 활용하여 PR곡선을 그릴 수 있다.
- Confidence Level의 Threshold 값을 변화시켜가면 x축에는 Recall , y축에는 Precision을 그리면 된다.
- PR곡선의 면적을 게산하면 Average Precision를 구할 수 있다.
- 각 객체의 AP를 다 더한 다음 클래스 수만큼 나누면 MAP(Mean Average Precision)를 계산할 수 있다.
7. 과적합(Overfitting), 과소 적합(Underfitting), 일반화(Generalization)
A.과적합(Overfitting)
- 과하게 학습하여 다른 데이터에 대해서 제대로 대응하지 못하는 현상
B. 과소적합(Underfitting)
- 경향은 맞지만 지나치게 일반화 됨
C. 일반화(Generalization)
- 과적합도 과소적합도 아니므로, 새로운 데이터가 들어와도 잘 예측함
반응형
'데이터 분석 전문가(ADP, ADSP) > 데이터 분석 개념' 카테고리의 다른 글
[ADsp 정리] 3-4-1. 통계 분석 (0) | 2020.11.30 |
---|---|
[ADsp 정리] 3-4-4. 다차원척도(MDS),주성분 분석(PCA) (0) | 2020.11.27 |
[ADsp 정리] 3-5-5. 군집 분석(Clustering Analysis) (0) | 2020.11.26 |
[ADsp 정리] 3-5-2. 분류 분석(Decision Tree) (0) | 2020.11.22 |
[ADsp 정리] 3-1-1 데이터 분석 개요 (0) | 2020.11.20 |