반응형

[개념 설명]  Object Detection 평가 방법[1]

 

오분류에 대한 추정치

  Condition Positive Condition Negative  
Predict Positive True Poisitive(TP) False Positive(FP) Precision(정확도)
Predict Negative False Negative(TN) True Negative(TN) x
  Sensitive,Recall(민감도, 재현율) Specificity(특이도)  

 

내용

- Accuracy(정분류율)
a. 있는 건 있고 없는 건 없다고 할 확률, 있는거과 없는 것 모두 맞출 확률
b. (TP+TN)/(TP+TN+FP+FN)

- Error Rate 오 분류율)

a. 없는 걸 있다고 하고 있는 걸 없다고 할 확률, 다 틀릴 확률
b. (FP+FN)/(TP+TN+FP+FN)

- Specificity(특이도)
a.물체가 없는 상황에서  물체가 없는데 없다고 할 확률 (True Negative Rate)
b. (TN)/(FP+TN)

 

- 민감도(Sensitivity), 재현율(Recall)  (True Positive Rate)
a.  물체가 있는 상황에서 물체가 있는데 있다고 할 확률
b. (TP)/(TP+FN)

- Precision(정확도)
a. 물체가 있든 없든 있다고 할 롹률
b. TP/(TP+FP)

- F1 Score
a. 2 x (Precision x Recall) / (Precision+Recall)

 느낀점

- 오분류에 대한 추정치의 이름으로 TP,TN,FP,FN 로 나눈다. 앞의 True,Faslse는 예측과 정답이 일치하는지를 판단하는 것이며 뒤의 Positivie와 Negative는 예측값이 무엇인지를 의미한다.
- YOLO의 경우 RCNN에 비하여 mAP는 떨어지지만 False Positive 의 성능은 좋다고 하는데 이는 예측했다고 하지만 실제로는 없는 경우를 의미하며, YOLO는 전체 이미지를 보고 예측을 하기 때문에 아닌데 맞다고 하는 것이 적다는 것을 의미한다.
- 이에, Object Detection 을 단순히 정확도만을 보고 비교하면 안되며, 틀렸는데 맞다고 한 비율 등 모든 것을 고려할 필요가 있다.
- 정확도를 Accuracy 로 생각하고 있었다. 하지만 정확도란 Precision을 의미하며 Accuracy와 Precision은 어면히 의미가 다르다.

 

 

 

반응형
반응형

[ADsp 정리] 3-5-1. 정형 데이터 마이닝

 1. 데이터 마이닝  
1.1 의미
-  대용량의 데이터에서 특징 및 패턴을 찾아 의사결정에 활용하는 방버
- 통계적 분석은 분석이나 검증을 수행하지만, 의미있는 정보를 찾는다는 점에서 차이가 존재함

1.2 정보를 찾는 방법에 따른 종류
- Aritifical Intelligence, Decision Tree, K mean clustering, 연관분석, 회귀 분석, 로짓 분석, Nearest Neighborhood
2. 지도학습 및 비지도학습 분류
2.1 지도 학습
Decision Tree, Artificial Neural Network,  일반화 선형 모델, 회귀 분석, 로지스틱 회귀분석, 사례기반 추론, K-Nearest Neighbor

2.2 비지도 학습
OLAP(On-Line Analytical Processing), 연관성 규칙발견, 군집 분석( K-Mean Clustering), SOM(Self Organizing Map)
3. 분석 목적에 따른 유형 분류
2.1 예측 모델링
 Classification : 회귀 분석, 판별분석, 신경망, 의사 결정 나무
2.2 설명 모델링
연관규칙 : 항목간 연관 규칙
연속규칙 : 시간 정보 포함
데이터 군집화 : 그룹 분할 
4. 데이터 마이닝 단계
목적 설정 -> 데이터 준비 -> 데이터 가공 -> 데이터마이닝 기법 적용 -> 검증
5. 데이터 마이닝을 위한 데이터 분할
5.1. Training data : 50%
모델을 훈련시킬 때 사용

5.2 Validation data : 30%
모델의 성능을 검증할 때 활용

5.3 Test data : 20%

5.4 데이터 양이 충분치 않을 경우
홀드 아웃(Hold Out) : Training data, Test data 만 나누어 사용
교차 확인(Cross Validation ) : k fold cross validation 라고하며 10-fold 교차분석을 주로 사용한다.
주어진 데이터를 k개로 나눈 후, k-1집단을 학습, 나머지는 검증용으로 사용하여 k번 반복 측정 후, 평균을 내는 방법 
 6. 성과 분석
  Positive(Condition) Negative(Condition)  
Positive(Predict) TP(True Positive)
옳은 검출
FP(False Positive)
틀린 검출
Precision(정확도)

Negatice(Predict) FN(False Negative)
검출되어야 하는데 검출 X
TN(True Negative)
검출안되야 하는데 검출 X
X
  Sensitive(민감도) 
Recall(재현율)
Specificity(특이도)  
1) 정분류율(Accuracy)
Accuracy = (TP+TN)/(TP+TN+FP+FN) 

2) 오분류율(Error Rate)
1-Accuracy = (FP+FN)/(TP+TN+FP+FN)

3) 특이도(Specificity)
True Negative Rate = TN / (TN+FP)

4) 재현율(Recall) / 민감도(Sensitivity), 
True Positive Rate = TP/(TP+FN)

5) 정확도(Precision)
Precision = TP/(TP+FP)

6) 재현율(Recall)
Recall = TP/(TP+FN)

7) F1 Score
F1 = 2 x (Precision x Recall)/ (Precision+Recall)

8) 평가 방법
A. ROC Curve (Receiver Operating Characteristic Curve)
- ROC Curve란 가로축 FPR(False Positive Rate = 1- 특이도), 세로축 TPR(True Positive Rate, 민감도) 도 시각화
- 2진 분류에 사용되며, ROC의 면적을 나타내는 AUROC(Area Under ROC)값이 클수록 모형의 성능이 좋음 
- TPR은 True인 케이스를 True로 예측한 비율
- False 케이스를 True 로 잘못 예측한 비율이다.  
- AUROC의 면적이 정확도 판단 기준은 0.9~1 : Exellent, 0.8~0.9 : Good, 0.7~0.8 :Fair, 0.6~0.7:Poor, 0.5~0.6:Fail 

B. mAP(mean Average Precision) 
- Object Detection에서 map라는 지표를 사용하여 정답을 판단한다. 
- IoU(Intersection Over Union)가 0.5 이상일 경우 TP, 이하일 경우 FP라고 한다.
- IoU는 예측한 면적과 Ground Truth면적의 교집합/ 합집합 이다. 
- Object Detcion에서는 Precision 과 Recall 값을 활용하여 PR곡선을 그릴 수 있다. 
- Confidence Level의 Threshold 값을 변화시켜가면 x축에는 Recall , y축에는 Precision을 그리면 된다.  
- PR곡선의 면적을 게산하면 Average Precision를 구할 수 있다. 
- 각 객체의 AP를 다 더한 다음 클래스 수만큼 나누면 MAP(Mean Average Precision)를 계산할 수 있다.  
7. 과적합(Overfitting), 과소 적합(Underfitting), 일반화(Generalization) 
A.과적합(Overfitting)
- 과하게 학습하여 다른 데이터에 대해서 제대로 대응하지 못하는 현상
B. 과소적합(Underfitting)
- 경향은 맞지만 지나치게 일반화 됨
C. 일반화(Generalization)
- 과적합도 과소적합도 아니므로, 새로운 데이터가 들어와도 잘 예측함

 

반응형

+ Recent posts