반응형

[ADsp 정리] 3-5-5. 군집 분석(Clustering Analysis)

 

1. 정의
- 유사성이 높은 대상을 분류하는 기법
- classification과의 차이점은 정답이 미리 정해져 있지 않는다는 점에서 차이가 존재
- 요인 분석 : 유사한 변수를 묶는 것
- 판별 분석 : 사전에 집단이 나누어져 있는 자료를 통해 새로운 데이터를 집단에 할당  
2. 거리
2-1. 연속형 변수
A. 유클리디안 거리(Euclidean Distance)
- 일반적인 거리 공식으로 변수들의 산포 정도를 포함하고 있지 않음 

B. 표준화 거리(Statistical Distance)
- 표준 편차로 척도 변환 후, 유클리디안 거리 사용

C. 마할라노비스거리(Mahalanobis)
- 데이터의 산포를 고려한 표준화 거리 기법이다. 두 벡터 사이의 거리를 표준공분산으로 나우어야 함

D. 체비셰프 거리 (Chebychev)
- 가장 절대갑 거리가 큰 것을 이르는 것max(abs(x-y))

E. 맨해탄 거리 (Manhattan)
- abs거리의 총 합

F.   캔버라 거리(Canberra)
- 거리의 차이/ 거리의 합

G.  민코우스키 거리(Minkowski)
- 맨하탄과 유클리디안을 한번에 표현
- L2 - 유클리디안 거리 (root(sqrt))
- L1 - 맨하탄 거리 (ABS)

2-2. 범주형 변수
A. 자카드 계수
IoU와 마찮가지로 교집합/ 합집합을 의미한다.

B. 자카드 거리
1- 자카드 계수 

C. 코사인 유사도(Cosine Similarity)
- np.dot(a,b)/ sqrt(root(a)) x sqrt(root(b))

D. 코사인 거리
- 1 - 코사인 유사도
3. 계층적 군집 분석 
3.1 정의
- 계층적 군집 방법은 n개의 군집으로 시작해 점차 군집의 개수를 줄여가는 방법

3.2 방법
- 합병형 방법(Agglomerative / Bottom Up) : 여러개의 군비에서 점차 줄여나감
- 분리형 방법(Divisive / Top Down) : 한개에서 여러개로 군집수를 늘림

3.3 종류
A. 최단 연결법(Single Linkage / Nearest Neighbor)
- 군집과 군집 혹은 굱집과 데에터와의 거리를 계산 시, 최단거리로 계산하여 거리행렬 수정 진행

B.  최장 연결법(Complete Linkage/ Farthest Neighbor)
- 군집과 군집 혹은 굱집과 데에터와의 거리를 계산 시, 최장거리로 계산하여 거리행렬 수정 진행


C. 평균 연결법(Average Linkage)
- 군집과 군집 혹은 굱집과 데에터와의 거리를 계산 시, 평균거리로 계산하여 거리행렬 수정 진행


D. 와드 연결법(Ward Linkage)
- 군집내 편차의 제곱을 고려/ 군집간 손실을 최소

3.4. 군집화 방법
- 텐드로그램 을 그리고 가로 선을 그어 군집의 갯수를 선택할 수  있다. 
4. 비게층적 군집 분석
k개의 군집으로 나누느 방법

A. K-평균 군집 분석(K-Means Clustering) 
- k개의 클러스터로 묶는 알고리즘으로, 클러스터와 거리의 차이를 최소화하는 방식으로 동작
- 원하는 군집의 개수와 초기 값(Seed)를 정하여 군집을 형성하며 계속해서 Seed의 값을 업데이트 하는 것이다. 

B. K-평균 군집분석의 장단점
B-1 장점
- 단순하여 빠르게 수행
- 많은 양의 데이터 가능
- 사전 정보가 업어도 의미있는 정보 가능
- 다양한 데이터에 가능

B-2 단점
- 군집의 수와 SEED 초기 위치, 가중치 정의가 어려움
- 잡음에 영향이 큼
5. 혼합 분포 군집(Mixture Distribution Clustering
5-1. 정의
- 모델 기반(Model Based) 군집화 방법으로 k개의 모형 중 어느 모형에서 나왔는지 확률에 따라 분류
- 가중치의 추정에는 EM 알고리즘 사용

5-2. 데이터의 형태
- 여러개의 정규분포의 결합 형태를 띄는 것에 적합

5-3. EM(Expectation - Maximmization)  알고리즘
- 각 자료의 z 조건부분포로 부터 조건부 기댓값 계산
- E 단계 : z 의 기대치 계산
- M 단계 : E단계를 이용하여 파라미터 추정
- 확률 분포를 도입하여 군집을 수행하며, 서로 다른 크기의 모양과 크기의 군집을 찾을 수 있음
- 군집의 크기가 너무 작으면 추정의 정도가 떨어지며, 너무 크면 수렴에 시간이 걸림
- K-Means처럼 이상치에 민감함
6. SOM(Self Organizing Map)
A. 정의
- 자가 조직화 지도(SOM)은 코호넨 맵이라고도 함
- 비지도 신경망으로 고차원 데이터를 저차원 뉴런으로 정렬 

B. 구성
B-1. 입력층(Input Layer)
- 입력 개수와 동일한 뉴런의 개수
- 입력층 자료가 학습을 통하여 경쟁층에 정렬되며 이를 map이라 함
- 입력층과 경쟁층은 Fully Connected 되어 있음 

B-2. 경쟁층(Competitive Layer)
- 2차원 격자로 구성됨

B-3 학습 방법
- 경쟁학습을 통해 각 뉴런이 입력 벡터와 얼마나 가까운지 연결 강도(Connective Weight)를 반복 재조정하여 연결 강도(Connective Weight)가 입력 과 가장 유사한 경쟁층 뉴련 형성
- 입력층에 가장 가까운 프로토타입 벡터를 선택하여 BMU(Best-Matcghing Unit) 라고 하며, 학습 규칙에 따라 (topological negihbors)에 대한 연결 강도를 조정
- 승자 뉴런만이 나타나, 승자와 유사한 연결 강도를 갖는 입력 패턴이 동일한 경쟁 뉴련으로 배열됨 

C. 인공 신경망 vs SOM(Self Organizing Map)
인공 신경망 
학습 방법 : Backpropagation 사용
구성 : 입력층, 은닉층, 출력층
학습 분류 : 지도학습

SOM(Self Organizing Map)
학습 방법 : 경쟁학습아법
구성 : 입력층, 2차원 격자 형태의 경쟁층
학습 분류 : 비지도 학습

D. 특징
- 지도 형태로 형상화하여 시각화 및 이해 쉬움
- 입력 변수의 위치 관계를 보존하여 실제 데이터가 유사하면 지도상에 가깝게 표현됨
- 패턴 발견, 이미지 분석에 뛰어남 
- Backpropagation을 사용하지 않고, 전방패스(Feed Foward Flow) 를 사용하여 속도가 빠르며, 실시간 학습 가능 
반응형
반응형

[ADsp 정리] 3-5-2. 분류 분석(Decision Tree)

 

1. 분류 분석 vs 예측 분석
1. 분류 분석
- Clustering과 유사하지만, 각 그룹이 정해져 있어서 지도학습에 속한다. 
- 범주형 값을 맞추는 것
- 반응 변수가 범주형인(Classification) 경우 적용되는 회귀 분석 모형 Regression Analysis Model
- 모형의 적합을 통해 추정된 확률을 사후확률(Posterior Probability)라고 함
- 통계학에서 로지스틱 분포로 Sigmoid를 주로 사용한다

2.  예측 분석
- 한개의 설명 변수를 갖는 것
- 연속형 속성의 값을 맞추는 것

   선형 회귀  로지스틱 회귀
종속 변수(출력) 연속형 변수 0~1
계수 추정법 최소 제곱법 최대우도추정법(Maximum Likelidhood Estimation)
모형 검정 F-검정, T검정 카이제곱 검정

 

2. 의사결정나무(Decision Tree)
A. 정의
- 나무 모양으로 그림을 그려 문제를 푸는 방법
- 분류형과 회귀형이 존재함3. 선형 회귀 vs 로지스틱 회귀 분석

B. 예측력과 해석력 이란
- 예측력 : 고객의 수를 예측 
- 해석력 : 고객에게 탈락의 이유를 설명하기 위한 해명

C. 의사결정나무 사례
- 분류, 세분화
- 예측
- 차원축소 및 변수 선택 : 예측 변수증 목표변수에 영향을 미치는 변수를 선택
- 교호작용효과의 파악 : 예측 변수를 통해 규칙을 파악 
- 범주의 병합 : 범주형 목표변수의 범주를 줄임
- 연속형 변수의 이산화 : 연속형 목표 변수를 이산화 

D.장점
- 설명 쉬움
- 계산 복잡 X
- 대용량도 거뜬
- 비정상 데이터에도 강건
- 상관성이 높은 불필요한 변수에도 영향  X
- 수치형 변수 범주형 변수 무관
- 높은 정확도

E. 단점
- 과대적합 가능성 높음 : 새로운 데이터에 반응하지 못할 가능성 높음
- 경계선 부근 자료값에 대한 오차가 큼
- 설명 변수간 중요도 판단이 쉽지 않음 


F. Decision Tree의 분석과정
성장 단계 :  최적의 분리규칙(Spliting Rule)을 찾아서 분리한 후, 정지규칙(Stopping Rule)을 만족하면 중단한다. 깊이 지정, 레코드 수의 최소 개수가 Stopping Criterion이 된다.
분류 기준으로는 카이제곱 통게량, 지니지수, 엔트로피 지수를 활용한다.   

가지치기(Pruning) : 오차를 크게할 부적절한 추론 규칙을 가지고 있거나 불필요한 가지를 잘라내기한다. 자료가 일정 수 이하이면 분할을 정지하고 Cost Complexity Pruning 을 이용하여 가지치기 한다. 

타당성 평가 : Gain Chart, Risk Chart, 시험자료를 이용하여 의사결정 나무를 평가하는 단계
해석 및 예측 단계 : 구축된 나무 모형을 해석하고 예측모형을 설정하여 적용하는 단계

G. 의사결정 알고리즘
G-1. CART(Classification and Regression Tree)
- 불순도를 측도(출력변수 범주형) :  지니변수
- 불순도를 측도(출력변수 연속형) :  이진분리 
- 변수들 간의 선형 결합들 중에서 최적의 분리를 찾을 수 있음

G-2. C4.5와 C5.0
- 다지 분리(Multiple Split)이 가능
- 불순도 측도 : 엔트로피

G-4 CHAID(CHi-squared Automatic Interaction Detection)
- 적당한 크기에서 성장을 중지, 입력 변수가 반드시 범주형
- 불순도 측도 : 카이제곱 통계량 
반응형
반응형

[ADsp 정리] 3-5-1. 정형 데이터 마이닝

 1. 데이터 마이닝  
1.1 의미
-  대용량의 데이터에서 특징 및 패턴을 찾아 의사결정에 활용하는 방버
- 통계적 분석은 분석이나 검증을 수행하지만, 의미있는 정보를 찾는다는 점에서 차이가 존재함

1.2 정보를 찾는 방법에 따른 종류
- Aritifical Intelligence, Decision Tree, K mean clustering, 연관분석, 회귀 분석, 로짓 분석, Nearest Neighborhood
2. 지도학습 및 비지도학습 분류
2.1 지도 학습
Decision Tree, Artificial Neural Network,  일반화 선형 모델, 회귀 분석, 로지스틱 회귀분석, 사례기반 추론, K-Nearest Neighbor

2.2 비지도 학습
OLAP(On-Line Analytical Processing), 연관성 규칙발견, 군집 분석( K-Mean Clustering), SOM(Self Organizing Map)
3. 분석 목적에 따른 유형 분류
2.1 예측 모델링
 Classification : 회귀 분석, 판별분석, 신경망, 의사 결정 나무
2.2 설명 모델링
연관규칙 : 항목간 연관 규칙
연속규칙 : 시간 정보 포함
데이터 군집화 : 그룹 분할 
4. 데이터 마이닝 단계
목적 설정 -> 데이터 준비 -> 데이터 가공 -> 데이터마이닝 기법 적용 -> 검증
5. 데이터 마이닝을 위한 데이터 분할
5.1. Training data : 50%
모델을 훈련시킬 때 사용

5.2 Validation data : 30%
모델의 성능을 검증할 때 활용

5.3 Test data : 20%

5.4 데이터 양이 충분치 않을 경우
홀드 아웃(Hold Out) : Training data, Test data 만 나누어 사용
교차 확인(Cross Validation ) : k fold cross validation 라고하며 10-fold 교차분석을 주로 사용한다.
주어진 데이터를 k개로 나눈 후, k-1집단을 학습, 나머지는 검증용으로 사용하여 k번 반복 측정 후, 평균을 내는 방법 
 6. 성과 분석
  Positive(Condition) Negative(Condition)  
Positive(Predict) TP(True Positive)
옳은 검출
FP(False Positive)
틀린 검출
Precision(정확도)

Negatice(Predict) FN(False Negative)
검출되어야 하는데 검출 X
TN(True Negative)
검출안되야 하는데 검출 X
X
  Sensitive(민감도) 
Recall(재현율)
Specificity(특이도)  
1) 정분류율(Accuracy)
Accuracy = (TP+TN)/(TP+TN+FP+FN) 

2) 오분류율(Error Rate)
1-Accuracy = (FP+FN)/(TP+TN+FP+FN)

3) 특이도(Specificity)
True Negative Rate = TN / (TN+FP)

4) 재현율(Recall) / 민감도(Sensitivity), 
True Positive Rate = TP/(TP+FN)

5) 정확도(Precision)
Precision = TP/(TP+FP)

6) 재현율(Recall)
Recall = TP/(TP+FN)

7) F1 Score
F1 = 2 x (Precision x Recall)/ (Precision+Recall)

8) 평가 방법
A. ROC Curve (Receiver Operating Characteristic Curve)
- ROC Curve란 가로축 FPR(False Positive Rate = 1- 특이도), 세로축 TPR(True Positive Rate, 민감도) 도 시각화
- 2진 분류에 사용되며, ROC의 면적을 나타내는 AUROC(Area Under ROC)값이 클수록 모형의 성능이 좋음 
- TPR은 True인 케이스를 True로 예측한 비율
- False 케이스를 True 로 잘못 예측한 비율이다.  
- AUROC의 면적이 정확도 판단 기준은 0.9~1 : Exellent, 0.8~0.9 : Good, 0.7~0.8 :Fair, 0.6~0.7:Poor, 0.5~0.6:Fail 

B. mAP(mean Average Precision) 
- Object Detection에서 map라는 지표를 사용하여 정답을 판단한다. 
- IoU(Intersection Over Union)가 0.5 이상일 경우 TP, 이하일 경우 FP라고 한다.
- IoU는 예측한 면적과 Ground Truth면적의 교집합/ 합집합 이다. 
- Object Detcion에서는 Precision 과 Recall 값을 활용하여 PR곡선을 그릴 수 있다. 
- Confidence Level의 Threshold 값을 변화시켜가면 x축에는 Recall , y축에는 Precision을 그리면 된다.  
- PR곡선의 면적을 게산하면 Average Precision를 구할 수 있다. 
- 각 객체의 AP를 다 더한 다음 클래스 수만큼 나누면 MAP(Mean Average Precision)를 계산할 수 있다.  
7. 과적합(Overfitting), 과소 적합(Underfitting), 일반화(Generalization) 
A.과적합(Overfitting)
- 과하게 학습하여 다른 데이터에 대해서 제대로 대응하지 못하는 현상
B. 과소적합(Underfitting)
- 경향은 맞지만 지나치게 일반화 됨
C. 일반화(Generalization)
- 과적합도 과소적합도 아니므로, 새로운 데이터가 들어와도 잘 예측함

 

반응형
반응형

[ADsp 정리] 3-1-1 데이터 분석 개요

 

소개 
- 데이터 분석 단원에서는 데이터 분석 개요/ R프로그래밍/ 데이터 마트/ 데이터데이터 마이닝/ 통계적 분석 을 다룸 
요약 
- 데이터 분석 소단원에서는 데이터 처리 프로세스, 시각화 기법, 공간 분석, 탐색적 자료 분석 이해 필요
1. 데이터 처리 
1.1 데이터 
- 일반적으로 대기업은 데이터 웨어하우스(DW), 데이터 마트(DM) 에서 데이터를 가져와 사용 
- 데이터 웨어하우스(DW)에 없는 자료는 기존 운영시스템(Leagacy), 스테이징 영역(staging area), ODS(Operational Data Store)에서 데이터를 가져옴
- 스테이징 영역(staging area)의 데이터는 임시 데이터이므로 가급적 ODS(Operational Data Store)의 데이터를 가공하여 DW 혹은  DM과 같이 혼합하여 사용 

1.2 데이터 처리 순서
- Legacy -> Staging -> ODS -> DW -> DM -> SAS(Static Analysis System)

1.3 데이터 가공 방법
- 데이터 마이닝 분류
- 정형화된 패턴 처리(비정형 데이터, 관계형 데이터)
  -> 텍스트와 같은 비정형 데이터는 텍스트 마이닝을 거쳐 데이터 마트와 통합
  -> 관계형 데이터의 분석 결과를 데이터 마트와 통합하여 사용 

1.3 용어 정리 
DW - 데이터 웨어하우스 (Data Warehous)
DM - 데이터 마트(Data Mart)
Legacy - 유산이라는 의미로 기존 운영시스템을 의미
Staging Area - 스테이징 영역은 임시적인 데이터
ODS -  운영 데이터 저장소로 클렌징하여 사용 필요 

 

2. 시각화(Visualization)
가장 낮은 수준의 분석 기법으로 가장 기본이며 효율적
3.  공간분석(GIS/Geographic Information System)
지도위에 속성을 생성하여, 크기, 선, 모야 등을 통하여 관련된 속성을 시각화하는 기법
4. 탐색적 자료분석(EDA/Exploratory Data Analysis) 
- 특이점을 찾아 분석하는 과정으로 구조적 관계를 알아보는 기법들을 통칭한다
- 프린스톤 대학의 튜키교수가 1977년에 저서 발표
- 저향성의 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통한 현시성
- 데이터이해, 변수 생성, 변수 선택에 활용
5. 통계분석(Statistics Analysis)
5-1 통계 (Statistics)
- 숫자, 표, 그림의 형태로 나타내는 것

5-2 기술 통계 (Descriptive Statistics)
- 모집단에서 표본을 추출하고 표본의 통계를 내는 것

5-3. 추측 통계(Inferential Statistics)
- 표본의 표본통계량으로 모집단의 특성을 추론하는 절차

5-4 사례
- 정부의 통계를 위한 설문조사, 기업의 설문조사, 시험 결과, 선수들의 평가, 경영 관리
6. 데이터 마이닝
6-1 정의
- 대용량의 데이터로 미래를 예측하는 것을 목표로 관계, 패턴, 규칙을 탐색하고 모형화하여 이전에 알려지지 않은 새로운 지식을 추출하는 분석 방법

6.2. 방법론
- 데이터베이스의 지식 탐색 : 데이터웨어하우스에서 데이터 마트를 생성할 때, 데이터의 분석을 통해 지식을 얻는 방법
- 기계학습 : 컴퓨터가 학습할 수 있도록 기술을 개발(인공신경망, svm 등)
- 패턴 인식 : 사전지식과 통계정보를 기반으로 패턴을 분석하는 방법 

6.3 사례
- 텍스트 마이닝, 마케팅, 주식 등 

 

반응형

+ Recent posts