반응형

[ADsp 정리] 3-5-6. 군집 분석(Clustering Analysis)

 

연관규칙분석(Association Analysis)
1. 개념
- 장바구니분석(Market Basket Analysis) : 장바구니에 무엇이 같이 들어있는지 분석
- 서열분석(Sequence Analysis) : A 다음  B를 고를 것인가

2. 형태
- IF A THEN B 의 형태 

3. 측도
A. 지지도(Support)
- p(a&b)/ p(전체)

B. 신뢰도(Confidence)
- p(a&b)/p(a)

C. 향상도(Lift)
- a를 구매했을 때, b를 구매할 확률이 증가비 이다.
- a와 b가 독립일 경우 향상도는 1이다
p(a&b)/p(a)p(b)

D.  절차
- 처음에는 5%만 잡고 규칙이 도출되는지 보고 다양하게 조절
- 너무 낮은 지지도를 선택하는 것은 리소스가 소모되어 적절치 않음
최소 지지도 결정 -> 최소 지지도 넘는 품목 설정 -> 2가지 품목 집합 생성 -> 반복적 수행으로 빈발품목 집합 써치

E. 연관규칙의 장단점
장점
- 뷔게 이해, 범용성, 간단
단점
- 품목수에 따라 복잡성 증가, 거래량이 적으면 발견 어려움 

F. 순차 패턴(Sequence Analysis)
- 시간 개념이 포함되어 순차적으로 구매할 품목을 찾는 것

2. 최근 연관성 분석
2.1 과거 및 현재
- 과거에 대용량의 경우 분석이 불가능, 시간이 오래걸림
- 최근연관성은 메모리를 효율적으로 사용함
1세대 : Apriori
2세대 : FP-Growth
3세대 : FPV 

품목의 개수 : N -> 갯수를 줄이난 방식이 FP-Growth
부분집합 : 2^N -1 -> 갯수를 줄이는 방식이 Apriori 알고리즘 
연관규칙  3^N- 2^(N+1)+1

2.2 Apriori 알고리즘
- 빈발항목집합(frequent item set)은 최소 지지도보다 큰 지지도를 갖는 품목의 집합
- Apriori는 빈발항목집합(frequent iem set) 의 연관규칙을 찾는 방식
- 낮은 지지도 설정시 아이템의 갯수가 많아 복잡도 증가

2.3 FP-Growth 알고리즘 
- FP-TRee(Frequent Pattern Tree)를 만들어 분할정복 방식을 사용하여 연관규칙을 찾음
- 데이터베이스 스켄 횟수가 apriori보다 작다는 장점이 있음 
반응형
반응형

[ADsp 정리] 3-5-5. 군집 분석(Clustering Analysis)

 

1. 정의
- 유사성이 높은 대상을 분류하는 기법
- classification과의 차이점은 정답이 미리 정해져 있지 않는다는 점에서 차이가 존재
- 요인 분석 : 유사한 변수를 묶는 것
- 판별 분석 : 사전에 집단이 나누어져 있는 자료를 통해 새로운 데이터를 집단에 할당  
2. 거리
2-1. 연속형 변수
A. 유클리디안 거리(Euclidean Distance)
- 일반적인 거리 공식으로 변수들의 산포 정도를 포함하고 있지 않음 

B. 표준화 거리(Statistical Distance)
- 표준 편차로 척도 변환 후, 유클리디안 거리 사용

C. 마할라노비스거리(Mahalanobis)
- 데이터의 산포를 고려한 표준화 거리 기법이다. 두 벡터 사이의 거리를 표준공분산으로 나우어야 함

D. 체비셰프 거리 (Chebychev)
- 가장 절대갑 거리가 큰 것을 이르는 것max(abs(x-y))

E. 맨해탄 거리 (Manhattan)
- abs거리의 총 합

F.   캔버라 거리(Canberra)
- 거리의 차이/ 거리의 합

G.  민코우스키 거리(Minkowski)
- 맨하탄과 유클리디안을 한번에 표현
- L2 - 유클리디안 거리 (root(sqrt))
- L1 - 맨하탄 거리 (ABS)

2-2. 범주형 변수
A. 자카드 계수
IoU와 마찮가지로 교집합/ 합집합을 의미한다.

B. 자카드 거리
1- 자카드 계수 

C. 코사인 유사도(Cosine Similarity)
- np.dot(a,b)/ sqrt(root(a)) x sqrt(root(b))

D. 코사인 거리
- 1 - 코사인 유사도
3. 계층적 군집 분석 
3.1 정의
- 계층적 군집 방법은 n개의 군집으로 시작해 점차 군집의 개수를 줄여가는 방법

3.2 방법
- 합병형 방법(Agglomerative / Bottom Up) : 여러개의 군비에서 점차 줄여나감
- 분리형 방법(Divisive / Top Down) : 한개에서 여러개로 군집수를 늘림

3.3 종류
A. 최단 연결법(Single Linkage / Nearest Neighbor)
- 군집과 군집 혹은 굱집과 데에터와의 거리를 계산 시, 최단거리로 계산하여 거리행렬 수정 진행

B.  최장 연결법(Complete Linkage/ Farthest Neighbor)
- 군집과 군집 혹은 굱집과 데에터와의 거리를 계산 시, 최장거리로 계산하여 거리행렬 수정 진행


C. 평균 연결법(Average Linkage)
- 군집과 군집 혹은 굱집과 데에터와의 거리를 계산 시, 평균거리로 계산하여 거리행렬 수정 진행


D. 와드 연결법(Ward Linkage)
- 군집내 편차의 제곱을 고려/ 군집간 손실을 최소

3.4. 군집화 방법
- 텐드로그램 을 그리고 가로 선을 그어 군집의 갯수를 선택할 수  있다. 
4. 비게층적 군집 분석
k개의 군집으로 나누느 방법

A. K-평균 군집 분석(K-Means Clustering) 
- k개의 클러스터로 묶는 알고리즘으로, 클러스터와 거리의 차이를 최소화하는 방식으로 동작
- 원하는 군집의 개수와 초기 값(Seed)를 정하여 군집을 형성하며 계속해서 Seed의 값을 업데이트 하는 것이다. 

B. K-평균 군집분석의 장단점
B-1 장점
- 단순하여 빠르게 수행
- 많은 양의 데이터 가능
- 사전 정보가 업어도 의미있는 정보 가능
- 다양한 데이터에 가능

B-2 단점
- 군집의 수와 SEED 초기 위치, 가중치 정의가 어려움
- 잡음에 영향이 큼
5. 혼합 분포 군집(Mixture Distribution Clustering
5-1. 정의
- 모델 기반(Model Based) 군집화 방법으로 k개의 모형 중 어느 모형에서 나왔는지 확률에 따라 분류
- 가중치의 추정에는 EM 알고리즘 사용

5-2. 데이터의 형태
- 여러개의 정규분포의 결합 형태를 띄는 것에 적합

5-3. EM(Expectation - Maximmization)  알고리즘
- 각 자료의 z 조건부분포로 부터 조건부 기댓값 계산
- E 단계 : z 의 기대치 계산
- M 단계 : E단계를 이용하여 파라미터 추정
- 확률 분포를 도입하여 군집을 수행하며, 서로 다른 크기의 모양과 크기의 군집을 찾을 수 있음
- 군집의 크기가 너무 작으면 추정의 정도가 떨어지며, 너무 크면 수렴에 시간이 걸림
- K-Means처럼 이상치에 민감함
6. SOM(Self Organizing Map)
A. 정의
- 자가 조직화 지도(SOM)은 코호넨 맵이라고도 함
- 비지도 신경망으로 고차원 데이터를 저차원 뉴런으로 정렬 

B. 구성
B-1. 입력층(Input Layer)
- 입력 개수와 동일한 뉴런의 개수
- 입력층 자료가 학습을 통하여 경쟁층에 정렬되며 이를 map이라 함
- 입력층과 경쟁층은 Fully Connected 되어 있음 

B-2. 경쟁층(Competitive Layer)
- 2차원 격자로 구성됨

B-3 학습 방법
- 경쟁학습을 통해 각 뉴런이 입력 벡터와 얼마나 가까운지 연결 강도(Connective Weight)를 반복 재조정하여 연결 강도(Connective Weight)가 입력 과 가장 유사한 경쟁층 뉴련 형성
- 입력층에 가장 가까운 프로토타입 벡터를 선택하여 BMU(Best-Matcghing Unit) 라고 하며, 학습 규칙에 따라 (topological negihbors)에 대한 연결 강도를 조정
- 승자 뉴런만이 나타나, 승자와 유사한 연결 강도를 갖는 입력 패턴이 동일한 경쟁 뉴련으로 배열됨 

C. 인공 신경망 vs SOM(Self Organizing Map)
인공 신경망 
학습 방법 : Backpropagation 사용
구성 : 입력층, 은닉층, 출력층
학습 분류 : 지도학습

SOM(Self Organizing Map)
학습 방법 : 경쟁학습아법
구성 : 입력층, 2차원 격자 형태의 경쟁층
학습 분류 : 비지도 학습

D. 특징
- 지도 형태로 형상화하여 시각화 및 이해 쉬움
- 입력 변수의 위치 관계를 보존하여 실제 데이터가 유사하면 지도상에 가깝게 표현됨
- 패턴 발견, 이미지 분석에 뛰어남 
- Backpropagation을 사용하지 않고, 전방패스(Feed Foward Flow) 를 사용하여 속도가 빠르며, 실시간 학습 가능 
반응형
반응형

[ADsp 정리] 3-5-4. 인공신경망(Artificial Neural Network)

정의
- 인간의 뇌를 기반으로 추론하는 모델 
- 가중치를 반복적으로 조정하여 학습
- 인공신경망은 가중치를 초기화 하고 훈련 데이터를 통해 가중치를 갱신하여 학습 함
특징 
-  입력 신호에서 여러 신호를 받아 활성화 수준을 계산하여 출력 링크로 신호를 보내는 과정
-  뉴련은 활성화 함수(Activation Funtion)을 사용한다.
-  Sigmoid Function : 이진 분류, SoftMax Funtion : 다중 분류, Relu함수 Hidden Layer에 자주 쓰이는 활성화함수
신경망 모형 구축시 고려사항
A) 입력 변수
- 범주형 변수 : 각 범주의 빈도가 일정,
- 연속형 변수 : 변수간의 큰 차이가 없을 때

B) 전처리
- 범주형 : 1과 0 과 같이 정량적이고 같은 범위를 갖도록 가변수화 필요
- 연속형 : 입력 변수의 분포가 평균을 중심으로 대칭이면 학습이 잘됨, 변환과 범주화 필요
  (변환 : 로그 변환, 범주화 : 빈도가 비슷하게 설정)

C) 인공신경망의 특징 
- 초기화 : Backpropagation을 활용하므로 초기 값에 민감함 
- 일반적으로 가중치가 작으면 선형 모델에 가깝고, 값이 크면 비선형 모델에 가까워 진다. 

D) 학습 모드
- 온라인 학습 모드 (Online Learning Mode) : 순차적으로 하나씩 신경망에 투입
- 확률적 학습 모드 (Probabilistic Learning Mode) : 신경망에 투입되는 관측 값이 랜덤
- 배치 학습 모드 (Batchg Learning Mode) : 데이터를 한번에 투입

E) 은닉층과 은닉 노드
- 층이 깊어지면 과대적합 발생 가능성 존재
- 층이 얇으면 과소적합 발생 가능성 존재
- 은닉수가 1개이면 Universal Approximator로 매끄러운 함수를 근사적으로 얻을 수 있으므로 한개부터 학습을 시작
- 노드의 수는 큰 값에서 부터 작게하는 것이 좋다.

F) 과대 적합 
- 조기 종료를 통해 과대 적합 문제를 해결할 수 있다. 
- 검증 오차가 증가하기 시작하면 조기종료를 하면 된다.

 

 

반응형
반응형

[ADsp 정리] 3-5-3. 앙상블 분석(Ensemble)

1.정의 
- 여러개의 예측 모형을 만든 후 조합하여 최종 예측 모형을 만드는 다중 모델 조합(Combining Multiple Models), 분류기 조합(Classifier Combination)이 있다.
2. 앙상블 기법의 종류
A. 배깅
- 부트스트랩(Bootstrap)기법이란 랜덤하게 동일한 크기의 표번을 샘플링하는 방법
- 부트스트랩 자료를 생성한 후, 예측모형을 만든후 이들을 결합하여 최종 예측모형을 만드는 방법
- 보팅(Voting)이란 여러개의 모형에서 산출된 결과를 다수결로 최종 선정하는 방법이며 이를 통해 최종 모델을 선택함
(예를들어 빨강 6, 파랑 5가 나왔으면, 빨강이 정답인 것이다. 그러므로 홀수개의 모델을 만들어야 이진 분류가 된다.)
- Decision Tree에서 가지치기(Pruning)이지만, 배깅 기법에서는 최대한 가지를 갖는 것을 목표로 함

B. 부스팅
- 예측력이 약한 모델을 결합하여 강한 예측 모형을 만드는 방법
- 훈련 오차를 빠르고 쉽게 줄일 수 있음
- Adaboost : N개에 가중치를 각각 선정하고, N개의 분류기를 결합하여 최종 분류기를 만드는 방법이며 가중치의 합은 1
- 분류기의 결합인 Adaboost는 배깅에 비해 성능이 좋은 경우가 많다. 

C. 랜덤 포레스트(Random Forest)
- Decision Tree의 경우 분산이 크므로, 배깅과 부스팅보다 더 많은 무작위를 주어 약한 학습기들을 생성한 후, 선형 결합하여 최종 학습기를 만드는 것
- Random input 에 따른 forest of tree를 이용한 분류방법으로 예측력이 좋다. 

 

 

 

반응형
반응형

제가 기억에 남는 것 위주로 정리했습니다.

기억이 안나는 문제는 댓글로 남겨주셔서 공유 부탁드립니다.

 

준비줄
컴퓨터용 싸인팬, 검정팬, 신분증
주의할 점
- 과목 당 40%이상 못맞추면 과락으로 탈락
1.데이터 이해 (8문제) +2 주관식 (10 개 복원)
주관식
1. 인과관계, 상관관계
2. platform

객관식
B-1- 1 번 기업성과 낮고 높은 4번
B-2- 데이터 : 암묵지
B-3- 빅데이터 변화 : 상관에서 인과로 감
B-4-  데이터 사이언티스 역량 : 네트워크 최적화
B-5- 유형 분석(택배)
B-6 - 메타데이터 
B-7- ㄱ,ㄴ,ㄷ(데이터 마이닝 빼고 다 틀림)
B-8 - 딥러닝은 무엇을 기반인가 - AI

 

2.데이터 분석 기획 (8문제) - +2 주관식 /10개 복원 완료

 

A주관식
A-1. 모델링
A-2. 모델 정의
 ​

B-객관식
B-1. 위대한 실패 , evaluation - 4번, Evaluation- business understanding 
B-2 메타 데이터 데이터 생명주기 ->데이터 관리체계
B-3 거버넌스 문제에 독립적으로 운영해야 함
B-4 탐색 포맷팅  : 데이터 탐색
B-5 시급성 난이도가 높을수록 빨리 수행 문제 - 2번
B-6 고객 채널 문제-  a/s 서비스 
B-7 상향식 - 3번 - 하양식일 때 what 사용
B-8 딥러닝, 인공신경망


3.데이터 분석 (24문제) +6 주관식

 

 주관식
1. 주성분식 -0.58??
2. 랜덤포레스트? 배깅 ?  부스팅? / 랜덤포레스트 
3. 3?  7? 9? / 3
4. 소프트맥스 함수
5. 최소제곱법
6. 로짓함수

객관식

B-1- 지니계수  : 0.32  / 1-(1/25)-(16/25) 
B-2- 커피우유 : 50%
B-3- 기대값 :  13/6
B-4- 오분류 : 0.6 
B-5- 야구 그림, 셀러리 :  꼬리가 왼쪽
B-6-. 학생 balance income - ?
B-7- screen plot 주성분 개수 : 4
B-8 - F1 : 0.4 
B-9, . 잔차 합 - 와드연결법
B-10. - 이산형 확률 평균 - Zxf(x)
B-11 - 맨해튼거리 - 10 
B-12 - 순서 척도
B-13 - AI 마지막 층 :활성화 함수
B-14 - 공분산 -1< co <1 사이 
B-15 - residual 그래프 - 등분산
B-16 - TREE변수 연속 변수
B-17 - -  모집단이 정규분포에 가깝다고 표본집단이 정규뷴포화 되지는 않는다.( 30개 이상이면 됨)
B-18 - 지니 계수 크게하면 안됨
B-19 : - 이상치 - 부정사용
B-20 - F1 0.4
B-21- 부스팅
B-22- 64개 데이터 ??
B-23 - 지수 평활 - 평균 사용 X
B-24 : PAIR 


반응형
반응형

[ADsp 정리] 3-5-2. 분류 분석(Decision Tree)

 

1. 분류 분석 vs 예측 분석
1. 분류 분석
- Clustering과 유사하지만, 각 그룹이 정해져 있어서 지도학습에 속한다. 
- 범주형 값을 맞추는 것
- 반응 변수가 범주형인(Classification) 경우 적용되는 회귀 분석 모형 Regression Analysis Model
- 모형의 적합을 통해 추정된 확률을 사후확률(Posterior Probability)라고 함
- 통계학에서 로지스틱 분포로 Sigmoid를 주로 사용한다

2.  예측 분석
- 한개의 설명 변수를 갖는 것
- 연속형 속성의 값을 맞추는 것

   선형 회귀  로지스틱 회귀
종속 변수(출력) 연속형 변수 0~1
계수 추정법 최소 제곱법 최대우도추정법(Maximum Likelidhood Estimation)
모형 검정 F-검정, T검정 카이제곱 검정

 

2. 의사결정나무(Decision Tree)
A. 정의
- 나무 모양으로 그림을 그려 문제를 푸는 방법
- 분류형과 회귀형이 존재함3. 선형 회귀 vs 로지스틱 회귀 분석

B. 예측력과 해석력 이란
- 예측력 : 고객의 수를 예측 
- 해석력 : 고객에게 탈락의 이유를 설명하기 위한 해명

C. 의사결정나무 사례
- 분류, 세분화
- 예측
- 차원축소 및 변수 선택 : 예측 변수증 목표변수에 영향을 미치는 변수를 선택
- 교호작용효과의 파악 : 예측 변수를 통해 규칙을 파악 
- 범주의 병합 : 범주형 목표변수의 범주를 줄임
- 연속형 변수의 이산화 : 연속형 목표 변수를 이산화 

D.장점
- 설명 쉬움
- 계산 복잡 X
- 대용량도 거뜬
- 비정상 데이터에도 강건
- 상관성이 높은 불필요한 변수에도 영향  X
- 수치형 변수 범주형 변수 무관
- 높은 정확도

E. 단점
- 과대적합 가능성 높음 : 새로운 데이터에 반응하지 못할 가능성 높음
- 경계선 부근 자료값에 대한 오차가 큼
- 설명 변수간 중요도 판단이 쉽지 않음 


F. Decision Tree의 분석과정
성장 단계 :  최적의 분리규칙(Spliting Rule)을 찾아서 분리한 후, 정지규칙(Stopping Rule)을 만족하면 중단한다. 깊이 지정, 레코드 수의 최소 개수가 Stopping Criterion이 된다.
분류 기준으로는 카이제곱 통게량, 지니지수, 엔트로피 지수를 활용한다.   

가지치기(Pruning) : 오차를 크게할 부적절한 추론 규칙을 가지고 있거나 불필요한 가지를 잘라내기한다. 자료가 일정 수 이하이면 분할을 정지하고 Cost Complexity Pruning 을 이용하여 가지치기 한다. 

타당성 평가 : Gain Chart, Risk Chart, 시험자료를 이용하여 의사결정 나무를 평가하는 단계
해석 및 예측 단계 : 구축된 나무 모형을 해석하고 예측모형을 설정하여 적용하는 단계

G. 의사결정 알고리즘
G-1. CART(Classification and Regression Tree)
- 불순도를 측도(출력변수 범주형) :  지니변수
- 불순도를 측도(출력변수 연속형) :  이진분리 
- 변수들 간의 선형 결합들 중에서 최적의 분리를 찾을 수 있음

G-2. C4.5와 C5.0
- 다지 분리(Multiple Split)이 가능
- 불순도 측도 : 엔트로피

G-4 CHAID(CHi-squared Automatic Interaction Detection)
- 적당한 크기에서 성장을 중지, 입력 변수가 반드시 범주형
- 불순도 측도 : 카이제곱 통계량 
반응형
반응형

[ADsp 정리] 3-5-1. 정형 데이터 마이닝

 1. 데이터 마이닝  
1.1 의미
-  대용량의 데이터에서 특징 및 패턴을 찾아 의사결정에 활용하는 방버
- 통계적 분석은 분석이나 검증을 수행하지만, 의미있는 정보를 찾는다는 점에서 차이가 존재함

1.2 정보를 찾는 방법에 따른 종류
- Aritifical Intelligence, Decision Tree, K mean clustering, 연관분석, 회귀 분석, 로짓 분석, Nearest Neighborhood
2. 지도학습 및 비지도학습 분류
2.1 지도 학습
Decision Tree, Artificial Neural Network,  일반화 선형 모델, 회귀 분석, 로지스틱 회귀분석, 사례기반 추론, K-Nearest Neighbor

2.2 비지도 학습
OLAP(On-Line Analytical Processing), 연관성 규칙발견, 군집 분석( K-Mean Clustering), SOM(Self Organizing Map)
3. 분석 목적에 따른 유형 분류
2.1 예측 모델링
 Classification : 회귀 분석, 판별분석, 신경망, 의사 결정 나무
2.2 설명 모델링
연관규칙 : 항목간 연관 규칙
연속규칙 : 시간 정보 포함
데이터 군집화 : 그룹 분할 
4. 데이터 마이닝 단계
목적 설정 -> 데이터 준비 -> 데이터 가공 -> 데이터마이닝 기법 적용 -> 검증
5. 데이터 마이닝을 위한 데이터 분할
5.1. Training data : 50%
모델을 훈련시킬 때 사용

5.2 Validation data : 30%
모델의 성능을 검증할 때 활용

5.3 Test data : 20%

5.4 데이터 양이 충분치 않을 경우
홀드 아웃(Hold Out) : Training data, Test data 만 나누어 사용
교차 확인(Cross Validation ) : k fold cross validation 라고하며 10-fold 교차분석을 주로 사용한다.
주어진 데이터를 k개로 나눈 후, k-1집단을 학습, 나머지는 검증용으로 사용하여 k번 반복 측정 후, 평균을 내는 방법 
 6. 성과 분석
  Positive(Condition) Negative(Condition)  
Positive(Predict) TP(True Positive)
옳은 검출
FP(False Positive)
틀린 검출
Precision(정확도)

Negatice(Predict) FN(False Negative)
검출되어야 하는데 검출 X
TN(True Negative)
검출안되야 하는데 검출 X
X
  Sensitive(민감도) 
Recall(재현율)
Specificity(특이도)  
1) 정분류율(Accuracy)
Accuracy = (TP+TN)/(TP+TN+FP+FN) 

2) 오분류율(Error Rate)
1-Accuracy = (FP+FN)/(TP+TN+FP+FN)

3) 특이도(Specificity)
True Negative Rate = TN / (TN+FP)

4) 재현율(Recall) / 민감도(Sensitivity), 
True Positive Rate = TP/(TP+FN)

5) 정확도(Precision)
Precision = TP/(TP+FP)

6) 재현율(Recall)
Recall = TP/(TP+FN)

7) F1 Score
F1 = 2 x (Precision x Recall)/ (Precision+Recall)

8) 평가 방법
A. ROC Curve (Receiver Operating Characteristic Curve)
- ROC Curve란 가로축 FPR(False Positive Rate = 1- 특이도), 세로축 TPR(True Positive Rate, 민감도) 도 시각화
- 2진 분류에 사용되며, ROC의 면적을 나타내는 AUROC(Area Under ROC)값이 클수록 모형의 성능이 좋음 
- TPR은 True인 케이스를 True로 예측한 비율
- False 케이스를 True 로 잘못 예측한 비율이다.  
- AUROC의 면적이 정확도 판단 기준은 0.9~1 : Exellent, 0.8~0.9 : Good, 0.7~0.8 :Fair, 0.6~0.7:Poor, 0.5~0.6:Fail 

B. mAP(mean Average Precision) 
- Object Detection에서 map라는 지표를 사용하여 정답을 판단한다. 
- IoU(Intersection Over Union)가 0.5 이상일 경우 TP, 이하일 경우 FP라고 한다.
- IoU는 예측한 면적과 Ground Truth면적의 교집합/ 합집합 이다. 
- Object Detcion에서는 Precision 과 Recall 값을 활용하여 PR곡선을 그릴 수 있다. 
- Confidence Level의 Threshold 값을 변화시켜가면 x축에는 Recall , y축에는 Precision을 그리면 된다.  
- PR곡선의 면적을 게산하면 Average Precision를 구할 수 있다. 
- 각 객체의 AP를 다 더한 다음 클래스 수만큼 나누면 MAP(Mean Average Precision)를 계산할 수 있다.  
7. 과적합(Overfitting), 과소 적합(Underfitting), 일반화(Generalization) 
A.과적합(Overfitting)
- 과하게 학습하여 다른 데이터에 대해서 제대로 대응하지 못하는 현상
B. 과소적합(Underfitting)
- 경향은 맞지만 지나치게 일반화 됨
C. 일반화(Generalization)
- 과적합도 과소적합도 아니므로, 새로운 데이터가 들어와도 잘 예측함

 

반응형
반응형

[ADsp 정리] 3-1-1 데이터 분석 개요

 

소개 
- 데이터 분석 단원에서는 데이터 분석 개요/ R프로그래밍/ 데이터 마트/ 데이터데이터 마이닝/ 통계적 분석 을 다룸 
요약 
- 데이터 분석 소단원에서는 데이터 처리 프로세스, 시각화 기법, 공간 분석, 탐색적 자료 분석 이해 필요
1. 데이터 처리 
1.1 데이터 
- 일반적으로 대기업은 데이터 웨어하우스(DW), 데이터 마트(DM) 에서 데이터를 가져와 사용 
- 데이터 웨어하우스(DW)에 없는 자료는 기존 운영시스템(Leagacy), 스테이징 영역(staging area), ODS(Operational Data Store)에서 데이터를 가져옴
- 스테이징 영역(staging area)의 데이터는 임시 데이터이므로 가급적 ODS(Operational Data Store)의 데이터를 가공하여 DW 혹은  DM과 같이 혼합하여 사용 

1.2 데이터 처리 순서
- Legacy -> Staging -> ODS -> DW -> DM -> SAS(Static Analysis System)

1.3 데이터 가공 방법
- 데이터 마이닝 분류
- 정형화된 패턴 처리(비정형 데이터, 관계형 데이터)
  -> 텍스트와 같은 비정형 데이터는 텍스트 마이닝을 거쳐 데이터 마트와 통합
  -> 관계형 데이터의 분석 결과를 데이터 마트와 통합하여 사용 

1.3 용어 정리 
DW - 데이터 웨어하우스 (Data Warehous)
DM - 데이터 마트(Data Mart)
Legacy - 유산이라는 의미로 기존 운영시스템을 의미
Staging Area - 스테이징 영역은 임시적인 데이터
ODS -  운영 데이터 저장소로 클렌징하여 사용 필요 

 

2. 시각화(Visualization)
가장 낮은 수준의 분석 기법으로 가장 기본이며 효율적
3.  공간분석(GIS/Geographic Information System)
지도위에 속성을 생성하여, 크기, 선, 모야 등을 통하여 관련된 속성을 시각화하는 기법
4. 탐색적 자료분석(EDA/Exploratory Data Analysis) 
- 특이점을 찾아 분석하는 과정으로 구조적 관계를 알아보는 기법들을 통칭한다
- 프린스톤 대학의 튜키교수가 1977년에 저서 발표
- 저향성의 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통한 현시성
- 데이터이해, 변수 생성, 변수 선택에 활용
5. 통계분석(Statistics Analysis)
5-1 통계 (Statistics)
- 숫자, 표, 그림의 형태로 나타내는 것

5-2 기술 통계 (Descriptive Statistics)
- 모집단에서 표본을 추출하고 표본의 통계를 내는 것

5-3. 추측 통계(Inferential Statistics)
- 표본의 표본통계량으로 모집단의 특성을 추론하는 절차

5-4 사례
- 정부의 통계를 위한 설문조사, 기업의 설문조사, 시험 결과, 선수들의 평가, 경영 관리
6. 데이터 마이닝
6-1 정의
- 대용량의 데이터로 미래를 예측하는 것을 목표로 관계, 패턴, 규칙을 탐색하고 모형화하여 이전에 알려지지 않은 새로운 지식을 추출하는 분석 방법

6.2. 방법론
- 데이터베이스의 지식 탐색 : 데이터웨어하우스에서 데이터 마트를 생성할 때, 데이터의 분석을 통해 지식을 얻는 방법
- 기계학습 : 컴퓨터가 학습할 수 있도록 기술을 개발(인공신경망, svm 등)
- 패턴 인식 : 사전지식과 통계정보를 기반으로 패턴을 분석하는 방법 

6.3 사례
- 텍스트 마이닝, 마케팅, 주식 등 

 

반응형

+ Recent posts