반응형

[4과목 데이터 분석 소개] 데이터 분석 소개

1. 데이터 마이닝 개념

- 빅데이터 속에서 유용한 정보를 찾아내는 과정이며, 새로운 정보를 발견하고 의사결정에 활용하는 일련의 작업
-  입력 값은 독립 변수, 출력은 종속 변수 혹은 반응 변수라고 한다. 데이터 마이닝은 독립변수에 따른 종속변수가 어떻게 나오는지 모델링하는 것이라고 할 수 있다. .

2. 데이터 마이닝 분석 방법

- 지도학습은 정답이 있는 것을 학습시키는 방식이며, 의사결정나무, 인공신경망, 회귀 분석, 로지스틱 회귀분석 등이 있다. 
- 이러한 지도학습은 분류(Classification) 과 예측(Regression) 문제로 나뉜다.
- 비지도학습은 정답이 없는 것을 학습하는 것이며, 군집분석, 연관성 분석이 이에 해당한다. 

3. 의사결정나무

- 소집단으로 분류하거나 예측 수행하는 분석
- 시각화가 가능하여 성과를 한눈에 볼 수 있다.
- 분류나무 회귀 나무가 존재한다. 

- iris의 경우 꽃잎의 길이와 넓이에 따라 품종을 classification 할 수 있다. 
- 의사결정 나무에서 Overfitting이 발생하지 않도록 가지치기(Prunning) 을 수행해야 한다.
- 결과에 노이즈가 끼지 않고  잡음 데이터에 민감함 없이 분류할 수 있다는 장점이 있다. 

 

참조

https://www.youtube.com/watch?v=yTDtSxzOeFw

 

 

반응형
반응형

[ADsp 정리] 3-4.1  통계 분석 

1.방법
1-1 표본 조사
- 모집단(Population): 전체
- 원소(Element) : 모집단을 구성하는 개체
- 표본(Sample) : 모집단의 일부 
- 모수(Parameter) : 표본 관측에 의해 구하고자 하는 모집단의 정보
- 확률 변수(Random Variable) : 특정값이 나타날 가능성을 확률적으로 주어지는 변수

1-2. 표본 추출 방법
- 단순 랜덤 추출 법(Simple Random Sampling) : 단순 추출
- 계통 추출법(Systematic Sampling) : 나열하여 k개씩 n 개 구간으로 나누고 매 k번째 항목 추출
- 집략 추출법(Cluster Random Sampling) : 군집 구분 후, 샘플링 (지역표본추출, 다단계표본추출)
- 층화추출법(Stratified Random Sampling) : 층(Stratum)을 나눈 후, 랜덤 추출 (비례층화추출법, 불비례층화추출법)

1-3 측정 방법
- 명목 척도 : 이름 과 같이 집단에 속하는지 분류
- 순서 척도 : 학년과 같이 서열 관계
- 구간 척도(등간 척도) : 온도나 싸이즈와 같이 속성의 양
- 비율 척도 : 절대 기누이 있는 0이 있는 시간, 무게, 거리 등 
2. 통계 분석 정의
1 정의
통계 분석 : 통계 방법을 이용하여 의사결정을 하는 과정 
기술 통계(Descriptive Statistic) : 객관화 하여 통계분석

통계 추론(Inference Statistics)
A) 모수 추정 - 표본으로 모집단의 평균 분산 추정
B) 가설 검정 - 가설 설정 후 옮은지 아닌지 채택
C) 예측  - 불확실성을 해결해 효율적인 의사결정
3. 확률 분포
1. 이산형 확률 변수
베르누이 확률분포 : 결과가 2개만 나오는 경우 
이항 분포 : n번중 k번 성공할 확률
기하 분포 : 성공 확률이 p인 베루누이 시행에서 첫번째 성공때까지 x번 실패할 확률
다항 분포 : 3가지 이상의 결과를 가지는 반복실행에서 확률분포
포아송분포 : 시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률분포

2. 연속형 확률변수
균일 분포 : 일정한 균일한 확률을 가지는 확률분포
정규 분포 : 평균과 표준편차를 갖는 종모양의 확률밀도 함수 
표준 정규분포 : 평균이 0, 표준편차가 1인 정규분포
지수 분포 : 어떤 사건이 발생할 때까지 경과 시간에 대한 연속확률 분포 
t 분포 : 두 집단의 평균이 동일한지 알고자 할 때, 검정통계량으로 활용하며, 정규분포보다 더 퍼져있고 자유도가 커지면 정규분포와 가까워짐
카이제곱분포 : 모평균, 모부난이 알려지지 않은 모집단의 모분산에 대한 가설 검정에 사용되는 분포로 두 집단간의 동질성 검정에 활용 
F분포 : 두 집단간 분산의 동일성 검정에 사용되는 검정 통계량의 분포로 확률변수는 항상 양의 값, 카이제곱과 달리 2개의 자유도 갖고 있으며 자유도가 커지면 정규분포에 가까워짐
4. 추정
4.1 추정 방법
A) 점추정(Point Estimation)
모수가 특정 값일 것이라고 추정하는 것으로 평균, 중위수, 최빈 값 활용


B) 구간 추정(Interval Estimation)
모수가 특정 구간 안에 있을 것이라고 선언

* 모 분산을 알면 분자에 시그마를 넣으며 모르면 s를 넣는다. 

4.2 가설 방법
- 가설을 설정한 뒤, 가설의 채택 여부 설정
- 표본 관찰 후 귀무가설ㄹ과 대립 가설 중 하나를 선택 
A) 귀무가설(Null Hypothesis) - 비교하는 값과 차이가 없다
B) 대립가설(Alternative Hypothesis) - 차이가 있다(증거가 있을 떄)
C) 검정 통계량(Test Statistic) - 진위 판단 기준
D) 유의 수준(Significance Level) - 귀무가설을 기각하는 확률의 크기
E) 기각역(Critical Region) - 귀무가설이 옳다고 전제

  가검정결과 사실 가검정결과 거짓
사실 옳음 제 1종 오류
거짓 2종 오류  옳음

1종 오류와 2종 오류는 서로 상충 관계가 있으므로 1종을 고정시킨 후, 2종 오류를 최소화 시키도록 기각역을 설정

5. 검정
5-1. 모수 검정
- 모집단의 분포 가정
- 표준평균과 표준 분산을 이용하여 검증

5-2. 비모수 검정
- 관측값들의 순위나 차이의 분포를 이용해 검증
6. 인간관계
6-1 용어. 
1) 종속 변수(반응 변수, y) 
- 다른 변수에 영향을 받는 변수

2) 독립 변수(설명 변수, x)
- 영향을 주는 변수

3) 산점도(Scatter Plot)
- 점으로 표현한 그래프 

 

7. 상관분석
1) 공분산
- 공분산이란 두 변수간의 방향성을 확인하는 것
- 두 변수간의 관계가 없으면 0

2) 상관 분석
- 상관계수를 보고 판단 
0.7~1.0 : 큰 상관성
0.3~0.7 : 약한 상관성 
0~0.3 : 거의 없음

3) 상관 분석의 가설 검정
- 상관 계수 0 : x와 y 간의 차이 없음, 귀무 가설 =0, 대립 가설은 0 아님
- t 검정을 통해 얻은 p value 값이 0.05 이하인 경우, 대립가설이 채택 -> 상관관계 사용 가능
  피어슨 상관관계 분석 스피어만 상관관계 분석
개념 등간척도 이상으로 측정된 변수의 상관관계 측정 방식 서열 척도 변수의 상관관계 측정
특징 연속형, 정규성  순서형 변수, 비모수적 방법,
상관계수 피어슨 순위상관계수

 

 

반응형
반응형

[ADsp 정리] 3-4-4. 다차원척도,주성분 분석

 

1. 다차원 척도법(MDS)
1-1 정의
- 다차원 척도법(MDS/Multi Dimensional Scaling) 은 개체들의 유사성을 2차워/3차원으로 표현하는 방법
- 근접성(Proximity)을 시각화하는 방법

1.2 다차원 척도 방법
- 유클리드 거리행렬 활용

1.3 다차원척도법 종류
- 계량적 MDS(Metric MDS)
- 비계량적 MDS(nonmetric MDS)
2. 주성분 분석(PCA)
2-1. 개념
- 상관성이 높은 변수들의 선형 결합으로 상관성이 높은 변수들을 요약, 축소하는 기법
- 상관이 없는 주성분으로 차원 축소 
- 다중공선성(multicollinearity)가 존재하면 모형이 잘못 만들어질 수 있으므로, 차원을 축소하여야 함

2-2 주성분 선택 방법
- 누적기여율(Cumulative Proportion)이 85%이면 주성분의 수로 결정
- Screen Plot을 하여 eigen value 값이 수평을 유지하기 전 단계로 주성 분 선택
3. 요인 분석(Factor Analysis)
3-1.  개념
- 등간 척도로 측정한 두 개 이상의 변수들에 있는 공동인자를 찾는 방법

3.2 PCA와 FA의 공통점
- 두개 모두 데이터 축소 및 새로운 변수 생성에 활용 가능

3.3 PCA와 FA의 차이점
- PCA는 보통 3개, FA는 제한이 없다.
- PCA는 제 1주성분, 제 2주성분으로 표현하며, FA는 없다
- PCA는 제 1주성분이 가장 중요하지만, FA는 없다
- PCA는 목표 변수를 고려하여 변수들의 선형 결합으로 이루어지지만, FA는 없다. 
반응형
반응형

[ADsp 정리] 3-5-5. 군집 분석(Clustering Analysis)

 

1. 정의
- 유사성이 높은 대상을 분류하는 기법
- classification과의 차이점은 정답이 미리 정해져 있지 않는다는 점에서 차이가 존재
- 요인 분석 : 유사한 변수를 묶는 것
- 판별 분석 : 사전에 집단이 나누어져 있는 자료를 통해 새로운 데이터를 집단에 할당  
2. 거리
2-1. 연속형 변수
A. 유클리디안 거리(Euclidean Distance)
- 일반적인 거리 공식으로 변수들의 산포 정도를 포함하고 있지 않음 

B. 표준화 거리(Statistical Distance)
- 표준 편차로 척도 변환 후, 유클리디안 거리 사용

C. 마할라노비스거리(Mahalanobis)
- 데이터의 산포를 고려한 표준화 거리 기법이다. 두 벡터 사이의 거리를 표준공분산으로 나우어야 함

D. 체비셰프 거리 (Chebychev)
- 가장 절대갑 거리가 큰 것을 이르는 것max(abs(x-y))

E. 맨해탄 거리 (Manhattan)
- abs거리의 총 합

F.   캔버라 거리(Canberra)
- 거리의 차이/ 거리의 합

G.  민코우스키 거리(Minkowski)
- 맨하탄과 유클리디안을 한번에 표현
- L2 - 유클리디안 거리 (root(sqrt))
- L1 - 맨하탄 거리 (ABS)

2-2. 범주형 변수
A. 자카드 계수
IoU와 마찮가지로 교집합/ 합집합을 의미한다.

B. 자카드 거리
1- 자카드 계수 

C. 코사인 유사도(Cosine Similarity)
- np.dot(a,b)/ sqrt(root(a)) x sqrt(root(b))

D. 코사인 거리
- 1 - 코사인 유사도
3. 계층적 군집 분석 
3.1 정의
- 계층적 군집 방법은 n개의 군집으로 시작해 점차 군집의 개수를 줄여가는 방법

3.2 방법
- 합병형 방법(Agglomerative / Bottom Up) : 여러개의 군비에서 점차 줄여나감
- 분리형 방법(Divisive / Top Down) : 한개에서 여러개로 군집수를 늘림

3.3 종류
A. 최단 연결법(Single Linkage / Nearest Neighbor)
- 군집과 군집 혹은 굱집과 데에터와의 거리를 계산 시, 최단거리로 계산하여 거리행렬 수정 진행

B.  최장 연결법(Complete Linkage/ Farthest Neighbor)
- 군집과 군집 혹은 굱집과 데에터와의 거리를 계산 시, 최장거리로 계산하여 거리행렬 수정 진행


C. 평균 연결법(Average Linkage)
- 군집과 군집 혹은 굱집과 데에터와의 거리를 계산 시, 평균거리로 계산하여 거리행렬 수정 진행


D. 와드 연결법(Ward Linkage)
- 군집내 편차의 제곱을 고려/ 군집간 손실을 최소

3.4. 군집화 방법
- 텐드로그램 을 그리고 가로 선을 그어 군집의 갯수를 선택할 수  있다. 
4. 비게층적 군집 분석
k개의 군집으로 나누느 방법

A. K-평균 군집 분석(K-Means Clustering) 
- k개의 클러스터로 묶는 알고리즘으로, 클러스터와 거리의 차이를 최소화하는 방식으로 동작
- 원하는 군집의 개수와 초기 값(Seed)를 정하여 군집을 형성하며 계속해서 Seed의 값을 업데이트 하는 것이다. 

B. K-평균 군집분석의 장단점
B-1 장점
- 단순하여 빠르게 수행
- 많은 양의 데이터 가능
- 사전 정보가 업어도 의미있는 정보 가능
- 다양한 데이터에 가능

B-2 단점
- 군집의 수와 SEED 초기 위치, 가중치 정의가 어려움
- 잡음에 영향이 큼
5. 혼합 분포 군집(Mixture Distribution Clustering
5-1. 정의
- 모델 기반(Model Based) 군집화 방법으로 k개의 모형 중 어느 모형에서 나왔는지 확률에 따라 분류
- 가중치의 추정에는 EM 알고리즘 사용

5-2. 데이터의 형태
- 여러개의 정규분포의 결합 형태를 띄는 것에 적합

5-3. EM(Expectation - Maximmization)  알고리즘
- 각 자료의 z 조건부분포로 부터 조건부 기댓값 계산
- E 단계 : z 의 기대치 계산
- M 단계 : E단계를 이용하여 파라미터 추정
- 확률 분포를 도입하여 군집을 수행하며, 서로 다른 크기의 모양과 크기의 군집을 찾을 수 있음
- 군집의 크기가 너무 작으면 추정의 정도가 떨어지며, 너무 크면 수렴에 시간이 걸림
- K-Means처럼 이상치에 민감함
6. SOM(Self Organizing Map)
A. 정의
- 자가 조직화 지도(SOM)은 코호넨 맵이라고도 함
- 비지도 신경망으로 고차원 데이터를 저차원 뉴런으로 정렬 

B. 구성
B-1. 입력층(Input Layer)
- 입력 개수와 동일한 뉴런의 개수
- 입력층 자료가 학습을 통하여 경쟁층에 정렬되며 이를 map이라 함
- 입력층과 경쟁층은 Fully Connected 되어 있음 

B-2. 경쟁층(Competitive Layer)
- 2차원 격자로 구성됨

B-3 학습 방법
- 경쟁학습을 통해 각 뉴런이 입력 벡터와 얼마나 가까운지 연결 강도(Connective Weight)를 반복 재조정하여 연결 강도(Connective Weight)가 입력 과 가장 유사한 경쟁층 뉴련 형성
- 입력층에 가장 가까운 프로토타입 벡터를 선택하여 BMU(Best-Matcghing Unit) 라고 하며, 학습 규칙에 따라 (topological negihbors)에 대한 연결 강도를 조정
- 승자 뉴런만이 나타나, 승자와 유사한 연결 강도를 갖는 입력 패턴이 동일한 경쟁 뉴련으로 배열됨 

C. 인공 신경망 vs SOM(Self Organizing Map)
인공 신경망 
학습 방법 : Backpropagation 사용
구성 : 입력층, 은닉층, 출력층
학습 분류 : 지도학습

SOM(Self Organizing Map)
학습 방법 : 경쟁학습아법
구성 : 입력층, 2차원 격자 형태의 경쟁층
학습 분류 : 비지도 학습

D. 특징
- 지도 형태로 형상화하여 시각화 및 이해 쉬움
- 입력 변수의 위치 관계를 보존하여 실제 데이터가 유사하면 지도상에 가깝게 표현됨
- 패턴 발견, 이미지 분석에 뛰어남 
- Backpropagation을 사용하지 않고, 전방패스(Feed Foward Flow) 를 사용하여 속도가 빠르며, 실시간 학습 가능 
반응형
반응형

[ADsp 정리] 3-5-2. 분류 분석(Decision Tree)

 

1. 분류 분석 vs 예측 분석
1. 분류 분석
- Clustering과 유사하지만, 각 그룹이 정해져 있어서 지도학습에 속한다. 
- 범주형 값을 맞추는 것
- 반응 변수가 범주형인(Classification) 경우 적용되는 회귀 분석 모형 Regression Analysis Model
- 모형의 적합을 통해 추정된 확률을 사후확률(Posterior Probability)라고 함
- 통계학에서 로지스틱 분포로 Sigmoid를 주로 사용한다

2.  예측 분석
- 한개의 설명 변수를 갖는 것
- 연속형 속성의 값을 맞추는 것

   선형 회귀  로지스틱 회귀
종속 변수(출력) 연속형 변수 0~1
계수 추정법 최소 제곱법 최대우도추정법(Maximum Likelidhood Estimation)
모형 검정 F-검정, T검정 카이제곱 검정

 

2. 의사결정나무(Decision Tree)
A. 정의
- 나무 모양으로 그림을 그려 문제를 푸는 방법
- 분류형과 회귀형이 존재함3. 선형 회귀 vs 로지스틱 회귀 분석

B. 예측력과 해석력 이란
- 예측력 : 고객의 수를 예측 
- 해석력 : 고객에게 탈락의 이유를 설명하기 위한 해명

C. 의사결정나무 사례
- 분류, 세분화
- 예측
- 차원축소 및 변수 선택 : 예측 변수증 목표변수에 영향을 미치는 변수를 선택
- 교호작용효과의 파악 : 예측 변수를 통해 규칙을 파악 
- 범주의 병합 : 범주형 목표변수의 범주를 줄임
- 연속형 변수의 이산화 : 연속형 목표 변수를 이산화 

D.장점
- 설명 쉬움
- 계산 복잡 X
- 대용량도 거뜬
- 비정상 데이터에도 강건
- 상관성이 높은 불필요한 변수에도 영향  X
- 수치형 변수 범주형 변수 무관
- 높은 정확도

E. 단점
- 과대적합 가능성 높음 : 새로운 데이터에 반응하지 못할 가능성 높음
- 경계선 부근 자료값에 대한 오차가 큼
- 설명 변수간 중요도 판단이 쉽지 않음 


F. Decision Tree의 분석과정
성장 단계 :  최적의 분리규칙(Spliting Rule)을 찾아서 분리한 후, 정지규칙(Stopping Rule)을 만족하면 중단한다. 깊이 지정, 레코드 수의 최소 개수가 Stopping Criterion이 된다.
분류 기준으로는 카이제곱 통게량, 지니지수, 엔트로피 지수를 활용한다.   

가지치기(Pruning) : 오차를 크게할 부적절한 추론 규칙을 가지고 있거나 불필요한 가지를 잘라내기한다. 자료가 일정 수 이하이면 분할을 정지하고 Cost Complexity Pruning 을 이용하여 가지치기 한다. 

타당성 평가 : Gain Chart, Risk Chart, 시험자료를 이용하여 의사결정 나무를 평가하는 단계
해석 및 예측 단계 : 구축된 나무 모형을 해석하고 예측모형을 설정하여 적용하는 단계

G. 의사결정 알고리즘
G-1. CART(Classification and Regression Tree)
- 불순도를 측도(출력변수 범주형) :  지니변수
- 불순도를 측도(출력변수 연속형) :  이진분리 
- 변수들 간의 선형 결합들 중에서 최적의 분리를 찾을 수 있음

G-2. C4.5와 C5.0
- 다지 분리(Multiple Split)이 가능
- 불순도 측도 : 엔트로피

G-4 CHAID(CHi-squared Automatic Interaction Detection)
- 적당한 크기에서 성장을 중지, 입력 변수가 반드시 범주형
- 불순도 측도 : 카이제곱 통계량 
반응형
반응형

[ADsp 정리] 3-5-1. 정형 데이터 마이닝

 1. 데이터 마이닝  
1.1 의미
-  대용량의 데이터에서 특징 및 패턴을 찾아 의사결정에 활용하는 방버
- 통계적 분석은 분석이나 검증을 수행하지만, 의미있는 정보를 찾는다는 점에서 차이가 존재함

1.2 정보를 찾는 방법에 따른 종류
- Aritifical Intelligence, Decision Tree, K mean clustering, 연관분석, 회귀 분석, 로짓 분석, Nearest Neighborhood
2. 지도학습 및 비지도학습 분류
2.1 지도 학습
Decision Tree, Artificial Neural Network,  일반화 선형 모델, 회귀 분석, 로지스틱 회귀분석, 사례기반 추론, K-Nearest Neighbor

2.2 비지도 학습
OLAP(On-Line Analytical Processing), 연관성 규칙발견, 군집 분석( K-Mean Clustering), SOM(Self Organizing Map)
3. 분석 목적에 따른 유형 분류
2.1 예측 모델링
 Classification : 회귀 분석, 판별분석, 신경망, 의사 결정 나무
2.2 설명 모델링
연관규칙 : 항목간 연관 규칙
연속규칙 : 시간 정보 포함
데이터 군집화 : 그룹 분할 
4. 데이터 마이닝 단계
목적 설정 -> 데이터 준비 -> 데이터 가공 -> 데이터마이닝 기법 적용 -> 검증
5. 데이터 마이닝을 위한 데이터 분할
5.1. Training data : 50%
모델을 훈련시킬 때 사용

5.2 Validation data : 30%
모델의 성능을 검증할 때 활용

5.3 Test data : 20%

5.4 데이터 양이 충분치 않을 경우
홀드 아웃(Hold Out) : Training data, Test data 만 나누어 사용
교차 확인(Cross Validation ) : k fold cross validation 라고하며 10-fold 교차분석을 주로 사용한다.
주어진 데이터를 k개로 나눈 후, k-1집단을 학습, 나머지는 검증용으로 사용하여 k번 반복 측정 후, 평균을 내는 방법 
 6. 성과 분석
  Positive(Condition) Negative(Condition)  
Positive(Predict) TP(True Positive)
옳은 검출
FP(False Positive)
틀린 검출
Precision(정확도)

Negatice(Predict) FN(False Negative)
검출되어야 하는데 검출 X
TN(True Negative)
검출안되야 하는데 검출 X
X
  Sensitive(민감도) 
Recall(재현율)
Specificity(특이도)  
1) 정분류율(Accuracy)
Accuracy = (TP+TN)/(TP+TN+FP+FN) 

2) 오분류율(Error Rate)
1-Accuracy = (FP+FN)/(TP+TN+FP+FN)

3) 특이도(Specificity)
True Negative Rate = TN / (TN+FP)

4) 재현율(Recall) / 민감도(Sensitivity), 
True Positive Rate = TP/(TP+FN)

5) 정확도(Precision)
Precision = TP/(TP+FP)

6) 재현율(Recall)
Recall = TP/(TP+FN)

7) F1 Score
F1 = 2 x (Precision x Recall)/ (Precision+Recall)

8) 평가 방법
A. ROC Curve (Receiver Operating Characteristic Curve)
- ROC Curve란 가로축 FPR(False Positive Rate = 1- 특이도), 세로축 TPR(True Positive Rate, 민감도) 도 시각화
- 2진 분류에 사용되며, ROC의 면적을 나타내는 AUROC(Area Under ROC)값이 클수록 모형의 성능이 좋음 
- TPR은 True인 케이스를 True로 예측한 비율
- False 케이스를 True 로 잘못 예측한 비율이다.  
- AUROC의 면적이 정확도 판단 기준은 0.9~1 : Exellent, 0.8~0.9 : Good, 0.7~0.8 :Fair, 0.6~0.7:Poor, 0.5~0.6:Fail 

B. mAP(mean Average Precision) 
- Object Detection에서 map라는 지표를 사용하여 정답을 판단한다. 
- IoU(Intersection Over Union)가 0.5 이상일 경우 TP, 이하일 경우 FP라고 한다.
- IoU는 예측한 면적과 Ground Truth면적의 교집합/ 합집합 이다. 
- Object Detcion에서는 Precision 과 Recall 값을 활용하여 PR곡선을 그릴 수 있다. 
- Confidence Level의 Threshold 값을 변화시켜가면 x축에는 Recall , y축에는 Precision을 그리면 된다.  
- PR곡선의 면적을 게산하면 Average Precision를 구할 수 있다. 
- 각 객체의 AP를 다 더한 다음 클래스 수만큼 나누면 MAP(Mean Average Precision)를 계산할 수 있다.  
7. 과적합(Overfitting), 과소 적합(Underfitting), 일반화(Generalization) 
A.과적합(Overfitting)
- 과하게 학습하여 다른 데이터에 대해서 제대로 대응하지 못하는 현상
B. 과소적합(Underfitting)
- 경향은 맞지만 지나치게 일반화 됨
C. 일반화(Generalization)
- 과적합도 과소적합도 아니므로, 새로운 데이터가 들어와도 잘 예측함

 

반응형
반응형

[ADsp 정리] 3-1-1 데이터 분석 개요

 

소개 
- 데이터 분석 단원에서는 데이터 분석 개요/ R프로그래밍/ 데이터 마트/ 데이터데이터 마이닝/ 통계적 분석 을 다룸 
요약 
- 데이터 분석 소단원에서는 데이터 처리 프로세스, 시각화 기법, 공간 분석, 탐색적 자료 분석 이해 필요
1. 데이터 처리 
1.1 데이터 
- 일반적으로 대기업은 데이터 웨어하우스(DW), 데이터 마트(DM) 에서 데이터를 가져와 사용 
- 데이터 웨어하우스(DW)에 없는 자료는 기존 운영시스템(Leagacy), 스테이징 영역(staging area), ODS(Operational Data Store)에서 데이터를 가져옴
- 스테이징 영역(staging area)의 데이터는 임시 데이터이므로 가급적 ODS(Operational Data Store)의 데이터를 가공하여 DW 혹은  DM과 같이 혼합하여 사용 

1.2 데이터 처리 순서
- Legacy -> Staging -> ODS -> DW -> DM -> SAS(Static Analysis System)

1.3 데이터 가공 방법
- 데이터 마이닝 분류
- 정형화된 패턴 처리(비정형 데이터, 관계형 데이터)
  -> 텍스트와 같은 비정형 데이터는 텍스트 마이닝을 거쳐 데이터 마트와 통합
  -> 관계형 데이터의 분석 결과를 데이터 마트와 통합하여 사용 

1.3 용어 정리 
DW - 데이터 웨어하우스 (Data Warehous)
DM - 데이터 마트(Data Mart)
Legacy - 유산이라는 의미로 기존 운영시스템을 의미
Staging Area - 스테이징 영역은 임시적인 데이터
ODS -  운영 데이터 저장소로 클렌징하여 사용 필요 

 

2. 시각화(Visualization)
가장 낮은 수준의 분석 기법으로 가장 기본이며 효율적
3.  공간분석(GIS/Geographic Information System)
지도위에 속성을 생성하여, 크기, 선, 모야 등을 통하여 관련된 속성을 시각화하는 기법
4. 탐색적 자료분석(EDA/Exploratory Data Analysis) 
- 특이점을 찾아 분석하는 과정으로 구조적 관계를 알아보는 기법들을 통칭한다
- 프린스톤 대학의 튜키교수가 1977년에 저서 발표
- 저향성의 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통한 현시성
- 데이터이해, 변수 생성, 변수 선택에 활용
5. 통계분석(Statistics Analysis)
5-1 통계 (Statistics)
- 숫자, 표, 그림의 형태로 나타내는 것

5-2 기술 통계 (Descriptive Statistics)
- 모집단에서 표본을 추출하고 표본의 통계를 내는 것

5-3. 추측 통계(Inferential Statistics)
- 표본의 표본통계량으로 모집단의 특성을 추론하는 절차

5-4 사례
- 정부의 통계를 위한 설문조사, 기업의 설문조사, 시험 결과, 선수들의 평가, 경영 관리
6. 데이터 마이닝
6-1 정의
- 대용량의 데이터로 미래를 예측하는 것을 목표로 관계, 패턴, 규칙을 탐색하고 모형화하여 이전에 알려지지 않은 새로운 지식을 추출하는 분석 방법

6.2. 방법론
- 데이터베이스의 지식 탐색 : 데이터웨어하우스에서 데이터 마트를 생성할 때, 데이터의 분석을 통해 지식을 얻는 방법
- 기계학습 : 컴퓨터가 학습할 수 있도록 기술을 개발(인공신경망, svm 등)
- 패턴 인식 : 사전지식과 통계정보를 기반으로 패턴을 분석하는 방법 

6.3 사례
- 텍스트 마이닝, 마케팅, 주식 등 

 

반응형

+ Recent posts