반응형

[adp/adsp] 교차 분석이란

 

1. 교차 분석
- 범주형(명목 척도, 순서 척도) 자료에서 두 변수간의 관계를 알아보기 위하여 사용함
- 적합도 검정, 독립성 검정, 동질성검정에 활용됨
- 카이제곱통계량을 활용함

2. 적합도 검정
- 관측도수와 범주의 기대 도수가 적합한지 확인하기 위한 검정
ex) 귀무가설 : 남자일 확률 50%, 여자일 확률 50%이다. , pvalue 값이 5% 미만이면, 기각

3. 독립성 검정
- 두 변수간의 상관성이 있는지 없는지를 확인하기 위한 검정
ex) 귀무가설 : 두 변수 사이에는 연관이 없다, pvalue 값이 5% 미만이면 연관있음 

4. 동질성 검정
- 모집단에서 표본을 뽑았을 때, 모집단의 분포와 표본 집단의 분포가 동질성을 갖는지 확인하기 위한 검정
ex) 모집단에서 추출한 표본과 모집단의 분포는 동질성이 있다. pvalue 값이 5% 미만이면 연관없음 

결론 
교차 분석은 두 집단간의 동질성을 판단하는 분석 방법으로, 기대 했던 값과의 적합도 검정, 변수들간의 적합도 검정, 모집단과 표본간의 동질성 검정에 활용된다. 

반응형
반응형

[adp/adsp] t분포의 정의

1. t 분포
평균값을 비교하고자 할 때 사용하는 검증 방법

2. t분포 종류
t분포에는 일표본(one sample) t분포, 대응(paired sample) 표본t 분포, 독립표본(independent sample) t 분포가 존재함
2.1 일표본(one sample) t 분포
- 변수의 평균과 특정 값과 일치하는지 확인하는 t검정
- 가설설정-> 유의수준 설정-> 검정통계량 및 유의확률계산->기각여부 판단 및 의사결정 4가지로 구성됨
ex) 해당 센서는평균이 0이라고 하는데 진짜인 확인해보세요.

2.2 대응(paired sample) t 분포
- 두 변수의 평균이 일치하는지 확인하는 t 검정
- 가설설정 -> 유의수준 설정 (일반적으로 0.05) -> 검정 통계량 및 유의확률값 계산 -> 기각여부 및 의사결정 (4단계)
ex) 해당 센서의 데이터가 고장시에는 다르게 나오는 것인지 noraml 상태와 abnormal 상태에서의 평균을 비교해 보세요.

2.3 독립(independent sample) t 분포
- 두 개의 독립된 모집단의 평균을 비교하는 거으로 분산이 같다라는 전제가 필ㅇ하므로 등분산성 분석도 이뤄져야 함
- 가설 설정 -> 유의수준 설정 ->  등분산성 계산 -> 검정통계량 및 유의 확률값 계산 -> 기각여부 및 의사결정 (5단계)
ex) 남, 여의 샤워할 때의 온도가 같은지 확인해 보세요. 

반응형
반응형

[adp/adsp] 확률 분포 정의

 

1. 확률 분포
- 확률 변수들이 가지는 확률에 대한 분포를 의미

2. 확률 분포 종류
2.1 이산형 확률 분포
베르누이분포: 이번 타석에 안타를 칠 확률
이항분포: 5벗중 3번 안타를 칠 확률
기하학분포: 3번째 안타를 친다고 했을 때, 2번 헛수윙할 화률
다항분포: 볼, 스트라이크, 파울이 1번씩 일어날 확률
포아송분포: 10번중 3번 홈런을 친다면, 이번에 홈런을 칠 확률 

2.2 연속형 확률 분포
균일분포 : 화률이 일정한 것
정규분포 : 평균과 표준편차가 있을 때 종모양의 분포
지수분포 : 경과 시간에 대한 연속확률분포
t분포 : 두 집단의 평균이 동일한지를 보는 분포로, n의 개수가 많아지면 정규분포와 비슷하게 됨
카이제곱분포 : 두 집단의 동질성 검정에 활용
f분포 : 두 집단의 분산 분석에 활용 

반응형
반응형

[ADP/ADSP] 3.4.1 통계의 이해
1. 통계 
- 실험이나 조사를 통해 나온 데이터를 표나 요약된 형태로 표현한 것
- 통계량에서 모수의 특성을 표본을 통해 추론
- 가설을 설정하고(기무가설, 대립가설) 통계기법(모수 검정, 비모수 검정)을 통하여 모수를 추론


2. 용어(4가지)
- 모집단(population) : 집단 전체
- 모수(parameter) : 표본을 통해 추정한 모집단 
- 표본(sample) : 조사를 통해 추출한 집단
- 원소(element) : 모집단을 구성하는 개체

3. 표본 추출 방법(4가지)
o 단순 랜덤 추출법 (simple random sampling)
- 랜덤으로 추출하는 방법
o 계통추출법(systematic sampling)
- k개씩 n개로 나눈 후, 임의의 위치에서 매 k 번째 항목을 추출하는 방법
o 집락추출법(cluster random sampling)
- 군집별로 랜덤 추출하는 방법
o 층화추출법(stratified random sampling)
- 이질직 원소로 구성된 모집단에서 각 계층별 램덤 추출하는 방법

4. 표본 측정 방법(4가지)
o 질적 척도
    - 명목 척도 : 성별과 같이 분류에 사용
    - 순서(서열) 척도 : 신용도, 학번과 같이 Index값을 의미있게 활용할 수 있음

o 양적 척도
    - 구간(등간) 척도 : 온도와 같이 절대 기준은 없으며 간격에 의미가 있음
    - 비율 척도 : 절대적인 기준인 원점이 있는 것으로 사칙연산이 가능

반응형
반응형

[ADP/ADSP] 3.1.1 데이터 분석 기법의 이해

 

1. 데이터 처리
- DW(Data Warehouse), DM(Data Mart)를 통해 데이터 구성
- DW와 DM에 데이터가 없다면, ODS(Operational Data Store)에서 가져와서 사용 필요
- ODS에도 데이터가 없다면 기존 운영시스템(Leagacy) or 스테이징 영역(Staging Area)에서 데이터를 불러와 클렌징 후 사용
ex) 네이버 검색 순위

2. 시각화
- 탐색적 분석에 필수이며, 그래프 분석이 가장 효율적
- 시각화 만으로도 outlier(이상점) 탐지가 쉬움
ex) polygon, heatmap, mosaic graph 등이 있음

3. 공간 분석 (Spartial Analysis)
- 지도 위에 공간적 차원과 관련된 속성들을 시각화
ex) 지역별 투표율

4. 탐색적 분석(EDA[Exploratory Data Analysis])
- 데이터로 부터 의미있는 사실을 도출하여 분석의 최종 목표를 향해 달성해 가는 과정
ex) 모형 개발에서  데이터 이해, 변수 생성, 변수 선택 단계에서 활용
- EDA의 4가지 주제
    o 저항성의 강조(Resistance)
        -> 데이터 파손에 대한 저항성
        ex) 데이터가 많으면 데이터의 파손에 대한 저항성이 증가하여 overfitting 방지함

    o 잔차(Residual) 계산
        -> 개별 데이터가 주경향성에 얼마나 벗어났는지 확인
        ex) 이동평균 필터 값과의 차이, 마할라노비스 거리를 통한 이상치 계산

    o 자료 변수의 재표현(re-expression)
        -> 분포의 선현성, 분산의 안전성, 관련 변수의 가법성, 분포의 대칭성
        ex) log 함수, 역수 변환, 제곱근 변환

    o 시각화 (Graphical Representation)
        -> 그래프
        ex) 점, 선, 원  그래프

5. 통계적 분석
    o 기술 통계(Descriptive Statistics)
    - 모집단으로 부터 추출한 표본을 숫자나 그래프로 표현

    o 추론 통계 (Inferential Statistics)
    - 표본 통계량으로 부터 모수에 관해 통계적으로 추론

6. 데이터 마이닝
- 빅데이터로 부터 관계, 패턴, 규칙 등을 탐색하고 이전에 알지 못한 지식을 추출하는 방법

-  방법론
    o 데이터 베이스의 지식탐색
    o 머신런닝
    -> svm, 인공신경망, 의사결정 나무, 클러스터링, 베이지안 분류
    o 패턴 인식
    -> 연관 규칙, 장바구니 분석

- 모델링
    o 주의 사항
    -> 데이터마이닝 모델은 통계적 모델링이 아니므로 통계 가설이나 유의성에 집착하면 안됨
    -> 다양한 모델링 옵션을 줄 필요가 없으며, 성능이 만족되면 모델 최적화는 중단한다.
    o 평가 기준
    - 정확도, 정밀도, 리프트, 디텍트 레이트 등이 존재함

반응형
반응형

[4과목 데이터 분석 소개] 데이터 분석 소개

1. 데이터 마이닝 개념

- 빅데이터 속에서 유용한 정보를 찾아내는 과정이며, 새로운 정보를 발견하고 의사결정에 활용하는 일련의 작업
-  입력 값은 독립 변수, 출력은 종속 변수 혹은 반응 변수라고 한다. 데이터 마이닝은 독립변수에 따른 종속변수가 어떻게 나오는지 모델링하는 것이라고 할 수 있다. .

2. 데이터 마이닝 분석 방법

- 지도학습은 정답이 있는 것을 학습시키는 방식이며, 의사결정나무, 인공신경망, 회귀 분석, 로지스틱 회귀분석 등이 있다. 
- 이러한 지도학습은 분류(Classification) 과 예측(Regression) 문제로 나뉜다.
- 비지도학습은 정답이 없는 것을 학습하는 것이며, 군집분석, 연관성 분석이 이에 해당한다. 

3. 의사결정나무

- 소집단으로 분류하거나 예측 수행하는 분석
- 시각화가 가능하여 성과를 한눈에 볼 수 있다.
- 분류나무 회귀 나무가 존재한다. 

- iris의 경우 꽃잎의 길이와 넓이에 따라 품종을 classification 할 수 있다. 
- 의사결정 나무에서 Overfitting이 발생하지 않도록 가지치기(Prunning) 을 수행해야 한다.
- 결과에 노이즈가 끼지 않고  잡음 데이터에 민감함 없이 분류할 수 있다는 장점이 있다. 

 

참조

https://www.youtube.com/watch?v=yTDtSxzOeFw

 

 

반응형
반응형

[ADsp 정리] 3-4.1  통계 분석 

1.방법
1-1 표본 조사
- 모집단(Population): 전체
- 원소(Element) : 모집단을 구성하는 개체
- 표본(Sample) : 모집단의 일부 
- 모수(Parameter) : 표본 관측에 의해 구하고자 하는 모집단의 정보
- 확률 변수(Random Variable) : 특정값이 나타날 가능성을 확률적으로 주어지는 변수

1-2. 표본 추출 방법
- 단순 랜덤 추출 법(Simple Random Sampling) : 단순 추출
- 계통 추출법(Systematic Sampling) : 나열하여 k개씩 n 개 구간으로 나누고 매 k번째 항목 추출
- 집략 추출법(Cluster Random Sampling) : 군집 구분 후, 샘플링 (지역표본추출, 다단계표본추출)
- 층화추출법(Stratified Random Sampling) : 층(Stratum)을 나눈 후, 랜덤 추출 (비례층화추출법, 불비례층화추출법)

1-3 측정 방법
- 명목 척도 : 이름 과 같이 집단에 속하는지 분류
- 순서 척도 : 학년과 같이 서열 관계
- 구간 척도(등간 척도) : 온도나 싸이즈와 같이 속성의 양
- 비율 척도 : 절대 기누이 있는 0이 있는 시간, 무게, 거리 등 
2. 통계 분석 정의
1 정의
통계 분석 : 통계 방법을 이용하여 의사결정을 하는 과정 
기술 통계(Descriptive Statistic) : 객관화 하여 통계분석

통계 추론(Inference Statistics)
A) 모수 추정 - 표본으로 모집단의 평균 분산 추정
B) 가설 검정 - 가설 설정 후 옮은지 아닌지 채택
C) 예측  - 불확실성을 해결해 효율적인 의사결정
3. 확률 분포
1. 이산형 확률 변수
베르누이 확률분포 : 결과가 2개만 나오는 경우 
이항 분포 : n번중 k번 성공할 확률
기하 분포 : 성공 확률이 p인 베루누이 시행에서 첫번째 성공때까지 x번 실패할 확률
다항 분포 : 3가지 이상의 결과를 가지는 반복실행에서 확률분포
포아송분포 : 시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률분포

2. 연속형 확률변수
균일 분포 : 일정한 균일한 확률을 가지는 확률분포
정규 분포 : 평균과 표준편차를 갖는 종모양의 확률밀도 함수 
표준 정규분포 : 평균이 0, 표준편차가 1인 정규분포
지수 분포 : 어떤 사건이 발생할 때까지 경과 시간에 대한 연속확률 분포 
t 분포 : 두 집단의 평균이 동일한지 알고자 할 때, 검정통계량으로 활용하며, 정규분포보다 더 퍼져있고 자유도가 커지면 정규분포와 가까워짐
카이제곱분포 : 모평균, 모부난이 알려지지 않은 모집단의 모분산에 대한 가설 검정에 사용되는 분포로 두 집단간의 동질성 검정에 활용 
F분포 : 두 집단간 분산의 동일성 검정에 사용되는 검정 통계량의 분포로 확률변수는 항상 양의 값, 카이제곱과 달리 2개의 자유도 갖고 있으며 자유도가 커지면 정규분포에 가까워짐
4. 추정
4.1 추정 방법
A) 점추정(Point Estimation)
모수가 특정 값일 것이라고 추정하는 것으로 평균, 중위수, 최빈 값 활용


B) 구간 추정(Interval Estimation)
모수가 특정 구간 안에 있을 것이라고 선언

* 모 분산을 알면 분자에 시그마를 넣으며 모르면 s를 넣는다. 

4.2 가설 방법
- 가설을 설정한 뒤, 가설의 채택 여부 설정
- 표본 관찰 후 귀무가설ㄹ과 대립 가설 중 하나를 선택 
A) 귀무가설(Null Hypothesis) - 비교하는 값과 차이가 없다
B) 대립가설(Alternative Hypothesis) - 차이가 있다(증거가 있을 떄)
C) 검정 통계량(Test Statistic) - 진위 판단 기준
D) 유의 수준(Significance Level) - 귀무가설을 기각하는 확률의 크기
E) 기각역(Critical Region) - 귀무가설이 옳다고 전제

  가검정결과 사실 가검정결과 거짓
사실 옳음 제 1종 오류
거짓 2종 오류  옳음

1종 오류와 2종 오류는 서로 상충 관계가 있으므로 1종을 고정시킨 후, 2종 오류를 최소화 시키도록 기각역을 설정

5. 검정
5-1. 모수 검정
- 모집단의 분포 가정
- 표준평균과 표준 분산을 이용하여 검증

5-2. 비모수 검정
- 관측값들의 순위나 차이의 분포를 이용해 검증
6. 인간관계
6-1 용어. 
1) 종속 변수(반응 변수, y) 
- 다른 변수에 영향을 받는 변수

2) 독립 변수(설명 변수, x)
- 영향을 주는 변수

3) 산점도(Scatter Plot)
- 점으로 표현한 그래프 

 

7. 상관분석
1) 공분산
- 공분산이란 두 변수간의 방향성을 확인하는 것
- 두 변수간의 관계가 없으면 0

2) 상관 분석
- 상관계수를 보고 판단 
0.7~1.0 : 큰 상관성
0.3~0.7 : 약한 상관성 
0~0.3 : 거의 없음

3) 상관 분석의 가설 검정
- 상관 계수 0 : x와 y 간의 차이 없음, 귀무 가설 =0, 대립 가설은 0 아님
- t 검정을 통해 얻은 p value 값이 0.05 이하인 경우, 대립가설이 채택 -> 상관관계 사용 가능
  피어슨 상관관계 분석 스피어만 상관관계 분석
개념 등간척도 이상으로 측정된 변수의 상관관계 측정 방식 서열 척도 변수의 상관관계 측정
특징 연속형, 정규성  순서형 변수, 비모수적 방법,
상관계수 피어슨 순위상관계수

 

 

반응형
반응형

[ADsp 정리] 3-4-4. 다차원척도,주성분 분석

 

1. 다차원 척도법(MDS)
1-1 정의
- 다차원 척도법(MDS/Multi Dimensional Scaling) 은 개체들의 유사성을 2차워/3차원으로 표현하는 방법
- 근접성(Proximity)을 시각화하는 방법

1.2 다차원 척도 방법
- 유클리드 거리행렬 활용

1.3 다차원척도법 종류
- 계량적 MDS(Metric MDS)
- 비계량적 MDS(nonmetric MDS)
2. 주성분 분석(PCA)
2-1. 개념
- 상관성이 높은 변수들의 선형 결합으로 상관성이 높은 변수들을 요약, 축소하는 기법
- 상관이 없는 주성분으로 차원 축소 
- 다중공선성(multicollinearity)가 존재하면 모형이 잘못 만들어질 수 있으므로, 차원을 축소하여야 함

2-2 주성분 선택 방법
- 누적기여율(Cumulative Proportion)이 85%이면 주성분의 수로 결정
- Screen Plot을 하여 eigen value 값이 수평을 유지하기 전 단계로 주성 분 선택
3. 요인 분석(Factor Analysis)
3-1.  개념
- 등간 척도로 측정한 두 개 이상의 변수들에 있는 공동인자를 찾는 방법

3.2 PCA와 FA의 공통점
- 두개 모두 데이터 축소 및 새로운 변수 생성에 활용 가능

3.3 PCA와 FA의 차이점
- PCA는 보통 3개, FA는 제한이 없다.
- PCA는 제 1주성분, 제 2주성분으로 표현하며, FA는 없다
- PCA는 제 1주성분이 가장 중요하지만, FA는 없다
- PCA는 목표 변수를 고려하여 변수들의 선형 결합으로 이루어지지만, FA는 없다. 
반응형

+ Recent posts