반응형

[ADsp 정리] 3-4.1  통계 분석 

1.방법
1-1 표본 조사
- 모집단(Population): 전체
- 원소(Element) : 모집단을 구성하는 개체
- 표본(Sample) : 모집단의 일부 
- 모수(Parameter) : 표본 관측에 의해 구하고자 하는 모집단의 정보
- 확률 변수(Random Variable) : 특정값이 나타날 가능성을 확률적으로 주어지는 변수

1-2. 표본 추출 방법
- 단순 랜덤 추출 법(Simple Random Sampling) : 단순 추출
- 계통 추출법(Systematic Sampling) : 나열하여 k개씩 n 개 구간으로 나누고 매 k번째 항목 추출
- 집략 추출법(Cluster Random Sampling) : 군집 구분 후, 샘플링 (지역표본추출, 다단계표본추출)
- 층화추출법(Stratified Random Sampling) : 층(Stratum)을 나눈 후, 랜덤 추출 (비례층화추출법, 불비례층화추출법)

1-3 측정 방법
- 명목 척도 : 이름 과 같이 집단에 속하는지 분류
- 순서 척도 : 학년과 같이 서열 관계
- 구간 척도(등간 척도) : 온도나 싸이즈와 같이 속성의 양
- 비율 척도 : 절대 기누이 있는 0이 있는 시간, 무게, 거리 등 
2. 통계 분석 정의
1 정의
통계 분석 : 통계 방법을 이용하여 의사결정을 하는 과정 
기술 통계(Descriptive Statistic) : 객관화 하여 통계분석

통계 추론(Inference Statistics)
A) 모수 추정 - 표본으로 모집단의 평균 분산 추정
B) 가설 검정 - 가설 설정 후 옮은지 아닌지 채택
C) 예측  - 불확실성을 해결해 효율적인 의사결정
3. 확률 분포
1. 이산형 확률 변수
베르누이 확률분포 : 결과가 2개만 나오는 경우 
이항 분포 : n번중 k번 성공할 확률
기하 분포 : 성공 확률이 p인 베루누이 시행에서 첫번째 성공때까지 x번 실패할 확률
다항 분포 : 3가지 이상의 결과를 가지는 반복실행에서 확률분포
포아송분포 : 시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률분포

2. 연속형 확률변수
균일 분포 : 일정한 균일한 확률을 가지는 확률분포
정규 분포 : 평균과 표준편차를 갖는 종모양의 확률밀도 함수 
표준 정규분포 : 평균이 0, 표준편차가 1인 정규분포
지수 분포 : 어떤 사건이 발생할 때까지 경과 시간에 대한 연속확률 분포 
t 분포 : 두 집단의 평균이 동일한지 알고자 할 때, 검정통계량으로 활용하며, 정규분포보다 더 퍼져있고 자유도가 커지면 정규분포와 가까워짐
카이제곱분포 : 모평균, 모부난이 알려지지 않은 모집단의 모분산에 대한 가설 검정에 사용되는 분포로 두 집단간의 동질성 검정에 활용 
F분포 : 두 집단간 분산의 동일성 검정에 사용되는 검정 통계량의 분포로 확률변수는 항상 양의 값, 카이제곱과 달리 2개의 자유도 갖고 있으며 자유도가 커지면 정규분포에 가까워짐
4. 추정
4.1 추정 방법
A) 점추정(Point Estimation)
모수가 특정 값일 것이라고 추정하는 것으로 평균, 중위수, 최빈 값 활용


B) 구간 추정(Interval Estimation)
모수가 특정 구간 안에 있을 것이라고 선언

* 모 분산을 알면 분자에 시그마를 넣으며 모르면 s를 넣는다. 

4.2 가설 방법
- 가설을 설정한 뒤, 가설의 채택 여부 설정
- 표본 관찰 후 귀무가설ㄹ과 대립 가설 중 하나를 선택 
A) 귀무가설(Null Hypothesis) - 비교하는 값과 차이가 없다
B) 대립가설(Alternative Hypothesis) - 차이가 있다(증거가 있을 떄)
C) 검정 통계량(Test Statistic) - 진위 판단 기준
D) 유의 수준(Significance Level) - 귀무가설을 기각하는 확률의 크기
E) 기각역(Critical Region) - 귀무가설이 옳다고 전제

  가검정결과 사실 가검정결과 거짓
사실 옳음 제 1종 오류
거짓 2종 오류  옳음

1종 오류와 2종 오류는 서로 상충 관계가 있으므로 1종을 고정시킨 후, 2종 오류를 최소화 시키도록 기각역을 설정

5. 검정
5-1. 모수 검정
- 모집단의 분포 가정
- 표준평균과 표준 분산을 이용하여 검증

5-2. 비모수 검정
- 관측값들의 순위나 차이의 분포를 이용해 검증
6. 인간관계
6-1 용어. 
1) 종속 변수(반응 변수, y) 
- 다른 변수에 영향을 받는 변수

2) 독립 변수(설명 변수, x)
- 영향을 주는 변수

3) 산점도(Scatter Plot)
- 점으로 표현한 그래프 

 

7. 상관분석
1) 공분산
- 공분산이란 두 변수간의 방향성을 확인하는 것
- 두 변수간의 관계가 없으면 0

2) 상관 분석
- 상관계수를 보고 판단 
0.7~1.0 : 큰 상관성
0.3~0.7 : 약한 상관성 
0~0.3 : 거의 없음

3) 상관 분석의 가설 검정
- 상관 계수 0 : x와 y 간의 차이 없음, 귀무 가설 =0, 대립 가설은 0 아님
- t 검정을 통해 얻은 p value 값이 0.05 이하인 경우, 대립가설이 채택 -> 상관관계 사용 가능
  피어슨 상관관계 분석 스피어만 상관관계 분석
개념 등간척도 이상으로 측정된 변수의 상관관계 측정 방식 서열 척도 변수의 상관관계 측정
특징 연속형, 정규성  순서형 변수, 비모수적 방법,
상관계수 피어슨 순위상관계수

 

 

반응형

+ Recent posts