반응형

[통계] T-Test 란 무엇인가

1. T test란
- 모집단의 표준편차를 모를 때, 표본이 평균값에 대한 가설
- 두 집단이 같은지, 다른지 알기 위해서 사용하며, 두 집단의 평균을 통해 확인이 가능하다. 

2. T-Test를 위한 통계적 질문
- 결정론적 의사결정에서는 1.4cm 키 차이가 발생함 으로 끝을 낸다. 
- 통계적 질문에서는 A 대학과 B 대학의 키가 우연히 같을 확률,
- A대학과 B 대학의 키가 우연히 차이가 날 확률을 물어본다.
- 이는 표준편차란 우연히 퍼져있는 정도를 의미하며, 평균을 기준으로 표준편차 이내에 1.4cm 가 들어가 있다면 우연히 발생한 것이 아님을 증명한 것이다. 

3. 정규분포란 무엇인가
- 가우스가 만든 정규분포이므로, 좌우 대칭인 종모양의 분포이다. 
- 평균과 표준편차를 기준으로 만들어진 확률분포곡선이며, 넓이의 합은 1이 된다.
-  예를 들어 1000명을 대상으로 평균이 82, 표준편차 5라고 하는 값이 나왔다면 82점에서 90점까지 몇명인가? 와 같은 문제를 해결할 수 있다. 
- 계산하는 방법은 90을 평균으로 뺴고 표준편차로 나눈후, 나온 값을 표준 정규분포표에서 찾아서 정규분포의 면적을 계산할 수 있다.
- t test는 정규분포표를 사용하지는 않지만 분포표의 면적을 통해 확률을 계산하는 것은 일치한다. 

 

4. 양측검정 vs 단측 검정
4.1 양측검정
- a와 b가 다르다 (양측 검정)
- 5% 기준으로 다름을 증명한다면, 양 끝의 확를이 각각 2.5%이다. 
- 1.4cm 가 양 끝쪽에 포함되면, 우연히 차이가 발생한 것이다. 

4.2 단측검정
- a가 b보다 크다 or a가 b보다 작다(단측 검정)
- 5% 기준으로 다름을 증명한다면, 한쪽 끝의 확률이 5%이다. 
- 1.4cm 가 한쪽 끝에 포함된다면, 우연히 차이가 발생한 것이다. 

5. T test vs Z test
- Z test에서는 평균을 뺴고 표준편차로 나눴지만, T test는 평균과 표준편차, 표본의 개수를 모두 고려한다. 
- 수식을 보면 t-value는 표본의 개수가 많으면 많을수록 정규분포가 됨을 알 수 있다.
- t-value가 커지면 정규분포가 된다는 것이며, 자유도가 커진다는 것은 t분표에 묶여있다가 정규분포 사용할 수 있다는 것을 의미함
- t table을 보면, 단측 검정과 양측검저에 따라 표를 다르게 볼 수 있으며, 자유도의 개수에 따라서 critical value 값을 선택할 수 있다. 
- t table에서 선택한 critical value와 실제 계산한 t value 값을 비교하여 95%이내, 99%이내에 값이 있는지를 확인할 수 있다.
- 결론적으로, t value 값이 critical value보다 크다면, 평균 키 차이 1.4cm 차이가 우연히 날 확률이 5%이내가 되는 것이다.
- 일반적으로, R 프로그래밍을 돌리면 P value 값이 5%보다 작으므로 유의미하다 하고 끝난다. 

 



참조

[1]. Ttest란 무엇인가, https://www.youtube.com/watch?v=mEWQ_vl3IPw&list=PLalb9l0_6WArHh18Plrn8uIGBUKalqsf-

[2]. T-test란 무엇인가 , https://www.youtube.com/watch?v=D_wJuKIADEU&list=PLalb9l0_6WArHh18Plrn8uIGBUKalqsf-&index=2

[[3]. z test란 무엇인가, https://www.youtube.com/watch?v=AovOoq4p3nY&list=PLalb9l0_6WArHh18Plrn8uIGBUKalqsf-&index=3

 

반응형
반응형

[통계] T분포란

1. 유례
- 고셋이 예명으로 student 를 사용하여 t를 따서 t 분포를 사용함
- 작은 sample을 통해 많은 정보를 알기 위해 사용된다.

2. 참조

[1]. t분포 유례 https://www.youtube.com/watch?v=xmDs5s-1beo&list=PLTbYxwBP103_hnp-1WVv4jqIMJnPDFveU&index=5

 

 

반응형
반응형

[통계] 자유도란

1. 자유도란?
- 자유도란 계산의 자유도를 의미한다.
- 서로 독립적인 미지수의 수

2. 표본 자유도 계산
- 표본 평균의 자유도는 미지수의 수가 3개라면 자유도가 3이다.
- 표본 분산의 자유도는 변수에 표본 평균의 값을 뺀다. 그러므로 미지수의 수는 3이고, 표본 평균 추정치는 1개이다.
- 미지수의 수 3개에서 추정치 1개를 빼면 2개가 나온다. 

3. 참조
https://www.youtube.com/watch?v=O4bpaGOd4Hg&list=PLTbYxwBP103_hnp-1WVv4jqIMJnPDFveU&index=3

 

반응형
반응형

[통계] 1종 오류, 2종 오류

 

1.1종 오류, 2종 오류란?
- 1종 오류와 2종 오류는 기무가설, 대립가설에서 많이 쓰이는 용어이다.
- 단순 암기가 아닌 이해가 필요하다.
- 1종 오류와 2종 오류는 판단에 대한 오류를 의미한다. 
- 판단이란 증거를 보고 참, 거짓인지 판단하는 것이다. 
- 1종 오류는 참인데 거짓이라고 예측했으므로, 헛다리 짚는 것이다.
- 2종 오류는 거짓인데 참이라고 예측했으므로, 답답한 사람이다. 

2. 1종 오류, 2종 오류 표

  예측 기무가설 참 예측 기무가설 거짓
실제 기무가설 참 okay 1종 오류
실제 기무가설 거짓 2종 오류 okay


3. 1종 오류와 2종 오류의 관계
- 1종 오류와 2종 오류는 서로 Trade off 관계이다.
- 1종 오류와 2종 오류를 모두 낮추기 위해서는 sample 수가 많아지면 된다. 

4. 참조

https://www.youtube.com/watch?v=kfl2f8cZwdY&list=PLTbYxwBP103_hnp-1WVv4jqIMJnPDFveU&index=2

 

반응형

'유튜브 강좌 > ASDF오터의 통계' 카테고리의 다른 글

[통계] T분포란  (1) 2021.03.12
[통계] 자유도란  (0) 2021.03.12
[통계] 표준편차란 무엇인가  (1) 2021.03.12
반응형

[통계] 평균, 표준편차란

 

1. 평균
- 180이라는 숫자가 큰 숫자인지 아닌지 판단하기 위해서는 단위가 필요하다.
- 단위가 없다면 성인남성 평균키가 171이므로  180cm가 일반적으로 크다는 것을 알 수 있다. 

2. 표준편차
- 단위를 모를때, 표준편차를 통해서 알 수 있다.
- 181과 174 모두 평균보다 키는 큰데 얼마나 큰지 알 수 없다.
- 그러므로 표준화를 통해 단위를 없애고, 단계별로 상위 몇%인지 알 수 있다.

3. 참조

[1]. 표준편차란 무엇인가 , https://www.youtube.com/watch?v=XrL2SbwAfhE&list=PLTbYxwBP103_hnp-1WVv4jqIMJnPDFveU&index=3

 

반응형
반응형

[ADP/ADSP] 3.4.3 확률 및 확률 분포

1. 확률이란
표본 공간의 원소의 개수에 대한 사건의 개수의 비율로 0에서 1 사이의 값을 갖는 값을 확률이라고 한다.

2. 확률 용어 정의
o 표본 공간(sample case)
- 시험을 통해 나타내는 모든 결과들의 집합

o 사건(event)
- 표본 공간의 부분집합

o 원소(element)
- 나타날 수 있는 모든 결과

3. 확률 변수와 확률 분포
3.1 확률 변수(random variable)
- 특정값이 나타날 가능성이 확률적으로 주어지는 변수 이산확률 변수와 연속확률 변수로 나뉨
이산 확률 변수 : 확률 값을 셀수 있음(동전 던지기, 3번 중 2번 안타를 칠 확률 등)
연속 확률 변수 : 구간에 대한 값을 계산함(센서 값은 연속 확률 변수로 가우시안 분포를 따름)

3.2 확률 분포(distribution)
- 확률 변수가 특정 분포를 가질 확률을 나타내는 함수

A. 이산형 확률 분포
* 베루누이 분포(Bernoulli distribution)
- 동전 던지기와 같이 결과가 2개만 나오는 경우
ex) 동전의 앞면이 나올 확률

* 이항분포(Binomial distribution)
- 결과가 2개만 나오는 베루누이 시행을 N 번 반복했을 때, K번 성공할 확률
ex) 5번 중 3번이 앞면이 나올 확률

*기하 분포(Geometric distribution)
- 베루누이 시행에서 첫번째 성공이 있을 때까지 x번 실패할 확률
ex) 첫 앞면이 나올때까지 뒷면이 나올 확률

* 다항분포(Multinomial distribution)
- 결과가 3가지 이상인 확률 분포

*포아송분포(Poisson distribution)
시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률 분포
ex) 10 page에서 10개의 오타가 나왔다면 1page에서 오타가 2개 나올 확률

B. 연속형 확률 분포
* 균일 분포(Uniform Distribution)
- 확률 분포가 일정한 분포를 갖음
* 정규 분포(Normal Distribution)
- 평균이 0이고 표준편차가 1인 종모양의 분포
* 지수 분포(Exponential Distribution)
- 경과 시간에 대한 연속확률분포

* T 분포(T-Distribution)
- 평균이 0이고 좌우가 동일한 분포로 표본이 30개 이상이면 정규분포와 거의 같은 분포가 된다.
- 두 집단간의 편균이 동일한지 알고자 할 때 검정통계량으로 활용된다.

* 카이제곱 분포(chi_square distribution)
- 두 집단의 동질성 검정에 활용하며, 범주형 자료에 대해 얻어진 관측값과 기대값의 차이를 보는 검정에 활용

* F 분포(F-distribution)
- 카이제곱과는 다르게 2개의 자유도를 갖고 있으며, 자유도가 커질 수록 정규분포를 따른다.
- 분산의 동일성 검정에 사용되는 통계량의 분포이다.

반응형
반응형

[ADP/ADSP] 3.4.2 통계 분석


1. 정의
- 통계 분석이란 불확실한 현상에 대해 조사를 통해 정보를 구하고 통계 분석을 통하여 의사결정을 하는 방법
- 통계 분석 방법은 기술 통계 분석과 통계적 추론 방법이 존재함 


2. 통계 분석 방법

o 기술 통계(Descriptive Statistic)
- 객관적인 데이터로 나타내거나, 그래프로 시각화하여 분석하는 방법

o  통계적 추론(Inference statistics)
- 수집된 자료를 기반으로 모집단을 추정하는 방법들로 3가지로 나뉨
a. 모수 추정
표집단으로 부터 모수를 분석하여 모집단을 추정하는 기법

b. 가설 검정
- 가설을 설정하고 가설이 맞는지 아닌지를 채택여부를 결정

c. 예측
- 머신런닝, 딥러닝 기법을 사용하여 불확실한 문제를 효율적으로 해결함 

반응형
반응형

[ADP/ADSP] 3.4.1 통계의 이해
1. 통계 
- 실험이나 조사를 통해 나온 데이터를 표나 요약된 형태로 표현한 것
- 통계량에서 모수의 특성을 표본을 통해 추론
- 가설을 설정하고(기무가설, 대립가설) 통계기법(모수 검정, 비모수 검정)을 통하여 모수를 추론


2. 용어(4가지)
- 모집단(population) : 집단 전체
- 모수(parameter) : 표본을 통해 추정한 모집단 
- 표본(sample) : 조사를 통해 추출한 집단
- 원소(element) : 모집단을 구성하는 개체

3. 표본 추출 방법(4가지)
o 단순 랜덤 추출법 (simple random sampling)
- 랜덤으로 추출하는 방법
o 계통추출법(systematic sampling)
- k개씩 n개로 나눈 후, 임의의 위치에서 매 k 번째 항목을 추출하는 방법
o 집락추출법(cluster random sampling)
- 군집별로 랜덤 추출하는 방법
o 층화추출법(stratified random sampling)
- 이질직 원소로 구성된 모집단에서 각 계층별 램덤 추출하는 방법

4. 표본 측정 방법(4가지)
o 질적 척도
    - 명목 척도 : 성별과 같이 분류에 사용
    - 순서(서열) 척도 : 신용도, 학번과 같이 Index값을 의미있게 활용할 수 있음

o 양적 척도
    - 구간(등간) 척도 : 온도와 같이 절대 기준은 없으며 간격에 의미가 있음
    - 비율 척도 : 절대적인 기준인 원점이 있는 것으로 사칙연산이 가능

반응형

+ Recent posts