[통계] T-Test 란 무엇인가
1. T test란
- 모집단의 표준편차를 모를 때, 표본이 평균값에 대한 가설
- 두 집단이 같은지, 다른지 알기 위해서 사용하며, 두 집단의 평균을 통해 확인이 가능하다.
2. T-Test를 위한 통계적 질문
- 결정론적 의사결정에서는 1.4cm 키 차이가 발생함 으로 끝을 낸다.
- 통계적 질문에서는 A 대학과 B 대학의 키가 우연히 같을 확률,
- A대학과 B 대학의 키가 우연히 차이가 날 확률을 물어본다.
- 이는 표준편차란 우연히 퍼져있는 정도를 의미하며, 평균을 기준으로 표준편차 이내에 1.4cm 가 들어가 있다면 우연히 발생한 것이 아님을 증명한 것이다.
3. 정규분포란 무엇인가
- 가우스가 만든 정규분포이므로, 좌우 대칭인 종모양의 분포이다.
- 평균과 표준편차를 기준으로 만들어진 확률분포곡선이며, 넓이의 합은 1이 된다.
- 예를 들어 1000명을 대상으로 평균이 82, 표준편차 5라고 하는 값이 나왔다면 82점에서 90점까지 몇명인가? 와 같은 문제를 해결할 수 있다.
- 계산하는 방법은 90을 평균으로 뺴고 표준편차로 나눈후, 나온 값을 표준 정규분포표에서 찾아서 정규분포의 면적을 계산할 수 있다.
- t test는 정규분포표를 사용하지는 않지만 분포표의 면적을 통해 확률을 계산하는 것은 일치한다.
4. 양측검정 vs 단측 검정
4.1 양측검정
- a와 b가 다르다 (양측 검정)
- 5% 기준으로 다름을 증명한다면, 양 끝의 확를이 각각 2.5%이다.
- 1.4cm 가 양 끝쪽에 포함되면, 우연히 차이가 발생한 것이다.
4.2 단측검정
- a가 b보다 크다 or a가 b보다 작다(단측 검정)
- 5% 기준으로 다름을 증명한다면, 한쪽 끝의 확률이 5%이다.
- 1.4cm 가 한쪽 끝에 포함된다면, 우연히 차이가 발생한 것이다.
5. T test vs Z test
- Z test에서는 평균을 뺴고 표준편차로 나눴지만, T test는 평균과 표준편차, 표본의 개수를 모두 고려한다.
- 수식을 보면 t-value는 표본의 개수가 많으면 많을수록 정규분포가 됨을 알 수 있다.
- t-value가 커지면 정규분포가 된다는 것이며, 자유도가 커진다는 것은 t분표에 묶여있다가 정규분포 사용할 수 있다는 것을 의미함
- t table을 보면, 단측 검정과 양측검저에 따라 표를 다르게 볼 수 있으며, 자유도의 개수에 따라서 critical value 값을 선택할 수 있다.
- t table에서 선택한 critical value와 실제 계산한 t value 값을 비교하여 95%이내, 99%이내에 값이 있는지를 확인할 수 있다.
- 결론적으로, t value 값이 critical value보다 크다면, 평균 키 차이 1.4cm 차이가 우연히 날 확률이 5%이내가 되는 것이다.
- 일반적으로, R 프로그래밍을 돌리면 P value 값이 5%보다 작으므로 유의미하다 하고 끝난다.
참조
[1]. Ttest란 무엇인가, https://www.youtube.com/watch?v=mEWQ_vl3IPw&list=PLalb9l0_6WArHh18Plrn8uIGBUKalqsf-
[2]. T-test란 무엇인가 , https://www.youtube.com/watch?v=D_wJuKIADEU&list=PLalb9l0_6WArHh18Plrn8uIGBUKalqsf-&index=2
[[3]. z test란 무엇인가, https://www.youtube.com/watch?v=AovOoq4p3nY&list=PLalb9l0_6WArHh18Plrn8uIGBUKalqsf-&index=3
'유튜브 강좌 > 통계 유튜브(Sapientia a Del)' 카테고리의 다른 글
[통계] 변수의 종류는 무엇이 있는가 (0) | 2021.03.12 |
---|---|
[통계] 통계적 가설과 오류, 귀무가설, 대립가설이란? (0) | 2021.03.12 |
[통계] p value란 무엇인가 (0) | 2021.03.12 |
[통계] 평균과 분산 (0) | 2021.03.12 |
[통계] T test 종류 (0) | 2021.03.12 |