반응형

[adp/adsp] t분포의 정의

1. t 분포
평균값을 비교하고자 할 때 사용하는 검증 방법

2. t분포 종류
t분포에는 일표본(one sample) t분포, 대응(paired sample) 표본t 분포, 독립표본(independent sample) t 분포가 존재함
2.1 일표본(one sample) t 분포
- 변수의 평균과 특정 값과 일치하는지 확인하는 t검정
- 가설설정-> 유의수준 설정-> 검정통계량 및 유의확률계산->기각여부 판단 및 의사결정 4가지로 구성됨
ex) 해당 센서는평균이 0이라고 하는데 진짜인 확인해보세요.

2.2 대응(paired sample) t 분포
- 두 변수의 평균이 일치하는지 확인하는 t 검정
- 가설설정 -> 유의수준 설정 (일반적으로 0.05) -> 검정 통계량 및 유의확률값 계산 -> 기각여부 및 의사결정 (4단계)
ex) 해당 센서의 데이터가 고장시에는 다르게 나오는 것인지 noraml 상태와 abnormal 상태에서의 평균을 비교해 보세요.

2.3 독립(independent sample) t 분포
- 두 개의 독립된 모집단의 평균을 비교하는 거으로 분산이 같다라는 전제가 필ㅇ하므로 등분산성 분석도 이뤄져야 함
- 가설 설정 -> 유의수준 설정 ->  등분산성 계산 -> 검정통계량 및 유의 확률값 계산 -> 기각여부 및 의사결정 (5단계)
ex) 남, 여의 샤워할 때의 온도가 같은지 확인해 보세요. 

반응형
반응형

[adp/adsp] 확률 분포 정의

 

1. 확률 분포
- 확률 변수들이 가지는 확률에 대한 분포를 의미

2. 확률 분포 종류
2.1 이산형 확률 분포
베르누이분포: 이번 타석에 안타를 칠 확률
이항분포: 5벗중 3번 안타를 칠 확률
기하학분포: 3번째 안타를 친다고 했을 때, 2번 헛수윙할 화률
다항분포: 볼, 스트라이크, 파울이 1번씩 일어날 확률
포아송분포: 10번중 3번 홈런을 친다면, 이번에 홈런을 칠 확률 

2.2 연속형 확률 분포
균일분포 : 화률이 일정한 것
정규분포 : 평균과 표준편차가 있을 때 종모양의 분포
지수분포 : 경과 시간에 대한 연속확률분포
t분포 : 두 집단의 평균이 동일한지를 보는 분포로, n의 개수가 많아지면 정규분포와 비슷하게 됨
카이제곱분포 : 두 집단의 동질성 검정에 활용
f분포 : 두 집단의 분산 분석에 활용 

반응형
반응형

[통계] 상관관계와 상관계수

1. 상관 관계란 
- 양의 상관관계와 음의 상관관계가 있다. 
- x가 증가할 때, y 가 증가하는 것은 양의 상관관계이다. 

2. 상관 계수
- 방향과 힘의 개념이 존재함
- -1부터 1까지 존재함. 
- 0일 경우 상관이 없다고 할 수 있다. 
- 산포도를 그렸을 때, 모여있으면 상관계수의 값이 크다. 

3. 인과관계
- 원인과 관계를 갖는 관계성을 인과관계이다. 
- 저녁을 먹어서 배가 부르다 와 같이 원인과 결과가 있다.
- 상관관계와 관련이 없다. 

4. 참조 
https://www.youtube.com/watch?v=Se7mWTBRfCc&list=PLalb9l0_6WAq-ZNVWOhRdax1nroxFovUb&index=6

 

반응형
반응형

[통계] 변수의 종류는 무엇이 있는가

 

1. 변수란
- 변화하는 숫자이다. 
- 변수의 반대말은 상수일 것이다. 

2. 변수 종류
명목 척도 : 변수에는 이름을 대신할 뿐 의미가 없다. ex) 이름
순위 척도 : 순서에 의미가 있다. ex) 신용도
구간 척도 : 절대값이 없지만 비율에 의미가 있다. ex) 온도
비율 척도 :  0이라는 절대 값이 있다. ex) 몸무게 

3. 참조

https://www.youtube.com/watch?v=otvjWhlefnc&list=PLalb9l0_6WAq-ZNVWOhRdax1nroxFovUb&index=5

 

 

반응형
반응형

[통계] 통계적 가설과 오류, 귀무가설, 대립가설이란?

 

1. 귀무가설
- Null Hypothesis의 약자로 아무 영향이 없다.
- 인과관계가 없다. 

2. 대립가설
- Alternative Hypotheiss 의 약자로 귀무가설과 대립되는 가설이다.
- p value값이 5% 보다 작으면 인과 관계가 존재한다. 

3. 1종 오류, 2종오류로 보는 p value 

  사실이라고 예측 거짓이라고 예측
사실 문제x 1종 오류
거짓 2종 오류 문제x

1종 오류란 사실인데 거짓으로 예측한 확률이며, 5% 이내로 하겠다고 한 p value 를 의미하며, 
사실인데 거짓이라고 예측할 확률을 5% 이내로 하겠다는 것이다. 

 

반응형
반응형

[통계] 평균과 분산

 

1. 결정론적
- a를 사니 매출이 10% 올랐다
- a를 하니 매출이 10% 떨어졌다.

2. 통계적 의사결정
- a를 사니 매출이 우연히 10%오른 가능성은? 

3. 평균과 표준편차
- 평균 : 아웃라이어에 취약하다.
- 분산 : 평균을 기준으로 퍼져있는 거리
- 표본 분산의 분모는 n-1인 이유는, 분산을 계산할 때 추정치인 평균이 들어갔으므로 1을 한번 빼는 것이다. 

4. 평균과 부나이 중요한 이유
- 체비체프에 따름녀 데이터가 아무리 불규칙 하다고 하더라도 평균값 에 2*표준편차 안에는 전체의 4분의 3의 데이터가 포함됨을 증명함 

5. 참조
[1]. 결정론적 사고, 통계적 사고, https://www.youtube.com/watch?v=NG1ZNH1kOl0&list=PLalb9l0_6WAq-ZNVWOhRdax1nroxFovUb

[2].평균과 표준편차, https://www.youtube.com/watch?v=7p4tjnQso48&list=PLalb9l0_6WAq-ZNVWOhRdax1nroxFovUb&index=2

 

반응형
반응형

[통계] T test 종류

 

1. Two Sample T-Test
- 두 집단의 평균이 같은지를 가설을 세우고 검증하는 방법
- 분산 계산 방식이 두 집단의 평균을 모두 고려해야 하므로 조금 복잡함

2. One Sample T-Test
- 한개의 sample을 기반으로 가설을 세우고 검증하는 방법
- 두개의 집단이 아니라 하나의 샘플이 내가 생각한 평균과 같은지 검증하는 방법
- 한 집단의 표준편차만 고려하면 됨

3. Paired T-Test
- Before와 After의 평균이 같은지를 판단하는 방법
- 교재를 바꾸기 전과 바꾼 후의 평균을 비교하는 방법
- one sample t test와 유사

4. 참조

https://www.youtube.com/watch?v=yy3YLYTmnu0&list=PLalb9l0_6WArHh18Plrn8uIGBUKalqsf-&index=6

 

 

 

 

반응형
반응형

[통계] T-Test 란 무엇인가

1. T test란
- 모집단의 표준편차를 모를 때, 표본이 평균값에 대한 가설
- 두 집단이 같은지, 다른지 알기 위해서 사용하며, 두 집단의 평균을 통해 확인이 가능하다. 

2. T-Test를 위한 통계적 질문
- 결정론적 의사결정에서는 1.4cm 키 차이가 발생함 으로 끝을 낸다. 
- 통계적 질문에서는 A 대학과 B 대학의 키가 우연히 같을 확률,
- A대학과 B 대학의 키가 우연히 차이가 날 확률을 물어본다.
- 이는 표준편차란 우연히 퍼져있는 정도를 의미하며, 평균을 기준으로 표준편차 이내에 1.4cm 가 들어가 있다면 우연히 발생한 것이 아님을 증명한 것이다. 

3. 정규분포란 무엇인가
- 가우스가 만든 정규분포이므로, 좌우 대칭인 종모양의 분포이다. 
- 평균과 표준편차를 기준으로 만들어진 확률분포곡선이며, 넓이의 합은 1이 된다.
-  예를 들어 1000명을 대상으로 평균이 82, 표준편차 5라고 하는 값이 나왔다면 82점에서 90점까지 몇명인가? 와 같은 문제를 해결할 수 있다. 
- 계산하는 방법은 90을 평균으로 뺴고 표준편차로 나눈후, 나온 값을 표준 정규분포표에서 찾아서 정규분포의 면적을 계산할 수 있다.
- t test는 정규분포표를 사용하지는 않지만 분포표의 면적을 통해 확률을 계산하는 것은 일치한다. 

 

4. 양측검정 vs 단측 검정
4.1 양측검정
- a와 b가 다르다 (양측 검정)
- 5% 기준으로 다름을 증명한다면, 양 끝의 확를이 각각 2.5%이다. 
- 1.4cm 가 양 끝쪽에 포함되면, 우연히 차이가 발생한 것이다. 

4.2 단측검정
- a가 b보다 크다 or a가 b보다 작다(단측 검정)
- 5% 기준으로 다름을 증명한다면, 한쪽 끝의 확률이 5%이다. 
- 1.4cm 가 한쪽 끝에 포함된다면, 우연히 차이가 발생한 것이다. 

5. T test vs Z test
- Z test에서는 평균을 뺴고 표준편차로 나눴지만, T test는 평균과 표준편차, 표본의 개수를 모두 고려한다. 
- 수식을 보면 t-value는 표본의 개수가 많으면 많을수록 정규분포가 됨을 알 수 있다.
- t-value가 커지면 정규분포가 된다는 것이며, 자유도가 커진다는 것은 t분표에 묶여있다가 정규분포 사용할 수 있다는 것을 의미함
- t table을 보면, 단측 검정과 양측검저에 따라 표를 다르게 볼 수 있으며, 자유도의 개수에 따라서 critical value 값을 선택할 수 있다. 
- t table에서 선택한 critical value와 실제 계산한 t value 값을 비교하여 95%이내, 99%이내에 값이 있는지를 확인할 수 있다.
- 결론적으로, t value 값이 critical value보다 크다면, 평균 키 차이 1.4cm 차이가 우연히 날 확률이 5%이내가 되는 것이다.
- 일반적으로, R 프로그래밍을 돌리면 P value 값이 5%보다 작으므로 유의미하다 하고 끝난다. 

 



참조

[1]. Ttest란 무엇인가, https://www.youtube.com/watch?v=mEWQ_vl3IPw&list=PLalb9l0_6WArHh18Plrn8uIGBUKalqsf-

[2]. T-test란 무엇인가 , https://www.youtube.com/watch?v=D_wJuKIADEU&list=PLalb9l0_6WArHh18Plrn8uIGBUKalqsf-&index=2

[[3]. z test란 무엇인가, https://www.youtube.com/watch?v=AovOoq4p3nY&list=PLalb9l0_6WArHh18Plrn8uIGBUKalqsf-&index=3

 

반응형

+ Recent posts