반응형
[ADsp 정리] 3-4-2. 회귀 분석
1. 개념
1-1. 정의
- 독립변수가 종속변수에 영향을 미치는지 추정하는 통계 기법
- 독립변수가 한개이면 독립선형회귀, 여러개이면 다중선형회귀 사용
1-2. 변수
출력(y): 반응형 변수, 종속 변수, 결과 변수
입력(x) : 설명 변수, 독립 변수, 예측 변수
1-3. 선형회귀분석의 가정
A)선형성
- 입력 변수와 출력 변수가 선형 관계이다
B) 등분산성
- 오차와 분산이 일정하다
C) 독립성
- 입력변수와 오차는 관련이 없다.
D) 비상관성
- 오차들끼리 상관 없음
E) 정상성(정규성)
- 오차의 분포가 정규분포를 따름
- Q-Q Plot을 그렸을 떄, 대각 방향으로 정규분포를 따름
1-4. 검증 방법
A) 단순 선형 회귀 분석
- 입려 변수와 출력 변수의 산점도
- 독립 변수가 종속 변수에 미치는 영향을 추정할 수 있는 통계 기법
B) 다중 선형 회귀 분석
- 선형성, 등분산성, 독립성, 정상성 모두 확인
2. 단순 선형회귀 분석
2-1. 개념
-독립 변수가 종속 변수에 미치는 영향을 추정하는 통계 기법
2-2. 회귀분석 검토사항
- T 통계량의 P Value 값이 0.05 보다 작으면, 통계적으로 유의
- 결정 계수(Multiple R-squared)가 0~1을 갖으며, 높은 값이면 회귀식의 설명력이 높음
- 잔차 그래프를 통한 회귀진단을 하여 적합성 판단
2-3. 회구분석의 검정
- 회기 계수가 0이면 입력변수와 출력변수 사이에 인과관계가 없음
- 회기 계수가 0이면, 추정식은 의미가 없음
3. 다중선형회귀분석
3-1. 유익성
- 통계의 유익성은 F통계량의 P Value 값이 0.05보다 작으면, 통계적으로 유의함
3-2.설명성
- 결정계수를 보고 확인
3-3. 적합성
- 잔차와 종속변수의 산점도로 확인
3-4. 가정
- 선형, 독립, 등분산성, 비상관성, 정상성
3-5. 다중공선성(Multicollinearity)
- 설명 변수들 간의 선형 관계가 존재하면 회귀계수의 정확한 추정이 힘듬
- 분산팽창요인(VIF) 가 4보다 크면 다중공선성 존재, 10보다크면 심각
- 상태 지수 10이상 이면 문제 존재, 30 보다 크면 심각
- 문제가 발생하면, 변수를 제거하거나 주성분회귀, 능형회귀 모형으로 문제 해결
4. 회귀분석종류
4-1. 회귀 분석 종류
- 단순 회귀 : 독립 변수 1개
- 다중회귀 : 독립 변수가 K개
- 로지스틱회귀 : 종속 변수가 범주형(2진)
- 다항회귀 : 독립과 종속이 1차함수 이상일 경우
- 곡선회귀 : 독립 변수가 1개이며 곡선의 관계
- 비선형회귀 : 선형으로 이뤄지지 않은 모형
4-2. 용어
A) 오차(Error)
- 모집단에서 실제 값과 회귀선과의 차이
B) 잔차(Residual)
- 표본 집단에서 관측 값과 회귀선과의 차이
반응형