반응형

[과적합을 줄이는 방법3] CNN Batch Normalization

 

 

 

 

 

appendix. 한글 내용

[과적합을 피하는 방법3] Batch Normalization

- batch normalization이란 각 batch 별 평균과 분산을 기반으로 각 layer에서 나오는 output을 normalization하는 기법이다.
- 추론 단계에서는 평균과 분산을 이동평균으로 계산한 값을 사용한다.
- 평균이 0이고 분사이 1인 값으로 정규화를 해버리면 relu activation function에서 0 이하가 제거가 되므로 스케일링과 편향을 곱하고 더해준다.
- 결과적으로 모든 계층이 동일한 Feature를 출력하여 학습에 유리함.
- 추론 단계에서는 이동평균을 사용하영 배치 정규화의 평균과 분산을 계산함
- 정규화 평균과 스케일, 바이어는 고정 값이므로 단일 곱과 더하기 연산으로 계산됨.
- 학습 시, bias의 역할이 batch normalization의 bias와 역할이 겹치므로 fully connected bias는 사용하지 않는다.
- 최종적으로 학습 시에는 파라미터 값이 상수이므로 학습 시에는 연산량이 많이 필요하다고 하더라도, 추론시에는 연산량이 이전과 똑같다.


합성공 계층의 배치 정규화 방법

- Fully connected Layer 의 batch normalization은 batch 크기의 평균과 분산을 계산 후, 정규화를 한다.
- Convolution Neural Network는 batch size, image height, image width를 고려하여 정규화를 수행한다.
추론 단계에서는 똑같이 적용된다.

 

반응형

+ Recent posts