글 사전

그라디언트 소실 (Vanishing Gradient)

No Comments

신경망을 훈련할때, 최종 출력에서 멀어질수록 값에 영향을 미치는값을 역산하여야 하는데, 거슬러올라가다보면 영향을 미치는 정도가 굉장히 작은 값으로 수렴하는것.
신경망은 곱셈으로 되어있어 작은 변화량에도 결과치가 크게 바뀌기 때문.
최종 결과에 얼마나 영향을 미치는지 gradient를 찾으려고 할때 너무 많은 신경망을 거슬러 올라가면 계수와 오차간의 관계를 알수 없게끔 되버림
예를들어 0.5를 10번만 곱하면 0.0009임.
이를 해결하기 위해 ReLU등이 쓰임.
RNN계열에서는 LSTM등을 이용

답글 남기기

댓글을 달기 위해서는 로그인해야합니다.