- 신경망을 훈련할때, 최종 출력에서 멀어질수록 값에 영향을 미치는값을 역산하여야 하는데, 거슬러올라가다보면 영향을 미치는 정도가 굉장히 작은 값으로 수렴하는것.
- 신경망은 곱셈으로 되어있어 작은 변화량에도 결과치가 크게 바뀌기 때문.
- 최종 결과에 얼마나 영향을 미치는지 gradient를 찾으려고 할때 너무 많은 신경망을 거슬러 올라가면 계수와 오차간의 관계를 알수 없게끔 되버림
- 예를들어 0.5를 10번만 곱하면 0.0009임.
- 이를 해결하기 위해 ReLU등이 쓰임.
- RNN계열에서는 LSTM등을 이용