- Gradient Descent를 실행하고 모델의 가중치를 갱신할때 고려할 데이터의 갯수다.
- 배치 크기가 1이라면 Stochastic Gradient Descent가 된다. 훈련이 느리다.
- 배치 크기가 데이터 전부의 갯수라면 Batch Mode가 된다. 계산량이 많다.
- 배치 크기가 그 사이라면, Mini-Batch Mode가 되며, 좋은 GPU의 사용이 가능하다면 각각의 데이터마다 동시에 병렬 계산이 되기 때문에 제일 빠른 수렴이 가능하다.
- 배치 크기는 GPU에 따라 64, 128, 256, 512.. 등으로 설정한다.
- Iteration * Batch Size = Epoch 이므로, 한 데이터셋을 도는데 최대한 병렬처리가 가능하게끔 배치 크기를 주는게 이득이다.
- 참조
- StatQuest with Josh Starmer, https://www.youtube.com/watch?v=vMh0zPT0tLI