Mask R-CNN – Go Lab

Mask R-CNN, Kaiming He, 2018
바운딩박스와 이미지 예측뿐만아니라 픽셀마다 해당 물체에 속하는지 마스킹까지 해주는 방식 (Instance Segmentation)
기본구조 Faster-RCNN까지 같고, 이에 마스킹 레이어까지 추가
- 출력이 두개(분류, 바운딩박스) 에서 K*m*m mask 출력 추가
- 세 프로세스는 병렬로 이루어짐
각각의 Proposal의 픽셀에 대해 하나하나 마스킹 이진 분류
- 기존의 방법은 픽셀당 멀티클래스 분류
Faster-RCNN에서 RoIPool로 뭉개진 원본 픽셀 정보를 RoIAlign으로 원본에서의 위치를 유추
- RoIPooling시 원본 이미지와 stride를 통한 RoI가 정확히 나눠지지 않아 소수점을 버리는데(quantization) 이를 개선하기 위한 보간법 이용.
Loss Function은 L(cls) + L(box) + L(mask)로 이루어짐
- 마스크의 경우 해당 분류의 마스크만 이진 크로스 엔트로피로 계산
ResnetXt101-FPN(Feature Pyramid Network) 방식의 백본이 정확도가 가장 높음
속도는 5FPS(Frame per second)으로 실시간 검출 가능
사람 포즈 검출도 중요 키포인트에 마스킹을 하는것으로 구조 이용 가능.