Mask R-CNN

  • Mask R-CNN, Kaiming He, 2018
  • 바운딩박스와 이미지 예측뿐만아니라 픽셀마다 해당 물체에 속하는지 마스킹까지 해주는 방식 (Instance Segmentation)
  • 기본구조 Faster-RCNN까지 같고, 이에 마스킹 레이어까지 추가
    • 출력이 두개(분류, 바운딩박스) 에서 K*m*m mask 출력 추가
    • 세 프로세스는 병렬로 이루어짐
  • 각각의 Proposal의 픽셀에 대해 하나하나 마스킹 이진 분류
    • 기존의 방법은 픽셀당 멀티클래스 분류
  • Faster-RCNN에서 RoIPool로 뭉개진 원본 픽셀 정보를 RoIAlign으로 원본에서의 위치를 유추
    • RoIPooling시 원본 이미지와 stride를 통한 RoI가 정확히 나눠지지 않아 소수점을 버리는데(quantization) 이를 개선하기 위한 보간법 이용.
  • Loss Function은 L(cls) + L(box) + L(mask)로 이루어짐
    • 마스크의 경우 해당 분류의 마스크만 이진 크로스 엔트로피로 계산
  • ResnetXt101-FPN(Feature Pyramid Network) 방식의 백본이 정확도가 가장 높음
  • 속도는 5FPS(Frame per second)으로 실시간 검출 가능
  • 사람 포즈 검출도 중요 키포인트에 마스킹을 하는것으로 구조 이용 가능.

RoIAlign을 통해 마스킹을 하는 방법을 소개한 Mask RCNN
RoIAlign을 통해 보간하는 방법
헤드 구조
averaged over IoU thresholds 벤치마킹

댓글 남기기