sailorCat
카테고리
작성일
2022. 3. 29. 00:10
작성자
sailorCat
728x90

Mask-RCNN

객체탐지와 의미론적 분할을 결합한 형태의 가장 진화한 학습 모델이다.

물체를 찾고 그 물체가 무엇인지 판단하며 의미론적 분할을 화면상에서 시도한다.

Faster RCNN과 FCN를 동시에 적용한다.

사람 별로 구분이 가능하고 픽셀 정보를 얻을 수 있다.

 

RCNN의 Roi pooling을 Roi Align으로 바꾼 형태이다.

 

 

컨볼루션의 수를 조정할 수 있다.

 

고양이들의 위치가 표시되고 있다.

pooling을 통해 값이 작아졌고 위치가 좌표 픽셀 하나에 매칭되는 것이 아니라 중간에 걸쳐있는 소수점 부분에 매칭되게 된다.

이 소수점 부분은 버림을 해서 실제보다 작은 사이즈의 박스를 만들게 된다.

파란 부분과 초록 부분만큼 정보의 소실이 생긴다.

 

여기에서 파란 부분은 소실된 정보

초록 부분은 잘못 받아들인 정보가 된다.

ROI Align으로 max pooling한다.

 

위에서 4X6 이었는데 이것을 3X3으로 Max Pooling하기 때문에 가장 밑 칸인 민트 부분도 소실되게 된다.

결국 남는 정보는 오렌지색의 픽셀 부분이다.

 

목표가 되는 피쳐 맵의 사이즈를 본다.

모든 칸을 3으로 나눈다.

6.25/3

1.53/3

이 그리드 한 칸 안에서 다시 삼등분 한다.

 

좌표값을 얻는다.

좌표값으로 보간법을 실행하게 된다.

 

가장 가까운 값 4개로 보간법을 실행한다.

그리고 Max Pooling으로 최댓값을 찾아서 피쳐맵에 넣는다.

ROI 풀링보다 ROI Align의 성능이 약간 더 좋다고 한다.

이런식으로 물체를 식별하며 의미론적 분석을 할 수 있게 된다.

728x90