rueki

An Improved Faster R-CNN for Small Object Detection 본문

DL

An Improved Faster R-CNN for Small Object Detection

륵기 2021. 2. 23. 15:02
728x90
반응형

1. Abstract

CNN을 기반한 Object detection의 성능은 계속 향상해가지만, 낮은 해상도와 occlusion 등의 문제가 small object에 대해서 나타나고 있다. 모델은 two-stage를 기반으로 bounding box regression을 위한 IOU(Intersection over Union)의 loss를 향상 시키며, bilinear interpolation을 사용함으로써, RoI(Region of interest) Pooling 연산을 통해서 문제를 해결한 것을 제시한다고 한다. 그리고 recognition 단계에서는 multi-scale convolution feature fusion을 통해서 더 많은 정보를 얻고자 하며, NMS(non-maximum supperssion) 알고리즘을 향상시켜서 겹치는 부분에 대한 loss를 줄일 것이라고 한다. 기존의 Faster-rcnn 알고리즘보다 성능이 좋다고 설명하고 있다.

 

2. Introduction

Object Detection은 크게 두 단계로 나눈다. 이미지에서 찾고자하는 물체를 찾는 것과 bounding box를 이용해서 object를 표시하는 것이다. 이는 CNN을 통해서 많은 발전을 이루어냈다. 14년도에 RCNN이 등장했으나 input image의 사이즈에 관해 한계가 있었으며, 이를 Spatial pyramid pooling을 통해서 해결한 SPP-net이 등장을 하였다.

15년도에는 Fast RCNN이 등장을 했는데, 분류와 positioning task를 위한 두 개의 fully connected layer를 사용했다. RCNN의 SVM과 SPP-net 알고리즘을 train함에 따라, 용량을 많이 차지한다는 점이 있다. 그리고 end-to-end 알고리즘이 아니기에 역전파를 통해 region proposals의 과정 추출을 향상 시킬 수 없었다고 한다. 이를 개산 한 Faster RCNN에서는 region proposal network를 신경망을 사용함에 따라 속도를 많이 향상시킬 수 있었다.

그러나 이 역시, 낮은 해상도의 물체를 검출하기에는 어려웠다.

 

본문에서 제안한 방법은 Abstract에 나왔듯이, bounding box regression의 loss function을 개선하고, ROI를 bilinear interpolation을 사용하여 개선하고, VGG16을 사용하여 multi-scale convolution feature fusion을 하였다고 한다.

이는 작은 신호등과 같은 것에 좋은 성능을 내보였다.

 

3. Positioning Stage

A. IMPROVED INTERSECTION OVER UNION

 

IOU는 detection에서 중요한 지표라고 한다.

object detection에서 L1 norm과 L2 norm loss를 사용했을 때, regression에서 좋지 못하였다고 한다.

이를 해결하기 위해 IIoU(Improved IoU)를 제안했다.

S : 지정 면적, C : S에서 최소 area, A와 B를 포함하고 있음

 

IoU는 0 ~ 1의 범위를 가지지만, IIoU는 -1 ~ 1의 범위를 가지고 있다. 1은 두 범위가 일치할 때, -1은 전혀 겹치는 부분이 없을 때를 나타낸다. C라는 최소영역을 도입하고, 겹치는 부분 외에도 A와 B가 일치하지 않는 경우에도 최적화 될 수가 있다고 한다.

 

B. LOSS FUNCTION

겹치는 지역에 대한 계산은 IoU와 동일하다. minimum closure area C를 계산하기 위해서는 두 bbox의 최대 및 최소 좌표만 필요하다. 이 두 좌표값으로 둘러쌓인 사각형의 지역이 C의 값이라고 한다(좌측 상단, 우측 하단 point).

- predicted bounding box

 

- Ground Truth

 

S 계산식

 

- predicted area와 ground truth 간의 overlap 계산

- 최소 area C 계산

- IoU와 IIoU 계산

IIoU의 손실 함수 는 regression box의 위치를 최적화하며, 일관되지 않는 optimize 문제를 개선할 수 있다고 한다.

기존 Faster RCNN에서 사용한 smooth L1 loss 와 위에서 제시한 IIoU의 Loss를 Average precision을 기준으로 비교하니 결국 IIoU의 Loss를 사용한 것이 더 효과적이었다고 한다.

 

* Average Precision

: object detection 알고리즘 성능 측정을 대부분 AP로 한다고 한다.

  Average precision 값이 높을 수록 좋은 알고리즘이라는 뜻을 가지고 있다.

 

 

C. POSITIONING DEVIATION

기존의 Region proposal은 fully connected layer로 했으나 이의 한계로 인해 output region은 다른 크기를 가지게 된다. 이를 극복하고자 RoI pooling layer를 소개했다고 한다. 이로 인해 input이 얼마나 큰지는 상관없이 k by k  크기의 output을 가진다. 그러나 feature map을 mapping 할 때 좌표 값이 rounding operation을 통해서 형상 이미지의 편차가 더 커지게 되어 bounding box의 위치가 정확하지 않게 된다고 한다.

 

D. BILINEAR INTERPOLATION

위의 문제를 해결하기 위해 등장한 기법이다.

 

4. RECOGNITION STAGE

 

A. CONVOLUTION FEATURE FUSION

Single layer CNN feature map에서는 이미지 정보가 부족한 경우가 있다. CNN에서 층이 깊어질 수록, feature map이 추출하는 특징들은 더 작아지기에, 작은 객체에 대해 표현하기가 힘들다.

 

기존에 사용한 VGG16 구조에서 아래의 구조로 변형을 하는데 , Conv3에서 나온 feature map은 Conv5에서의 feature map 해상도를 향상시키는 역할을 upsampling을 통해서 하게 된다.

feature map을 merge 해서 feature fusion의 성능을 확인한 결과 나름대로 잘 나온것으로 볼 수 있다.

 

B. IMPROVED NMS

object detection 알고리즘이 많은 수의 region proposals을 만듬에 따라, 각 region proposal에 상응하는 score가 있다.

인접한 지역에 대한 score는 fault detection이라고 판단하고 겹치는 물체에 대해 miss하는 경우가 있다.

이를 해결하기 위해 non-maximum suppression algorithm이 제안 되었다.

 

M : 가장 큰 점수를 갖고있는 bounding box

B : generated 된 일련의 bounding box

p : threshold of IoU

 

M이 threshold 값보다 큰 경우 B로부터 삭제 된다.

NMS 알고리즘은 B가 empty 상태가 될 때까지 반복하게 된다.

 

Soft-NMS는 본문에서 사용했으며 식은 아래와 같다.

 

5. THE ALGORITHM AND ITS RESULTS

 

Two stage detection algorithm : positioning + recognition

feature extract에 사용한 network : vgg16

Conv3에서의 output을 upsample하고, conv5에서의 output을 upsample해서 conv4에 나온 결과와 merge하여 feature fusion map으로 사용

 

small object에서 detection을 하기 위해서는 region proposal network에서 anchor size를 redesign 해야한다.

bounding box regression의 loss function으로 IIoU의 Loss를 사용.

RPN 네트워크에서 classification과 regression을 향상시키기 위해, SOFT-NMS 사용

728x90
반응형
Comments