End-to-End Object Detection with Transformers, 2020
https://arxiv.org/pdf/2005.12872.pdf
object detection 문제를 direct set prediction 문제로 보는 새로운 접근법을 제안한다. 우리는 이전 object detection에 사전지식을 직접 넣었던 non-maximum suppresion(NMS)이나 anchor generation 같은 수작업 요소들을 제거하였다. 우리의 프레임워크 DEtection TRansformer(DETR)은 bipartite matching과 트랜스포머 인코더-디코더 구조를 통해 유일한 predictions을 내게하는 set-based global loss를 사용한다. 학습된 object query set이 주어졌을 때, DETR은 object들의 관계와 글로벌한 이미지 컨텍스를 보고 추론을 하여 최종 예측 set을 내게 된다. 이 새로운 모델은 개념적으로 간단하여 구현도 용이하다. DETR은 Faster RCNN과 같은 잘 정립/최적화된 모델과 비슷한 수준의 성능과 추론속도를 보였다. 또한, DETR은 panoptic segmentation*에 쉽게 적용가능하고 baseline의 성능보다 우위이다.

Object Detection 태스크는 bounding box와 분류 레이블 set을 예측해야하는 태스크이다. 최신의 detector들은 이를 간접적인 방법을 통해 풀었는데, 많은 set의 proposals이나 anchor, window center에 대해 regression문제나 classification 문제로 대체하여 풀었다. 이 방법론의 성능은 이후 겹치는 prediction들 중 추리는 post-processing 과정에 영향을 많이 받았다. 이러한 파이프라인을 간단히 만들기 위해, 바로 set prediction을 할 수 있는 end-to-end 방법을 제시한다.
이러한 e2e를 하기 위해 transformer의 encoder-decoder 구조를 가져온 DETR을 제시한다. DETR은 모든 object를 한번에 예측하고 예측된 object와 GT object bipartite matching을 하는 set loss function을 통해 학습된다. DETR은 spatial anchor나 non-maximal suppression와 같은 수작업 요소들을 빼서 효율적인 파이프라인을 만들었다. DETR은 custom layer가 필요 없어서 별도의 패키지 없이 재현이 용이하다.
이전 direct set prediction 접근법과 다른점은 DETR은 bipartite matching loss와 transformers (non-autoregressive) parallel decoding의 결합이라고 할 수 있다. 이전 연구들은 RNN을 사용하여 auto-regressive 한 decoding 방법에 집중했다면, DETR은 GT object와 예측 object를 개별적으로 loss를 가지고 있어서 예측된 object의 순서에 상관이 없어 병렬화가 가능하다.
object detection으로 유명한 dataset인 COCO에 대해 faster RCNN과 비교했을때 유사한 성능을 보였다. DETR은 faster RCNN보다 더 큰 물건을 유의미하게 잘 찾았다. 반면에 작은 object에 대해서는 성능이 떨어졌다.
DETR을 학습하는 셋팅은 일반적인 object detector를 학습하는 것과 여러 방면에서 다른데, 아주 긴 학습 스케쥴을 필요로 하고, 보조적인 디코딩 loss의 도움을 받는다는 점이 다르다.
우리의 DETR 디자인은 더 복잡한 태스크들에 적용하기 쉽다. 실험 결과 간단한 segmentation head를 추가하는 것이 panoptic segmentation의 베이스라인을 넘김을 확인하였다.
detection을 위한 direct set prediction을 하기 위해서 두가지가 필수적이다.
(1) 예측된 box와 ground truth 사이의 unique한 매칭을 하기 위한 set prediction loss
(2) object set을 예측하고 그들의 관계를 모델링할 아키텍쳐