Pix2seq: A Language Modeling Framework for Object Detection, 2021
https://arxiv.org/pdf/2109.10852.pdf
그 복잡한 object detection을 언어문제처럼 진짜 간단한 아키텍쳐로 풀다니 놀라움...recall을 높이려고(eos토큰이 늦게 나오도록) 시도한 sequence augmentation 방법이 되는게 신기함..
object detection을 위한 간단하고 generic한 프레임워크인 Pix2Seq을 제안한다. 기존의 접근법들은 명시적으로 사전지식을 넣은 것과 다르게 우리는 object detection 문제를 pixel input이 주어졌을 때 language modeling 문제로 바꾸었다. Object에 대한 설명(e.g. 바운딩박스, 분류 레이블)은 토큰 시퀀스로 이루어져있고 모델을 이미지를 이해한 뒤 원하는 시퀀스를 뽑도록 학습시킬 것이다. 우리의 직관은 뉴럴네트워크가 어디에 무엇이 있는지 안다면 우리는 그걸 읽을 수 있게만 가르치면 된다는 것이었다. task-specific 데이터 어그멘테이션에서 우리의 접근은 태스크에 대한 최소한의 가정만 만들지만 COCO 데이터셋에서 최적화되고 잘 디자인된 object detection에 필적할만한 성능을 냈다.
Object detection은 미리 정의된 이미지의 카테고리에서 이미지의 객체(object)를 찾아내고 위치를 찾는 태스크이다. 보통 탐지된 객체 bounding box와 클래스 레이블로 설명된다. 이 태스크가 어렵기 때문에, 기존방법론들은 많은 양의 사전지식과 loss function에 대한 설계를 하였다.
이 논문은 새로운 방법론인 Pix2Seq을 제안한다. 이 모델은 object를 설명하는 방법을 학습하면서, 픽셀에 따른 언어를 ground할 수 있는걸 배운다. 즉, 우리는 object detection 문제를 pixel input이 주어졌을 때 language modeling 문제로 바꾸었고, 모델 아키텍쳐와 로스가 generic하며 상대적으로 쉽다. 그러므로 우리는 쉽게 이 프레임워크를 다른 도메인이나 application으로 바꿀 수 있고, 이미지 태스크에 언어 인터페이스를 제공함으로서 general한 지식을 돕는 인지시스템으로 결합시킬 수 있다.
Pix2Seq을 하기 위해 바운딩박스와 클래스 레이블을 토큰 시퀀스로 바꾸는 quantization, serialization 방법을 제안할 것이다. 그리고 encoder-decoder 구조를 사용하여 픽셀 인풋을 받고 target sequence를 생성할 것이다. 목표함수는 간단히 픽셀 인풋과 이전 토큰들이 주어졌을 때 새로운 토큰에 대한 maxium likelihood이다. 아키텍쳐와 손실함수가 task에 대해 사전지식을 담고 있지 않지만, 우리는 여전히 태스크 specific한 사전지식을 인풋과 아웃풋 둘다 학습 동안 바뀌는 sequecne augmentation 기법을 통해 넣을 수 있었다.

Pix2Seq 아키텍쳐는 4가지의 주요 component로 구성되어 있다.