Untitled

Most recently, a few works combine the textual prompts with box prompts [61]. However, they can only take one or two prompt types, which are far to reach the demands in real-world applications.

문제 제기: textual prompts와 box prompts를 합치는 연구가 계속되었지만 하나거나 두가지 타입 정도의 prompt만이 가능함. SAM이라는 다중 prompts 모델이 있긴함(SAM은 그 최근 Segment Anything 논문 맞음). 근데 이 모델과 다름. Fig2를 보자

Untitled

In this work, we advocate a universal interface for segmenting everything everywhere with multi-modal prompts. To achieve this goal, we propose a new prompting scheme that has four important properties, versatility, compositionality, interactivity, and semantic-awareness.

저자는 multimodal prompts에 어디 무엇이든 segmenting 하기 위한 universal interface를 주장함. 중요한 4가지 properties(versatillity-변하기 쉬움, compositionality, interactivity, semantic-awareness)를 가진 새로운 prompting scheme를 제안함.

With the proposed prompting scheme, we build a segment-everything-everywhere model called SEEM following a simple Transformer encoder-decoder architecture with an extra text encoder [65, 61]. In SEEM, the decoding process behaves similarly to generative LLMs but with multimodality-in-multimodality-out.

제안된 peompting scheme와 함께 추가적인 text encoder와 Transformer encoder-decoder인 SEEM이라 불리는 segment-everything-everywhere model을 구축함. SEEM에서 decoding process는 multimodality-in-multimodality-out이지만 generative LLMS와 비슷하게 decoding process를 지님

1. Method

Untitled

SEEM employs a generic encoder-decoder architecture, but specifically features a sophisticated interaction between queries and prompts, as shown in Fig. 3(a).

SEEM은 일반적인 en-de architecture를 따르지만 queries와 prompts 사이에 정교한 interection은 다름.

Untitled

p_t는 text, p_v는 visual, p_m은 memory로 구성됨, 여기서 Qh는 학습 가능하며, panoption(파놉티콘 할때 그 판옵틱) segmentation, referring segmentation, interactive segmentation을 위해 복사됨. Inference에는 learnable queries가 같은 가중치의 set으로부터 초기화되어 zero-shot composition이 가능함. 그리고 X-decoder에 영감을 받았다보니 비슷한점이 많은데 다른점은 빨간색으로 공식1에 표시함.

Versatile.

In SEEM, we introduce visual prompts Pv to handle all non-textual inputs, such as points, boxes, scribbles, and a referred region of another image. These nontextual queries are beneficial to disambiguate the user intents when textual prompts itself fail to identify the correct segment.

모든 non-textual inputs(points, boxes, scribbles 같은 것)을 다루기 위해 visual prompts Pv를 동비함. 이 nontextual queries는 올바르게 segment 못했을때 모호한 사용자의 의도를 명확하게 하는 benefical이 있음.

The first approach is too heavy in application because each interaction requires the image to go through the feature extractor. The second approach is hard to generalize to unseen prompts. To address these limitations, we propose to use visual prompts that unify all kinds of non-textual inputs in the format of tokens. These visual prompts are lying in the same visual embedding space. The newly-introduced visual sampler is defined as:

Untitled

이전 작업(첫번째 접근법)은 너무 무거움. 두번째 접근법은 보지 못한 prompts를 일반화하는데 어려워함. 이 제한을 해결하기 위해 tokens의 format에 non-textual input과 같은 모든 종류들을 통합하여 visual prompts로 사용함. 위와 같이 embedding 하는데 $Z hat$은 target image로부터 뽑아넨 feature map이며 s는 point, box, polygons와 같은 visual prompts임.

Fig 3 (a)에 visual Sampler를 보면 될듯함. 거기서 512개 image features로 prompt에 의한 영역으로부터 일정하게 샘플함. sampling 방법은 똑같음.