1 Introduction

저자는 Generative ViT(GenViT)를 설계했다. 오직 생성하는 일만 한다. Hybrid ViT(HybViT)는 GenViT 확장 버전으로 이미지 분류와 생성 둘다 한다.

Untitled

Untitled

Fig 2,3에 image patches를 재구성하고 각각 독립적인 2 루틴으로 분류하고 특성을 같이 공유한다.

hybrid model들 중에는 SOTA에 도달했다. 주목할 부분은 Joint Energy-based Model (JEM)은 MCMC sampling으로 매우 비용이 비싸다. 그리고 large scle datasets으로 긴 시간 동안 학습과 불안정함을 도입했다.

GenViT는 오직 ViT 하나로 생성하고 HybViT는 학습과정 동안 MCMC sampling 없는 새로운 hybrid model이다.

그리고 몇가지 장점인 특징을 증명한다.

  1. 저자는 DDPM과 비슷한 안정적이고 간단하게 제공한다. 그리고 GAN과 EBM에 비교하여 collapse(아마 모드 붕괴. 애초에 diffusion에는 collapse가 없는데 Hybrid ViT는 잘 모르겠네)가 덜하다.
  2. 생성자와 판별자는 통계적 strength 공유를 가능하며 학습한다.
  3. 연산량, model 크기 조절과 data size에 장점이 있는데 ViT에 장점이다.

2 Background

간단하게 DDPM과 똑같음. 별다른 설명 必 x

3 Vision Transformers

Transformers는 self-attention 개념을 기반으로 공간 간의 관계 상관없이 모든 input 사이 strong gradients 상호작용을 허용하는 함수다.

Untitled

self-attention layer encodes는 key-value 쌍으로 입력한다. values $V^→$는 embedded inputs과 keys $K^→$는 indexing methond를 행한다. 그리고 결론적으로 queries $Q^→$는 관찰된 값을 선택하여 사용된다. 따라서 공식 16으로 표현이 된다. $d_k$는 K차원이다.

transformer encoder는 multi-headed self-attention(MSA)와 MLP layer 대안으로 구성되었다. 그리고 layernorm(LN)은 모든 블럭 전에 적용되고 모든 블럭 이후 residual connection이다. 2D image $x∈ R^{H×W×C}$는 연속된 이미지 patchs로 flattened된다. $x_p ∈ R^{L×(P^2 ·C)}$로 표시가 된다. $L = (H×W )/P^2$는 $P×P×C$는 각 이미지 patch의 차원이고 효과적인 sequen 길이다.

3.1 Hybrid models

Hybrid models는 밀도 함수 $p(x)$와 특징들을 공유하며 classification한다.