저자는 Generative ViT(GenViT)를 설계했다. 오직 생성하는 일만 한다. Hybrid ViT(HybViT)는 GenViT 확장 버전으로 이미지 분류와 생성 둘다 한다.
Fig 2,3에 image patches를 재구성하고 각각 독립적인 2 루틴으로 분류하고 특성을 같이 공유한다.
hybrid model들 중에는 SOTA에 도달했다. 주목할 부분은 Joint Energy-based Model (JEM)은 MCMC sampling으로 매우 비용이 비싸다. 그리고 large scle datasets으로 긴 시간 동안 학습과 불안정함을 도입했다.
GenViT는 오직 ViT 하나로 생성하고 HybViT는 학습과정 동안 MCMC sampling 없는 새로운 hybrid model이다.
그리고 몇가지 장점인 특징을 증명한다.
간단하게 DDPM과 똑같음. 별다른 설명 必 x
Transformers는 self-attention 개념을 기반으로 공간 간의 관계 상관없이 모든 input 사이 strong gradients 상호작용을 허용하는 함수다.
self-attention layer encodes는 key-value 쌍으로 입력한다. values $V^→$는 embedded inputs과 keys $K^→$는 indexing methond를 행한다. 그리고 결론적으로 queries $Q^→$는 관찰된 값을 선택하여 사용된다. 따라서 공식 16으로 표현이 된다. $d_k$는 K차원이다.
transformer encoder는 multi-headed self-attention(MSA)와 MLP layer 대안으로 구성되었다. 그리고 layernorm(LN)은 모든 블럭 전에 적용되고 모든 블럭 이후 residual connection이다. 2D image $x∈ R^{H×W×C}$는 연속된 이미지 patchs로 flattened된다. $x_p ∈ R^{L×(P^2 ·C)}$로 표시가 된다. $L = (H×W )/P^2$는 $P×P×C$는 각 이미지 patch의 차원이고 효과적인 sequen 길이다.
Hybrid models는 밀도 함수 $p(x)$와 특징들을 공유하며 classification한다.