Could dataset size and model size be the limiting factor of current approaches? In this work, we demonstrate that training a 12-billion parameter autoregressive transformer on 250 million image-text pairs collected from the internet results in a flexible, high fidelity generative model of images controllable through natural language.
문제 제기 : dataset과 모델 크기는 제한되는가? 저자는 엄청나게 무거운 모델과 데이터셋을 모아 고화질 이미지 생성모델을 만듦.
The resulting system achieves high quality image generation on the popular MS-COCO dataset zero-shot, without using any of the training labels.
결과적으론 어떤 training label 없이 zero-shot 이뤘는데 고화질 이미지 생성을 한다.
However, using pixels directly as image tokens would require an inordinate amount of memory for high-resolution images. Likelihood objectives tend to prioritize modeling short-range dependencies between pixels (Salimans et al., 2017), so much of the modeling capacity would be spent capturing high-frequency details instead of the low-frequency structure that makes objects visually recognizable to us.
이미지 토큰으로 pixel을 사용하는 것은 과도한 양의 메모리를 필요로한다. Likelihood objectives는 픽셀들 사이 가까운 거리에 의존하는 경향이 있다. 그래서 많은 모델들이 low-frequency 구조 대신에 high-frequency를 잡는데 많은 걸 소모한다.
Stage 1. We train a discrete variational autoencoder (dVAE)1 to compress each 256×256 RGB image into a 32 × 32 grid of image tokens, each element of which can assume 8192 possible values. This reduces the context size of the transformer by a factor of 192 without a large degradation in visual quality (see Figure 1).
Stage 2. We concatenate up to 256 BPE-encoded text tokens with the 32 × 32 = 1024 image tokens, and train an autoregressive transformer to model the joint distribution over the text and image tokens.
2단계로 나눔. 1. 저자는 256x256 이미지를 32x32 이미지로 토큰화하기 위해 dVAE를 학습함. 이는 큰 degradation 없이 트랜스포머의 context size를 줄여줌. 2. 저자는 32x32=1024 이미지 토큰과 함께 256 BPE-encoded text tokens를 합치고 텍스트 이미지 토큰들의 결합확률분포의 모델에 autoregressive transformer를 학습함.
The overall procedure can be viewed as maximizing the evidence lower bound (ELB) (Kingma & Welling, 2013; Rezende et al., 2014) on the joint likelihood of the model distribution over images x, captions y, and the tokens z for the encoded RGB image. We model this distribution using the factorization pθ,ψ(x, y, z) = pθ(x | y, z)pψ(y, z), which yields the lower bound
전반적인 과정은 ELB를 최대화함. 위와 같이 factorization하여 분포를 사용함.
we maximize the ELB with respect to φ and θ, which corresponds to training a dVAE on the images alone. We set the initial prior pψ to the uniform categorical distribution over the K = 8192 codebook vectors,
오직 이미지만으로 각 dVAE encoder와 decoder를 최대화함. 저자는 text-image tokens 트렌스포모 모델에 결합 확률 분포 pψ의 초기 값을 K=8192인 일정한 categorical distribution으로 둠.
The ELB now becomes difficult to optimize: as qψ is a discrete distribution, and we cannot use the reparameterization gradient to maximize it. We instead use the gumbel-softmax relaxation (Jang et al., 2016; Maddison et al., 2016), replacing the expectation over qφ with one over q τ φ , where the relaxation becomes tight as the temperature τ → 0. The likelihood for pθ is evaluated using the log-laplace distribution (see Appendix A.3 for a derivation).
ELB는 최적화하기 어려움. qψ는 discrete distribution이고 저자는 이걸 최대화하는 기울기를 매개변수화 하여 사용 할 수 없음. 저자는 gumbel-softmax relaxation을 사용하여 relaxation은 temperature τ → 0으로 tight하면 qφ를 $q^τ_φ$ 대한 값으로 수정함. pθ에 likelihood는 log-laplace 분포를 사용해 평가된다.