1. Introduction

DM 모델은 무겁다. 연산도 많다. 이는 연구 단체와 유저들에게 일반적인 2가지 결론을 내린다.

첫 번째로, DM 모델 학습하는 것은 field의 작은 부분만이 엄청난 양의 연산이 필요하고 huge carbon footprint를 남긴다. 두 번째로, 이미 학습된 모델을 평가하는 것은 시간과 메모리가 많이 든다.

강력한 모델의 접근성이 증가하고 자원 소모를 줄이기 위해 샘플링과 학습 둘다 연산량을 줄이는 게 필요하다.

Untitled

Departure to Latent Space

저자는 pixel 공간에 diffusion model들 학습을 분석했다. Fig 2는 학습된 모델의 trade off 보여준다. likelihood-based model에 학습은 2 단계로 나누어 볼 수 있다. 첫 번째는 perceptual compression stage로 작은 의미있는 변화를 학습하는 중이지만 고주파를 삭제한다. 두 번째는 데이터의 개념과 의미있는 구성을 학습한다(semantic compression). 따라서 저자는 첫번째로 인지적으로 동등하지만 더 적합한 공간을 찾는 것을 목표로하고 고해상도 이미지 합성을 위해 diffusion model을 학습한다.

학습은 2개 분명한 단계로 나눈다. 첫번째는 데이터 공간에 인지적으로 동등한 저차원 representational 공간을 제공하는 AE를 학습한다. 중요한건 이전과 달리 과도한 공간 압축에 의존할 필요가 없다. 저자는 학습된 잠재공간에 DM을 학습하는데 각 공간 차원에 더 나은 scaling properties를 전시한다. complexity 줄이면 single network 잠재공간으로부터 효과적인 이미지 생성을 제공한다. 결과 모델 class를 Latent Diffusion Models(LDMs)라 한다.

이 접근에 장점은 저자는 단 한번만 universal autoencoding을 학습한 후여러 DM 학습을 위해 재사용하거나 다른 작업에 완전히 사용할 수 있다. 이는 다양한 image-to-image, text-to-image 업무에 diffusiob 모델들의 많은 수를 효과적으로 탐구할 수 있다.

Untitled

저자의 기여를 요약하자면

(i) 기존 transformer-based 접근과 대조적으로 저자의 방법은 고차원 데이터를 더 우아하게(?) 확장했고 따라서 더 믿음있고 이전 작업보다 더 자세히 restructions를 제공한다(Fig 1), 그리고 (b)는 megapixel image들의 고해상도에 효율적으로 적용할 수 있다.

(ii) 저자는 다중 업무들에 경쟁력있는 성과를 달성하고 데이터셋은 낮은 연산을 상당히 기여했다. piexel-based diffusion 접근법과 다르게 저자는 inference costs를 줄였다.

(iii) 저자는 encoder/deconder 구조와 score-based 둘다 학습한다. 저자의 접근은 생성 능력과 섬세하게 가중치를 reconstruction할 필요가 없다. 이는 믿을 수 있는 reconstuctions와 잠재공간의 제약이 매우 적은 걸 보장한다.

(iv) densely conditioned tasks(super-resolution, inpainting과 semantic 같은 거) 찾았는데 저자의 모델은 모델을 컨볼루션 방법을 적용하고 큰 사이즈의 이미지를 일관되게 렌더링한다.

(v) 더욱더 저자는 cross-attention을 기반한 조건부 메카니즘을 목적으로 설계했는데 multi-modal training이 가능하다. 저자는 class conditional,text-toimage,layout-to-image 모델들을 사용한다.

2. Method

학습에 적은 연산을 요구하는 DM은 고해상도 이미지를 만드는데, 저자는 비록 DM이 불필요한 detail을 무시하더라도 여전히 비용이 많이 든다.

저자는 생성 학습 단계로부터 분리된 압축법을 도입하여 결점을 피한다.(Fig 2). 이를 달성하기 위해, 저자는 이미지 공간과 지각적으로 동일한 이미지 공간을 학습하지만 계산량을 줄인다.