Diffusion Models Beat GANs on Image Synthesis

1 Introduction

저자는 diffusion model들 장점들을 가져오는데 초점을 맞췄다. 첫번째로 모델 구조를 향상시키고 화질을 위해 다양성을 trade off 고안을 했다.

classifier guidance를 사용 및 conditional 조정, simple arhitecture로 FID 향상을 이뤘다.

2 Background

DDPM은 $x_T$로 시작해서 점차 노이즈를 없애서 $x_0$ 도착하여 sample을 만든다. noise $E$는 시간 $t$에 의해 결정된다. $E$는 diagonal(대각) 가우시간 분포다. diffusion model은 $x_t$부터 $x_{t-1}$ 약간 denoise하게 생성하는 방법을 배운다. $E_θ(x_t,t)$ 함수는 noisy sample $x_t$의 noise 요소를 예측한다. 이 모델을 학습하기 위해 각 샘플은 데이터 샘플 $x_0, t ,E$를 같이하여 노이즈 샘플 $x_t$를 생성한다.

훈련 object는 $||E_θ(x_t, t) − E||^2$ Simple MSE 모형인데 예측 noise와 noise 사이를 비교한다.

샘플링은 $x_T$에서 시작해 $x_t, x_{t-1}$.. 반복적으로 예측한다. 저자는 Simple MSE $L_{simple}$모델이 실제 variational lower bound $L_{v|b}$보다 잘 작동한다고 말한다. 그리고 Song et al.은 sampling 과정이 denoising score matching model과 동일하다 말하는데, 학습된 denoising model로부터 샘플을 랑주뱅으로 뽑는 기법이다. diffusion 모델들은 주로 위에 있는 두 모델을 뜻한다.

2.1 Improvements

고정된 변수 $Σ_θ(x_t, t)$는 추가적인 duffusion step인 sampling을 위한 차선책이다. 그리고 이 변수를 매개변수화를 하는데 아래 공식과 같다. 모델 output $v$는 아래와 같이 보간되는 값이다.

Untitled

여기 $B_t$와 $β˜_t$는 reverse process 변수로 upper, lower bound에 상응하는 수이다. 추가적으로 Nichol and Dariwal는 하이브리드를 제안하는데 $E_θ(x_t, t)$ 와 $Σ_θ(x_t, t)$를 제안한다. $L_{simple} + λL_{vlb}$ 가중치의 합으로 사용한다.(simple MSE와 실제 ELBO를 더한 거다.) DDIM은 마르코프 과정이 없는데 forward는 같다. 하지만 reverse 과정이 다르다.

3 Architecture Improvements