Untitled

VAE, GAN, DDPM은 각자 장점이 있음. 전에는 DiffuseVAE였다면 이번에는 GAN이다. 저자는 Diffusion과 GAN을 잘 섞었다.

Untitled

1. DENOISING DIFFUSION GANS

1.1 MULTIMODAL DENOISING DISTRIBUTIONS FOR LARGE DENOISING STEPS

베이즈 룰에 따라 denoising $q(x_{t−1}|x_t) ∝ q(x_t|x_{t−1})q(x_{t−1})$이다. 이 $q(x_t|x_{t-1})$은 forward process인데 아래와 같다.

Untitled

$q(x_{t-1})$은 주변분포이다. 2개 모두 가우시안 분포를 따른다. 아주 작은 $β_t$에서만 결과물은 $q(x_t|x_{t-1})$에 dominated되어있고 reversal of the diffusion process는 foward prcess로 똑같은 함수를 갖는다. 따라서 **$β_t$**가 충분히 작다면 $q(x_t|x_{t−1})$, $q(x_{t-1}|x_{t})$ 둘다 가우시안을 따른다.(denoising, forward 둘 다)

이를 만족하기 위해서 $B_t$가 작으며 steps가 천번을 가지는데 크다. $q(x_t)$ 가 가우시안이면 denoising disconsequently $q(x_{t-1}|x_t)$는 가우시안 분포이다. LSGM에서 VAE encoder를 사용해 최종 $q(x_t)$와 $q(x_0)$분포를 가우시안에 가깝게하는 아이디어를 냈지만 LSGM은 여전히 많은 step을 요구하기에 문제가 있다.

1.2 MODELING DENOISING DISTRIBUTIONS WITH CONITIONAL GANS

denoising diffusion steps $T$는 reverse에 필요한데 $T≤8$로 작은 값으로 가정한다. 그리고 각 diffusion step 큰 $B_t$ 값을 가진다. conditional GAN 생성자 $p_θ(x_{t−1}|x_t)$와 $q(x_{t−1}|x_t)$는 denoising step에 $D_{adv}$를 최소화시켜 adversial loss를 계산한다.

Untitled

$D_{adv}$는 Wasserstein, Jenson-Shannon 또는 f-divergence depending(softened reverse KL) 될수 있다.

time-dependent discriminator는 $D_φ(x_{t−1}, x_t, t)$로 표기하는데 아래에 의해 학습된다.

Untitled

$p_θ(x_{t−1}|x_t)$로부터 가짜 샘플을 가져오고 $q(x_{t-1}|x_t)$로부터 나온 실제 샘플과 대조된다.

$q(x_{t−1}|x_t)$는 무엇인지 알 수 없다. 이걸 알기 위해서 $Eq.5$를 $Eq.1$으로 바꾼다.

Untitled

$p_θ(x_{t−1}|x_t) := q(x_{t−1}|x_t, x_0 = f_θ(x_t, t))$로 denoising 모델을 매개변수화하는데 첫 $x_0$은 denoising model $f_θ(x_t, t)$에서 예측한다.

Untitled