Untitled

이 논문에서는 diffusion모델에 encoder를 추가해 interpolation을 개선한다. 예시로 아래 이미지를 봐보자.

Untitled

StyleGAN은 interpolation이 정말 잘되지만 DDIM은 중간이 없이 결과가 나오는 것을 볼 수 있다. 그래서 Fig4-(d)처럼 중간이 존재할 수 있도록 수정한 논문이다.

논문에서는 Semantic encoder로 $z_{sem}$을 내놓는다. 그리고 이 $z_{sem}$을 DDIM모델에 넣어 Conditional DDIM을 만든다. 천천히 Decoder부터 보자.

DDIM decoder는 $z=(z_{sem},x_T)$를 input으로 받는다. 이 decoder는 $p_θ(x_{t−1}|x_t, z_{sem})$이다. image와 Sementic encoder로부터 $z_{sem}$을 받았다.

Untitled

위 공식에서 $f_θ$를 noide prediction network $E_θ(x_t, t, z_{sem})$로 매개변수화한다.

Untitled

이 network는 UNET이고 $L_{simple}$ loss function으로 최적화된다.

Untitled

$Enc(x_0)$는 $z_{sem}$이다. Encoder 모델이 재밌는데 UNet decoder의 절반과 똑같다.

Condtional DDIM이다. $x_0$이미지를 넣어서 노이즈 이미지 $x_T$를 만든다.

Untitled