Cascading 방법으로 resolution을 높이는 방법을 사용한다.
diffusion 모델 $p_θ(z_0)$ 그리고 super-resolution diffusion model $p_θ(x_0|z_0)$가 있다. $p_θ(x_0) = ∫p_θ(x_0|z_0)p_θ(z_0) dz_0$ pipeline을 따른다. 그리고 conditioning information $c$가 있는데 이 모델은 $p_θ(z_0|c)$과 $p_θ(x_0|z_0,c)$을 따른다. Fig 4.를 보면 이해가 된다.
또한 저해상도 이미지에 가우시안 noise, blur augmentation을 이용하는데 좋은 효과가 있다고한다.
$z$에 augmentation을 적용한다. 물론 inference에는 적용하지 않는데 아마 이유는 다양한 latent를 얻기 위함 아닐까? 싶다. 랑주뱅과 비슷..?
기존 sampling은 아래와 같다.
그러나 저자는 reverse process $t=0$일때 저해상도 이미지에 augmentation을 적용하고자 한다. 그래서 $s>0$부터 시작된다. 공식은 아래와 같다.
이 방법이 가장 좋은 효과를 내었다고 말한다. ELBO는 아래와 같은데 논문에 잘 설명되어있다. 확인하는 거 추천