1. model 구조를 GAN과 비슷하게 사용해본다.
  2. 화질과 다양성을 trade off할 수 있다. 높은 퀄리티 샘플을 만들어도 모든 분포를 커버 못할 수 있다.

즉 다양한 구조와 classifier guidance를 제안한다.

구조

구조는 아래와 같은 사항을 따른다.

Untitled

Untitled

Untitled

Attention Head, residual connection 등 여러가지 테스트했다. 그리고 AdaGN이 성과가 좋다. 저자는 128 channes, 2residual blocks per resolution, multi-resolution attenstion, BigGAN up/donwsampling을 사용했다.

Classifier Guidance

cGAN을 보면 conditional한 GAN을 간단하게 이해 가능하다. 저자는 $p(y|x)$ classifier로 디자인해 판별했다.

Untitled

기존에는 $Zp_θ(x_t|x_{t+1})$만 있었다면 여기에 $p_φ(y|x_t)$를 곱해 사용했다. 그래서 classifier gudiacne가 가능해졌다.

위는 ddpm의 경우고 ddim의 경우는 다르게 정의된다.

Untitled

Untitled

비슷하다.