image-conditioning 기술은 잘 정의된 구조 영역을 제한하거나 타겟이미지에 reference image 스타일을 변경한다. 하지만 다양한 poses에 다양한 이미지들을 만들지 못했다. 저자는 Semantic Diffusion Guidance (SDG)를 제안하는데, text와 image guided를 통함해 이 한계를 넘어선다.

저자는 unconditional diffusion model의 샘플링 process guide에 guidance function에 의해 semantic한 input을 넣는다. image guidance는 이미지안에 찾는 정보에 의존한다. 저자는 2가지 option을 정의했는데 content와 style guidance이다. 이 guidance module의 flexibility는 language 또는 image guidance 하나 혹은 둘다 한번에 re-training 없이 unconditional diffusion model을 inject할 수 있다.

1. Semantic Diffusion Guidance

Untitled

SDG는 language guidance, image guidance, 아니면 둘다 leverage를 하여 image synthesis가 controll 가능하게 만든다. 이 guidance module은 finetuning 또는 re-training 없이 off-the-shelf unconditional diffusion mode을 injected 할 수 있다.

1.1. Guiding Diffusion Models for Controllable Image Synthesis

Untitled

unconditional backward process $p_θ(x_{t−1}|x_t)$는 추가적인 guidance signal y와 함께 사용될 거다. 아래와 같다.

Untitled

Untitled

$Z$는 normalizing 상수이다.

Untitled

Class-guided synthesis는 class label $y$로 구분되고 $p_φ(y|x_{t−1})$는 class $y$에 종속되는 $x_{t-1}$의 확률이다. 여기서 $y$는 언어, 이미지 또는 multimodal guidance guide를 위한 연속 embedding으로 일반화된다. 저자는 guidance function $F_φ(x_t, y, t) = log p_φ(y|x_t)$로 다른 guidance types를 도입한다.

Untitled

1.2. Language Guidance

image $x$와 text prompt $l$ 모델은 text encoder $E_L$과 이미지 encoder $E_l$을 사용해 joint embedding space에 embeds한다. $E_l(x)$와 $E_L(I)$ 임배딩 사이 유사성은 cosine 거리고 계산되어지고 저자는 language guidance 함수 공식에 활용한다.

그러나 공식 5에 guidace와 backward process 모델들은 시간에 의존하고 noisy image들을 입력한다. 이 의미는 image encoder $E_l$는 다른 timesteps noisy image들에 훈련되어야하고 입력으로 timestep t와 통합할 필요가 있다. 저자는 noisy image들을 위한 image encoder를 $E^*_I$로 표기한다.

결론은, language guidance 함수는 아래와 같이 정의된다.

Untitled

$E^*$은 추가적인 timestep 입력과 함께 noisy image들을 학습한 이미지 encoder를 표시한다.

1.3. Image Guidance

저자는 content, style guidance를 제시한다.

Image Content Guidance는 생성된 이미지의 content를 control하는데 목표를 둔다. 구조적 Image content guidance 참조를 기반으로 제약이 있거나 없거나 cosine 유사도를 이용해 image feture를 embedding한다. $x^,_0$는 noise-free reference image로 표시한다. 공식 2 $x_0$로부터 $x^,_0$를 perturb할 수 있다. 그러고 guidance signal는 아래와 같이 정의한다.

Untitled

Untitled

language guidance에 비슷하게 저자는 image encoder는 high-level semantic을 잘 잡아 embedding을 뽑고 image guidance 함수를 정의해 이미지 노이즈에 finetuned 되었다.

image encoder의 흥미로운 점은 pose와 관점 같은 것을 참조이미지로부터 structural information 유지하여 컨트롤한다. 공식 7에 사용되는 embedding은 공간 차원을 가지고 있지 않다. 이런 것으로 인해 샘플들 결과는 pose와 layout에 엄청난 변화를 준다. 그러나 공각정 특징맴과 공간 위치에 상응하는 특징들 사이에 정렬을 강조해 활용할 수 있는데, 저자는 생성된 이미지에 추가적으로 참조 이미지에 비슷한 구조를 공유해 guide한다.

Untitled

$E^,_{I()j}∈ R^{C_j×H_j×W_j}$는 이미지 encoder $E^,_I$의 이미지 인코더의 h번째 layer 공간 feature 맵에 표시한다.

Image Style Guidance는 참조이미지로부터 style transfer를 한다. 공식은 비슷하게도 feature maps의 GRAM matrices 사이에 정렬을 강제한다.

Untitled

$G^,_{I ()j}$는 image encoder $E^,_I$의 j번째 layer feature map의 Gram matrix이다.

1.4. Multimodal Guidance

저자의 pipeline은 두 guidance 함수들의 가중치 합으로 인해 둘다 쉽게 합칠 수 있다.

Untitled

각 양식의 weighting factors를 조절하여 language와 image guidance 밸런스를 맞춘다.

1.5. Self-supervised Finetuning of CLIP without Text Annotations

guidance function로 쓰이기 위해, CLIP은 어떤 timestep t에서 noisy images $x_t$를 다룰 수 있다. 저자는 CLIP image encoder $E_I$에 BN laters를 적용하고 바꾸어 추가적인 input t를 받도록 수정했고 scale과 bias tems을 예측하는 contioned $t$이다. 저자는 CLIP image encoder를 $E^~_I$(위에 물결 있음)로 표시한다.

이 CLIP image encoder finture을 위해, noised와 clean 이미지들로부터 feature를 뽑는 법을 접근한다.

저자는 넘은 negative pairs의 유사성을 최소화하면서 N 양수 쌍의 코사인 유사성을 최대화한다. 저자는 $E_I$를 고정하고 $E_I$(물결)의 변수들을 fintune했다. 저자의 finetuned CLIP model은 diffusion model은 사용자가 제공하는 정보를 guided할 수 있다.