저자는 self-guided diffusion을 제안한다. image-label 쌍 필요 없이 guided diffusion을 사용해 image generation framework를 제안한다. 이 framework는 self-annotation과 feature extraction 함수를 포함한다. 게다가, 저자는 더욱 fine-grained guidance를 위해 segmentation masks와 local bounding boxes를 holistic image(전체적인 이미지)로부터 guidance signal을 생성하는 것을 self-supervised learning으로 leverage한다.

1. APPROACH

Diffusion models

DDIM sampling process이다.

Untitled

Classifier-free guidance

conditional diffusion model에 converge와 sample fidelity는 trade off을 하기 위해, classifier의 기울기를 사용해 image generation process를 가이드한다. 하지만 cost가 높다는 단점이 있다. 이런 란점을 개선하기 위해 label-conditioned guidance를 제안하는데 이는 classifier가 필요 없다. 단일 모델에 unconditionla과 condititonal의 결합으로 얻어진다. 학습 동안 guidance signal c를 랜덤하게 가진다. 학습 후, guidance strength $w$를 변경하여 sampe과 guidance signal 사이의 정도를 조절한다.

Untitled

큰 값을 지니는 $w$는 guidance signal을 더 잘 alignment하고 반대인 경우도 마찬가지다. Classifier-free guidance는 labor-consuming data annotation의 확장에 특별한 guidance 방향으로 progessive control을 준다. 이 논문에서, 저자는 self-supervised learning을 기반으로 self-guided 원칙을 사용해 data annotation의 중요성을 제거한다.

1.2 SELF-GUIDED DIFFUSION

데이터셋 $D$는 classifier-free guidance에 의해 설명하는데 각 이미지들은 single manually annotated class label을 지니고 있다. 저자는 label 필요한 걸 명시하길 원한다. 저자는 C는 annotationm 분류로 정의하고 human annotation process로 $ξ(x; D, C) : D → C$를 사용한다. 공식 4에 이 human annotation을 결합한다.

Untitled

저자는 supervised labeling process $ξ$를 대체하는 걸 제안한다. self-supervised process로 human annotation이 필요가 없어진다.

Untitled

$g$는 featyre spcae $H$에 input data map $φ$에 의해 매개변수화된 self-supervised feature extraction function이다. $g : x → g_φ(x), ∀x ∈ D$, 그리고 $f$는 guidance signal $k$에 raw feature representation에 $ψ$의해 매개변수화 된 self-annotation function이다. $f_ψ : g_φ(·; D) → k$. guidance signal $k$는 annotation의 어떤 form이든 될 수 있다. self-annotation function $f$의 선택은 feature map $g_φ(·; D)$에 fune-tuning에 의해 매개변수화 되거나 $g_φ(·; D)$ feature를 추출하는 걸 기반으로 dataset $D$에 heuristically searching을 함으로써 non-parametric이 될 수 있다.

Self-labeled guidance

self-annotation function $f$는 guidance signal $k$를 생성한다. 첫째로, 저자는 embedding function $g_φ(x)$에 필요하다, $x ∈ D$ 모델에 semantically meaningful image-level guidance 제공한다. 저자는

image space로부터 mapping에 의해 self-supervised 방식으로 $g_φ(·)$에서 얻는다, $g_φ(·) : RW×H×3 → R C$ , $W$와 $H$는 image width와 height 그리고 C는 feature dimension이다. 저자는 임베딩 함수 $g$를 위해 feature 어떤 타입이든 사용할 수 있다.