저자는 self-guided diffusion을 제안한다. image-label 쌍 필요 없이 guided diffusion을 사용해 image generation framework를 제안한다. 이 framework는 self-annotation과 feature extraction 함수를 포함한다. 게다가, 저자는 더욱 fine-grained guidance를 위해 segmentation masks와 local bounding boxes를 holistic image(전체적인 이미지)로부터 guidance signal을 생성하는 것을 self-supervised learning으로 leverage한다.
DDIM sampling process이다.
conditional diffusion model에 converge와 sample fidelity는 trade off을 하기 위해, classifier의 기울기를 사용해 image generation process를 가이드한다. 하지만 cost가 높다는 단점이 있다. 이런 란점을 개선하기 위해 label-conditioned guidance를 제안하는데 이는 classifier가 필요 없다. 단일 모델에 unconditionla과 condititonal의 결합으로 얻어진다. 학습 동안 guidance signal c를 랜덤하게 가진다. 학습 후, guidance strength $w$를 변경하여 sampe과 guidance signal 사이의 정도를 조절한다.
큰 값을 지니는 $w$는 guidance signal을 더 잘 alignment하고 반대인 경우도 마찬가지다. Classifier-free guidance는 labor-consuming data annotation의 확장에 특별한 guidance 방향으로 progessive control을 준다. 이 논문에서, 저자는 self-supervised learning을 기반으로 self-guided 원칙을 사용해 data annotation의 중요성을 제거한다.
데이터셋 $D$는 classifier-free guidance에 의해 설명하는데 각 이미지들은 single manually annotated class label을 지니고 있다. 저자는 label 필요한 걸 명시하길 원한다. 저자는 C는 annotationm 분류로 정의하고 human annotation process로 $ξ(x; D, C) : D → C$를 사용한다. 공식 4에 이 human annotation을 결합한다.
저자는 supervised labeling process $ξ$를 대체하는 걸 제안한다. self-supervised process로 human annotation이 필요가 없어진다.
$g$는 featyre spcae $H$에 input data map $φ$에 의해 매개변수화된 self-supervised feature extraction function이다. $g : x → g_φ(x), ∀x ∈ D$, 그리고 $f$는 guidance signal $k$에 raw feature representation에 $ψ$의해 매개변수화 된 self-annotation function이다. $f_ψ : g_φ(·; D) → k$. guidance signal $k$는 annotation의 어떤 form이든 될 수 있다. self-annotation function $f$의 선택은 feature map $g_φ(·; D)$에 fune-tuning에 의해 매개변수화 되거나 $g_φ(·; D)$ feature를 추출하는 걸 기반으로 dataset $D$에 heuristically searching을 함으로써 non-parametric이 될 수 있다.
self-annotation function $f$는 guidance signal $k$를 생성한다. 첫째로, 저자는 embedding function $g_φ(x)$에 필요하다, $x ∈ D$ 모델에 semantically meaningful image-level guidance 제공한다. 저자는
image space로부터 mapping에 의해 self-supervised 방식으로 $g_φ(·)$에서 얻는다, $g_φ(·) : RW×H×3 → R C$ , $W$와 $H$는 image width와 height 그리고 C는 feature dimension이다. 저자는 임베딩 함수 $g$를 위해 feature 어떤 타입이든 사용할 수 있다.