Untitled

대부분 이미지 데이터셋은 샘플 denstiy의 long-tailed 분포를 가진다. 주요 샘플들은 data manifold의 high-density 주위에 놓여있다. low-density 영역으로부터 샘플들은 자주 새로운 특성들이나 높은 엔트로피를 가진다. 그러나 lower likelihood 때문에 소량의 샘플이라도 curating하기위해 많은 노력을 요구한다,

저자는 diffusion model들이 이 영역들에 보간법을 배우지 않고 lowdensity neighbohoods로부터 샘플들을 학습하는 memorizing 없이 얻는 법을 분석한다.

1. Low-density sampling from diffusion models

Untitled

1.1. Generating synthetic images from low-density regions on the data manifold

Untitled

1.1.1 Identifying low-density regions on data manifold

low-density regions 또는 neighborhoods는 다른 영역보다 훨씬 낮은 density를 가진 data manifold의 부분이다. 이 영역들로부터 sample하는 기술들 발전하기 위해 첫번째 step은 그들을 characterize한다.

likelihood의 한계는 diffusion model로부터 측정이다. 특별한 manifold density natural한 선택은 diffusion model 스스로 likelihood 측정하는 거다. 결국 저자는 저밀도 지역들보다 높은 high-density 영역들로부터 sample을 얻을 가능성이 높다고 생각한다. 그러나 diffusion-based models를 위한 intractability 때문에 mode로부터 likelhood 측장은 사람 판단이나 다중 metrics를 사용하지 않기에 manifold density의 신뢰할 수 있는 예측 변수가 아님을 발견했다.

저자는 embedding sapce에 data의 likelihood 측정함으로써 manifold density를 측정한다. $(g ◦ f)(.)$ 는 discriminative model이고 $f$는 input image를 위한 embedding을 뽑은 거고 $g$는 head classifier이다.

저자는 negative loglikelihood인 Hardness score를 $H$로 표현한다.

Untitled

$µ_y$이랑 $Σ_y$는 $k$와 class $y$의 임베딩을 위한 샘플 평균과 공분상이다. manifold density 감소는 hardness score 증가를 이끈다.

Untitled

low-density 영역들로푸터 샘플을 위해 저자는 높은 hardness scores에 생성된 샘플을 guide한다.

저자는 contrasive guiding loss를 최대화한다.

Untitled

guiding loss function의 형식화는 softmax를 거친 cross-entropy loss와 비슷하다. 따라서 hardness score 대신에 loss function과 동일하게 생각한다. 저자는 맞는 class에 softmax probability output을 최소화한다.

Incorporating guiding loss in sampling process.