Despite their success, the research community still lacks a clear understanding of what the latent variables or intermediate features of the models are embedded or how they are reflected in the resulting images. We attribute it to the characteristic iterative process of the DMs which involves a sequence of noisy images and subtle noises, i.e., the embeddings are not directly connected to the final images.
We suppose that a better understanding of the latent space of DMs will boost similar development.
문제제기 : 아직 모델들의 중간 features는 embedded 또는 어떻게 결과 이미지에 영향을 끼치는지나 latent 값들의 명확하게 이해못하는 거에 대한 커뮤니티가 여전히 부족하다..
In this paper, we introduce useful intuitions about latent space X to deepen our understanding of how we can control pretrained and frozen diffusion models. First, we identify semantic latent directions in X which manipulate the resulting images using Riemannian geometry in an unsupervised manner.
저자는 pretrained 되고 frozen diffusion 모델들을 어떻게 다룰 수 있는지 깊은 이해를 latent spcae X에 대한 효율적인 intuitions 알려줌. 1. 저자는 비지도 방법으로 리만 기하학을 사용해 결과 이미지의 semantic latent direction을 identify함.
Second, we find global semantic directions by exploiting the homogeneity of H. It removes cumbersome per-sample Jacobian computation and allows general controllability.
Last but not least, we show interesting properties of the diffusion models. Spherical linear interpolation in X leads to smooth interpolation between samples because it is approximately geodesic in H. That is, X is a warped space. The early timesteps generate low frequency components and the later timesteps generate high frequency components.
- 저자는 H의 동일한 exploiting으로 global semantic directions 찾는다.(latent space에 diffusion kernel의 feature space를 H임) 마지막으로 중요한 건, X에 Spherical linear interpolation은 샘플들을 부드럽게 이끌어 준다다. H에 측지선을 근사하기 때문이다. X는 공간이 뒤틀어져있다는 것이다. 이른 timestpes는 low frequency compnents를 생성하고 나중에는 high frequency를 생성한다.
First, we adopt the local Euclidean metric of H to identify semantic directions for individual samples in X . Second, we find global semantic directions by averaging the local semantic directions of individual samples. Then, we use the global directions to manipulate any sample to have the same interpretable features. Finally, we introduce a normalization technique to prevent distortion.
X에 각각 샘플들에 의미있는 semantic directions를 identify하려고 H의 유클리디안을 사용함. 두번째로 저자는 각 샘플들의 local semantic directions를 평균하여 global semantic 방향을 찾고 저자는 똑같은 interpretable features 가진 어떤 샘플이든 생성하기 위해 global directions를 사용한다. 마지막으로 저자는 distortion을 막기위해 normalization 기술을 사용한다.
We consider a curved manifold, X , where our latent variables xt exist. The differential geometry represents X through patches of tangent spaces, Tx, which are vector spaces defined at each point x. Then, all the geometrical properties of X can be obtained from the metric of ||dx||2 = hdx, dxix in Tx. However, we do not have any knowledge of hdx, dxix. It is definitely not a Euclidean metric. Furthermore, samples of xt at intermediate timesteps of DMs include inevitable noise, which prevents finding semantic directions in Tx.
X는 curved manifold이다. 각 포인트 x에 정의된 vector space 다른 공간 Tx는 탄젠트 공간의 patches를 통해 표현된다. 그러고 모든 X의 기하학적 요소들은 유클리디안으로 값을 얻는데 Tx에 <dx,dx>와 관한 정보가 없다. 이는 유클리디안으로 정의할 수 없다. 게다가 중간에 xt의 샘플들은 inevitable noise를 포함한다.
Fortunately, Kwon et al. (2022) observed that H, defined by the bottleneck layer of the U-Net, exhibits local linearity. This allows us to adopt the Euclidean metric on H. In differential geometry, when a metric is not available on a space, pullback metric is used.
U-Net의 bottleneck layer에는 H가 정의되어있다. 이는 H에 유클리디안 거리를 할 수 있게 해준다. 미분 기하학에선서는 매트릭을 space에 사용못해서 pullback metric을 쓴다.
Our idea is to use the pullback Euclidean metric on H to define the distances between the samples in X .
저자의 idea는 H에 pullback 유클리디안 매트릭을 사용한다. X에 샘플들 사이 거리를 정의하낟.