지금까지는 이미지 퀄리티를 높이기 위해 이미지의 거친 부분에 집중했다. 생성 과정에 coarese structure를 생성하는 단계와 detail하게 추가하는 단계를 분할하여 이런 모델들은 납득할만하고 특히 고해상도 이미지를 생산했다.
그러나 이미 결정되어 나뉜 단계들은 독단적이고 각 stage를 위해 분할된 upsampler를 학습해야한다. 이 논문에서 저자는 새로운 방법을 제시한다. 여기서 모델을 나누거나 어떤 upsampler도 필요하지 않다. 대신 각 벡터의 구성요소를 위한 다른 velocities 시스템을 조정하도록 coordinate system (좌표계) diffusion이 가능해야한다. blur diffusion을 제안하는데, 이는 다른 속도에 diffused한다.
data $x_0$~$q_0(x)$ 학습은 VP diffusion model로 학습한다. 아래와 같이 마르코프 chain을 정의한다.
$z_i$~$N(0,I)$ 그리고 ${B_i}^N_{i=1}$는 noise schedule이 미리 정의되었다. 기존 diffusion process는 각 픽셀 사이에 독립성을 가정하여 image space에 직접 정의되었다. 저자의 목표는 좌표계 생성과정이다. 직교 matrix $U$ 그리고 이후 몇 벡터가 움직인 matrix $x¯ := U^T x$이다. 표기법을 남용?하여 fractional powers semi-definite matrix $P^p$ 를 정의한다. 각 고유값의 힘을 가져간다고 정의했다.
그러고 저자는 생성된 forward diffusion Markov chain을 아래와 같이 정의했다.
$B_i$는 대각 matrix로 process의 noise schedule로 정의된다. 공식 (2)는 흔한 diffusion 버전인데, standart diffusion은 $B_i = β_iI$와 $U=I$로 설정할때 돌아온다. 다시 말하자면, 저자는 diffusion 모델의 design space를 더 flexibility하게 했다. 1) 좌표계 안에 diffusion, pixel들 사이 의존성은 강조될 수 있다. 2) vecoter의 각 구성요소마다 서로 속도가 다른 diffusion 이다.
대각 행렬의 속성 때문에, 저자는 조건부 분포로 분석할 수 있다.
$A_i:= I − B_i$이고 $A¯_i:= Q^i_{j=1} A_j$ 로 정의했다. 공식 3은 $x_0$을 사용해 $x_i$를 계산했다.
$E$~$N(0,I)$이다. 공식 4는 저자가 denoising score matching을 효과적으로 할 수 있다는 걸 밝힌다.
좌표계 $U$와 noise schedule $B_i$의 선택은 유연하다. 연산을 쉽고 간단하게 하기위해 저자는 분리 가능한 대칭 커널과 함께 가우시안 blur를 활용했다. $σ^2$는 미리 정의된 분산이다, 가우시안 blur는 linear operation이다. 이는 원형 대칭행렬 W를 사용하여 행렬 곱셈으로 근사할 수 있다. lur schedule과 $W_i=W^{f(i)}$를 결정하는 $f(i)$함는 단조롭게 증가한다. 아래와 같이 blurring diffusion을 정의했다.