1 INTRODUCTION

저자는 어떤 corrupt(noise, blur etc)를 선택할지 결정한다. 대게, diffusion은 다큰 크기의 노이즈를 추가하는데 최근에 다른 corruption을 추가하는 시도가 계속되었다.(2022 Lee, 리뷰한 논문) 하지만 대게 noise보다 못한 결과가 나온다. 저자는 어떤 linear corruption process더라도 학습할 수 있는 Soft Score Matching를 제안한다. Soft Score Matchin은 network에 filtering process와 diffused obeservation과 일치하는 원본 이미지를 예측하도록 모델을 훈련한다.

Untitled

저자가 요약한 기여부분은 아래 :

learning objective
표준 diffusion proccess의 넓게 쓰일 수 있다.
diffusion에 제한된 무작위 아래에 학습할 수 있다.
저자는 중간에 분포를 선택하는 원칙을 제시한다. Wasserstein 거리를 이용해 초기 분포와 마지막 분포 거리를 최소화 시키는 방법이다.
Momentum sampler라는 새로운 sampling 방법을 제안한다. 저자의 sampler는 다른 diffusion levels에 corruption의 convex combination과 optimization에 momentum 기법에 영감 받았다.
다른 가우시안 denoising 모델보다 더 빠르게 학습하고 FID도 높다.

2 BACKGROUND

corruption levle은 time t의해 indexed 된다. 이런 diffusion process는 Score-Based Model과 DDPM이다. 전형적인 score-based modeling diffusion은 noise 크기를 크게 한다. Score models는 Denoising Score Matching(DSM)으로 아래와 같이 표현된다.

Untitled

$w_t$는 inner objectives의 weights에 따라 다르다. $s_θ(x_t|t)$ 모델은 $∇x_t log q_t(x_t)$와 똑같아지기 위해 학습된다. DDPM은 DSM 학습에 ELBO를 최소화 하기위해 학습된다. Song et al에서는 DDPM과 Score based model 둘다 SDE라는 해결책을 아래와 같이 내놓았다.

Untitled

w는 wiener process. 특히 Score-Based model들은 $f(x,t) =0, g(t) = √{dσ^2_t/ dt}$를 쓰고 DDPM은

: $f(x, t) = (−1/2) β_tx, g(t) = √ β_t.$를 쓴다. Score based model은 마지막 분포를 위해 큰 noise를 필요로해서 VESDE라 부른다. DDPM은 마지막 분포가 단위 분산(분산이 1)이기에 VPSDE이다.

2 모델들을 위해 공식 2는 Forward SDE로 알려져있고, Reverse SDE는 아래와 같다.

Untitled

1 INTRODUCTION

2 BACKGROUND

3 METHOD