정리 | Notion

1 Introduction

DDPM,ADM은 FID를 쓰고 ScoreFlow, VDM은 NLL을 쓴다. NLL과 FID 사이 trade-off가 있다. 그래서 저자는 softtruncation을 도입한다. NLL-favorable(NLL에 유리한) 모델은 NLL을 유지하며 FID를 올리고 반대도 그렇다고 보면 된다.

truncation 매개변수는 NLL과 FID scale을 조정하는 중요 변수이다. 이 매개변수 $E$는 score 함수에 작은 변수이다. 작은 $E$는 FID 희생으로 NLL을 높이고 큰 $E$는 NLL를 작게만들지만 FID가 더 커진다.

그러므로 soft truncation에서는 고정된 static truncation hyperparameter($E$)를 모든 optimization step에서 가장 작은 diffusion time을 랜덤하게 선택하는 변수 $τ$로 부드럽게 한다.

score function 측정하는 optimization은 $[E,T]$ 보다 오직 [$τ,T$]에 한정된다. ($τ$보다 작으면 무시한다.) $τ$는 mini-batch update인해 다양하다. 그리고 성공적으로 모든 diffusion time $[E,τ]$를 측정할 수 있고 FID 향상을 보였다.

Soft Truncation의 2가지 흥미로운 부분이 있는데,

Soft Truncation은 알고리즘 설계 weighting function에 아무것도 안했다. 놀랍게도 Soft Truncation은 그냥 평범한 diffusion model과 똑같다. $τ$는 단순히 weight function으로 결정된다.
$τ$는 min-batch optimization에 샘플된다. $τ$의해 log-likelihood perturbed로 최적화한다. 따라서 Soft Truncation은 **Maximum Perturbed Likelihood Estimation(MPLE)**으로 framed된다.

2 Preliminary

알다시피 SDE, drift($f$) 그리고 diffusion($g$)로 이루어졌다. 데이터 변수는 고정되어있다. 아래와 같다.

Untitled

이 이론을 기반으로 reverse SDE는 아래와 같이 주어진다.

Untitled

공식 1과 맞는 reverse SDE이다. $dt^¯$는 backward time, $dw^¯_t$는 Wiener process backward이다. 그리고 $p_t(x_t)$는 $x_t$의 확률 분포이다. diffusion model 목표가 stochastice process를 학습하기 위해서라면 stochastice process로 $x_t$를 매개변수화하여 $x^θ_t$로 학습한다. 그래서 generative SDE는 아래와 같이 표시한다.

Untitled

공식 3 SDE는 $x^θ_T ∼ π$로 backward한다. $π$는 noise 분포이다. generative stochastic process는 score loss 최소화를 하여 학습된다.

Untitled

$λ(t)$는 손실함수에 각 diffusion time의 contribution 중요도인 weighting function이다. 이 score loss는 data score $∇ log p_t(x_t)$ 때문에 최적화가 불가능하다.

다행히도, $L(θ; λ)$는 $θ$-optimization에 상관없는 상수까지 denoising NCSN loss에 동등한 걸로 알려져있다.

Untitled