Score로부터 평가와 샘플링을 하는 생성 모델링을 위한 원칙을 연구한다. input data point에 log-density 함수의 기울기이다. 저자는 이 데이터로부터 vector field를 훈련하는 score matchin과 함께 훈련된다. 랑주뱅을 사용해 샘플을 생성한다.
여기에 2 주요 쟁점이 있다.
이 2 문제 때문에 저자는 다양한 크기의 랜덤 가우시안 노이즈로 데이터를 교란시킨다. 랜덤한 노이즈는 저차원 manifold 붕괴가 안일어난다. 큰 노이즈는 기존 데이터 분포로부터 저밀도 공간에서 샘플을 생성하는데 따라서 score estimation을 향상한다. 결정적으로 저자는 하나의 score network는 모든 노이즈 크기에 score 추정과 다양한 노이즈 레벨을 학습했다. an annealed version of Langevin dynamics을 제안한다. 높은 노이즈에 상응하는 점수로 시작하고 점차 노이즈를 줄이는데 기존 데이터 분포로부터 구분이 불가능할때까지 낮춘다.
알수없는 데이터 분포 $p_{data}(x)$로부터 i.i.d sample이 구성되었다고 가정하자. score는 $∇_x log p(x)$이다. score network $s_θ$는 θ 의해 매개변수화 된 neural network이다. $p_{data}(x)$의 점수에 근접하기 위해 학습된다. 이 score-based 모델은 2 재료가 필요하다 : score matchin과 Langevin dynamics이다.
Score matchin은 i.i.d. 데이터 분포의 샘플을 학습하기 위해 나왔다. score network $∇_x log p_{data}(x)$를 추정해 $s_θ(x)$ 학습하한다. 전형적인 score matching과 차이가 있다면 ELBO를 쓰진 않는다. 왜냐하면 추가적인 연산 때문이다. 아래 공식을 최소화 시키는 것이 목표이다.
그리고 score matching을 하여 아래와 같이 바꾼다.
$s_θ(x)$의 자코비안으로 $∇_xs_θ(x)$ 사용한다. $s_θ∗ (x) = ∇_x log p_{data}(x)$을 대부분 만족한다. 그러나 scpre matching은 $∇_xs_θ(x)$ 때문에 고차원 데이터를 scale할 수 없다. 그래서 아래에서 이에 관해 더 얘기해볼 예정이다.
Denoising score matching Denoising score matching은 tr($∇_xs_θ(x)$)인 변종이다. 미리 지정된 잡음 분포 $q_σ(x˜ | x$) 그리고 이후 변화가 있는 데이터의 분포
score를 평가하는 score matching을 쓴다. 아래 공식으로 증명이 되었다.