저자는 효율적인 inversion scheme를 도입한다. Fig 1을 보면 기존 모델의 rich text guidied editing을 가진 모델로 재구성했다. 저자는 guided diffusion model의 2 주요 관점들의 분석으로 접근했다. classifier -free guidance와 DDIM inversion이다.
classifier-free guidance는 널리 쓰이는데, 각 diffusion step에 예측은 두번 수행된다. 한번은 unconditionally와 한번은 text condition과 함께이다. 이 예측은 text guidance 효과를 증폭시키기 위해서이다. 모든 작업들이 conditional prediction에 집중하는 동안, 저자는 uncinditional part에 의한 큰 유도되는 효과를 인지한다. 따라서 저자는 input prompt와 image 변환하기 위해 unconditional part에 사용된 embedding을 최적화한다. 저자는 null-text optimization이라는 걸 언급하고, 저자의 optimized embedding과 함께 빈 text string의 임베딩을 대체한다.
그러나 현실에서 text-guided synthesis가 없어서 classifier-free guidance에 오류가 축적되어 적합하지 않다.
더욱 정확한 inversion과 향상을 위해 이 축 주변으로 최적화를 한다. 저자는 Diffusion Pivotal Inversion이라는 효과적인 optimization을 언급한다. 지금까지 나온 것과 대조적으로 한 이미지에 노이즈 벡터 모두 초점을 맞춘다.
이 접근법은 실제 이미지에 Prompt-to-Prompt(?)의 text editing 기술이 가능하다. 아 접근법은 주어진 현실 이미지의 높은 해상도 재구성을 이뤄내는 주요 열쇠이다.
실제 이미지 $I$는 text guidance를 사용해 이미지 $I*$로 수정된다. Prompt-to-Prompt의해 설정이 정의되어 사용하는데 source prompt $P$와 수정된 prompt $P*$로 편집된다.
off-the-shelf captioning 모델을 사용하는 것이 source prompt 생성하는 것이 잘 된다.
이런 편집 작업은 먼저 $I$를 모델의 출력 도메인으로 반전시켜야한다. 주요 문제는 source prompt $P$를 모델에 fedding하면서 직관적인 text-based editing 능력을 유지하면서 말이다.
첫번째로, DDIM inversion은 classifier-free guidance가 적용되었을때 불만족은 재구성을 생성하지만 optimization을 위한 스타팅 포인트로는 좋고 높은 fidelity inversion을 효과적으로 달성할 수 있다.
두번째는, classifier-free guidance에 사용되는 unconditional null embedding 최적화면 conditional embedding과 model의 tuning을 피하면서 정확한 reconstruction을 보인다, desired editing capabilities를 유지한다.
Text-guided diffsuion model들은 random noise vector $z_t$ 그리고 textual condition $P$를 output image $z_0$을 map하는데 초점을 맞춘다. $C = ψ(P)$는 text condition의 embedding과 $z_t$는 noised sample이다.