모각소 논문 정

Blended Latent Diffusion

기존 Blended Diffusion은 시간이 오래걸리는 문제점이 있음. 그래서 latent diffusion에 넣는 형식으로 제안함. 결론적으로 시간이 단축되었음. 하지만 latent space에 반복적으로 mask를 넣다보니 mask shirinking(마스크가 없어짐) 문제가 있기에, 이 문제 해결을 위해 dilated version을 만들어 해결함.

하지만 latent space에 넣으면서 spatial 같은 정보가 손상되는 걸 방지하는 기법을 고안해야할 듯함.

PAIR-Diffusion: Object-Level Image Editing with Structure-and-Appearance Paired Diffusion Models

fine grainde cotrol과 여러 objects에 각각 prompt engineering에 대한 성능을 높임. 여러 objects를 인식하고 shape, category, texture 등과 같은 여러 요소들을 합쳐 structure와 appearance 요소로 더 나은 editing을 제안함. Appeaerance Editing과 Structure Editing에 대한 설명이 중요함. 두 editing으로 나눈 점에서 좋은 결과를 낼 수 있다는 점을 증명하였음.

SRFlow: Learning the Super-Resolution Space with Normalizing Flow

지속적으로 latent value로 바꾸며 노이즈가 가득차있고 작은 이미지가 생성하여 다시 돌리는 과정이 Diffusion과 유사함. 하지만 이론적으로는 엄연히 틀림. 또한 distrubution을 본격적으로 사용한다는 점에서는 비슷하긴함.

일단 각 layer에 정보를 추출하여 tractable하게 함. 그리고 그 정보들을 전부 NLL에 넣어 값을 전부 더한후 loss값을 구함. 구조적으로는 Conditional Flow layers에서 encoder에 나온 정보를 이용해 지속적으로 affine에 이용하며 1x1 con, Actnorm, squeeze 등 다양한 방법들을 자세히 묘사함.

결국은 HR 이미지를 만들기 위한 구조와 tractable하고 loss를 구하며 distribution을 이용한 부분이 좋음. 추가적으로 latent space가 있어서 비슷한 구조에 여러 이미지 생성 가능.

Score-based generative model learn manifold-like structures with constrained mixing

score를 svd 해서 분석해본 결과 재밌게도 eigenvalue가 낮은 친구들이 semantic한 의미를 지니고 있음을 보임. 직관적으로 생각해보면 각 score들은 timestep에 맞는 distribution으로 향하는 방향이어야 하고, 이에 맞춰서 eigenvalue가 높은 방향들은 각 distirbution 밖으로 향하는 방향이라고 이해할 수 있음.

An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

이미지 3~5장을 S* 라는 문자로 inversion한다. GAN inversion과 유사. 이미지를 생성하는 과정에서 나오는 노이즈와 given image를 inversion 하는 과정에서 나오는 노이즈간의 MSE loss를 사용하여 "A photo of S*" 라는 prompt의 S*에 해당하는 토큰을 직접 optimize한다.