2025 모각소

Blended Latent Diffusion

기존 Blended Diffusion은 시간이 오래걸리는 문제점이 있음. 그래서 latent diffusion에 넣는 형식으로 제안함. 결론적으로 시간이 단축되었음. 하지만 latent space에 반복적으로 mask를 넣다보니 mask shirinking(마스크가 없어짐) 문제가 있기에, 이 문제 해결을 위해 dilated version을 만들어 해결함.

하지만 latent space에 넣으면서 spatial 같은 정보가 손상되는 걸 방지하는 기법을 고안해야할 듯함.

PAIR-Diffusion: Object-Level Image Editing with Structure-and-Appearance Paired Diffusion Models

fine grainde cotrol과 여러 objects에 각각 prompt engineering에 대한 성능을 높임. 여러 objects를 인식하고 shape, category, texture 등과 같은 여러 요소들을 합쳐 structure와 appearance 요소로 더 나은 editing을 제안함. Appeaerance Editing과 Structure Editing에 대한 설명이 중요함. 두 editing으로 나눈 점에서 좋은 결과를 낼 수 있다는 점을 증명하였음.

SRFlow: Learning the Super-Resolution Space with Normalizing Flow

지속적으로 latent value로 바꾸며 노이즈가 가득차있고 작은 이미지가 생성하여 다시 돌리는 과정이 Diffusion과 유사함. 하지만 이론적으로는 엄연히 틀림. 또한 distrubution을 본격적으로 사용한다는 점에서는 비슷하긴함.

일단 각 layer에 정보를 추출하여 tractable하게 함. 그리고 그 정보들을 전부 NLL에 넣어 값을 전부 더한후 loss값을 구함. 구조적으로는 Conditional Flow layers에서 encoder에 나온 정보를 이용해 지속적으로 affine에 이용하며 1x1 con, Actnorm, squeeze 등 다양한 방법들을 자세히 묘사함.

결국은 HR 이미지를 만들기 위한 구조와 tractable하고 loss를 구하며 distribution을 이용한 부분이 좋음. 추가적으로 latent space가 있어서 비슷한 구조에 여러 이미지 생성 가능.

Score-based generative model learn manifold-like structures with constrained mixing

score를 svd 해서 분석해본 결과 재밌게도 eigenvalue가 낮은 친구들이 semantic한 의미를 지니고 있음을 보임. 직관적으로 생각해보면 각 score들은 timestep에 맞는 distribution으로 향하는 방향이어야 하고, 이에 맞춰서 eigenvalue가 높은 방향들은 각 distirbution 밖으로 향하는 방향이라고 이해할 수 있음.

An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

이미지 3~5장을 S* 라는 문자로 inversion한다. GAN inversion과 유사. 이미지를 생성하는 과정에서 나오는 노이즈와 given image를 inversion 하는 과정에서 나오는 노이즈간의 MSE loss를 사용하여 "A photo of S*" 라는 prompt의 S*에 해당하는 토큰을 직접 optimize한다.