Blended Diffusion for Text-driven Editing of Natural Images

특정 영역에만 CLIP을 가지고 classifier guidance로 text prompt에 맞게 이미지 생성.

More Control for Free! Image Synthesis with Semantic Diffusion Guidance

처음으로 text와 image guidance를 둘 다 줄 수 있다고 설명하는 논문. 그런데 둘 다 CLIP을 사용한 classifier guidance이다.

Generating High Fidelity Data from Low-density Regions using Diffusion Models

GAN처럼 Discriminator를 하나 사용해서 확률이 낮은 이미지를 뽑도록 유도. Low-density 이미지를 생성함.

Self-Guided DIffusion Models

Off-the-shelf model들의 사용으로 feature를 뽑아내고 클러스터링을 활용한 self-guided label -> classifier, object detection, semantic segmentation 등으로 guidance를 주어 그에 따르 이미지생성 (시간이 오래 걸릴듯, high resolution 어렵다는 단점)

Text-Guided Synthesis of Artistic Images with Retrieval-Augmented Diffusion Models

실체와 스타일 데이터 2개를 이용해 학습함. 그리하여 retrieval-augmented diffusion models(RDMs)에 prompt에 스타일과 포즈만 말하면 이에 맞게 잘 생성함. 그리고 다른 데이터 스타일도 사용이 가능한데, 다양한 영역에 걸쳐서 가능하다. 또한 CLIP에서 space 이동도 편하고 NN 알고리즘과 함께 classifier를 이용해서 스타일에 더욱 맞게 바꾼다.

Composer: Creative and Controllable Image Synthesis with Composable Conditions

기존 condition에 추가적으로 composer를 추가했는데 이미지 생성을 controll한다. 이미지를 decopose하여 representative factor들과 컨디션 factor와 diffusion model을 학습한다. 그리고 다양한 컨디션을 받고 다양한 결과를 내놓을 수 있다. decomposition과 composition 파트는 다시 읽고 공부해볼만한 가치가 높다.

7. Blended Latent Diffusion

기존 Blended Diffusion은 시간이 오래걸리는 문제점이 있음. 그래서 latent diffusion에 넣는 형식으로 제안함. 결론적으로 시간이 단축되었음. 하지만 latent space에 반복적으로 mask를 넣다보니 mask shirinking(마스크가 없어짐) 문제가 있기에, 이 문제 해결을 위해 dilated version을 만들어 해결함.

하지만 latent space에 넣으면서 spatial 같은 정보가 손상되는 걸 방지하는 기법을 고안해야할 듯함.

5月 Spotlight