1. Null-text Inversion for Editing Real Images using Guided Diffusion Models

별도의 model fine-tuning 없이, real image 에 해당하는 null-text를 optimization 하여 prompt2prompt 방식으로 object의 semantic detail을 유지하면서 image editing을 가능하게함. 방법 좋은 결과 좋은. 괜찮은 논문.

2. Paint by Example: Exemplar-based Image Editing with Diffusion Models

유저가 지정한 영역에 컨디션으로 주어진 이미지의 semantic을 생성한 논문. 1. StableDiffusion으로 init 2. 이미지의 메인 오브젝트 패치를 떼어내고, CLIP 이미지 인코더에 augmentation해서 넣어준다. 이 때 CLIP을 1024까지 임베딩을 시켜버리고, 이걸 다시 리니어레이어 몇개 통과시켜서 컨디션으로 넣어줌. 3. 2번에 따라서 학습. 결과 좋음. 방법 좋음. 논문 잘 읽힘. 괜찮은 논문.

추가 23.05.27 추가적으로 mask를 만들기위해 bounding box distortion과 similarity degree로 매 inference step마다 유사도를 계속 높힌다는 점에서 좋은 논문이라 판단함.

3. Denoising Diffusion Restoration Models

이미지 자체가 하자가 있다고 생각하고 특정 행렬 곱으로 노이즈나.. 크롭이나.. 그런걸 나타낼 수 있다면 원본을 복구하는 방식 제안.

4. Palette: Image-to-Image Diffusion Models

별거 안하고 그냥 튜닝해서 모델 하나로 4가지 task에서 SOTA 달성.

5. DiffEdit: Diffusion-based semantic image editing with mask guidance

Reference text와 query text가 주어졌을때 두 텍스트를 적용했을때의 noise estimates 차이로 마스크를 생성 - 생성한 마스크를 통해 DDIM decoding과정에서 encoding된 것과 적절히 합쳐서 text 부분만 edit하는 간단한 방법.

6. DiffusionCLIP: Text-guided Image Manipulation Using Diffusion Models

CLIP을 가지고 model을 finetuning해서 원하는 attribute로 변환하는 논문. 그리고 몇가지 CLIP에 있는 loss를 추가하여 자세히 설명함.

7. Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation

Stable Diffusion의 4th layer의 featuremap과 4-11th laeyr의 self attention Q,K 값을 injection 하여 real image의 structure를 유지하면서 text guided로 I2I translation을 가능하게 함. Diffusion model은 freeze, feature만 만져서 성공적으로 editing. 좋은 접근.

8. Diffusion Models already have a Semantic Latent Space

DDIM의 샘플링 공식 중 predicted x0 부분만 바꿔주면 U-Net의 bottle-neck 부분을 semantic latent space로 쓸 수 있음을 보여준 논문. Asyrp을 제안함. 잘됩니당 좋은 논문입니당 읽어주세요.

9. InstructPix2Pix: Learning to Follow Image Editing Instructions

GPT3를 사용해 image editing example을 생성함. edit instruction이 아닌 “after-edit” text로 생성된 데이터로 학습에 사용했음. Prompt-to-Prompt로 입력한 두 텍스트에 배경이나 비슷한 결과를 내도록 함. InstructPix2Pix는 Stablediffusion을 사용함. Classifier-free Guidance에 이미지, 텍스트 각각 추가적인 가중치를 두었음.

10. Prompt-to-prompt image editing with cross attention control.

Prompt-to-Prompt 모델, 뭐 추가적인 학습과같은 부과적인 것 없이 cross-attention으로 text와 image 간의 상관관계를 잘 표현함. 단어를 바꾸든, 특정 단어 집중이든 다양한 상황을 제시. 그리고 seed를 고정시켜 고정된 이미지에 특정 part만 바뀌도록 함.