InstructPix2Pix: Learning to Follow Image Editing Instructions (1)
GPT3를 사용해 image editing example을 생성함. edit instruction이 아닌 “after-edit” text로 생성된 데이터로 학습에 사용했음. Prompt-to-Prompt로 입력한 두 텍스트에 배경이나 비슷한 결과를 내도록 함. InstructPix2Pix는 Stablediffusion을 사용함. Classifier-free Guidance에 이미지, 텍스트 각각 추가적인 가중치를 두었음.
Prompt-to-prompt image editing with cross attention control. (1)
Prompt-to-Prompt 모델, 뭐 추가적인 학습과같은 부과적인 것 없이 cross-attention으로 text와 image 간의 상관관계를 잘 표현함. 단어를 바꾸든, 특정 단어 집중이든 다양한 상황을 제시. 그리고 seed를 고정시켜 고정된 이미지에 특정 part만 바뀌도록 함.
Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models (1)
SD모델이 prompt에 있는 사물을 만들지 않거나 속성을 잘못 적용하는 경우가 있음. 이를 저자가 도입한 Generative Semantic Nursing을 제안해 cross-attention과 token <sop>을 적용함. token은 특정 사물에 집중이 잘되게함. 그리고 corss-attention에 모든 subject를 인식하도록 loss 중 가장 큰 걸 택해 무시받는 subject를 없애고 최소값을 두어 subject를 안만드는 경우가 없도록한다.
On distillation of guided diffusion models (1)
두번의 distillation 으로 step 을 1~4 step 으로 비약적으로 줄인다. LDM 의 경우 1 step 까지 가능하다. stage 1. classifier-free guidance 의 score 에 대한 student 모델 학습. stage 2. progressive-distillation 을 통해 step 수를 N/2 으로 계속 줄여나감.
Adding Conditional Control to Text-to-Image Difusion Models (1)
어떤 condition 이든 학습할 수 있는 ControlNet 을 제안. Stable Diffusion encoder 의 copy 를 hypernetwork 처럼 활용하되, 학습의 안정성을 위해 zero-conv 를 도입한다.