1. Multi-Concept Customization of Text-to-Image Diffusion
1)model 일부만 fine-tuning + 2) text optimization 을 통해서 Large text-to-image Diffusion model을 few-shot user images 상에서 customizing 하는 논문
2. Optimizing Prompts for Text-to-Image Generation
"A white knight riding a black horse." -> "a white knight riding a black horse, intricate, elegant, highly detailed, digital painting, artstation, concept art, sharp focus, illustration, by justin gerard and artgerm, 8 k" 텍스트 뒤에 붙는 글자들을 강화학습으로 만들어낸다. GPT모델을 prompt pair로 fintuning하여 policy 모델로 사용한다. 이미지의 심미적, 텍스트 반영을 기반으로 reward를 주는 형태로 짜여져 있다.
3. An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion
이미지 3~5장을 S* 라는 문자로 inversion한다. GAN inversion과 유사. 이미지를 생성하는 과정에서 나오는 노이즈와 given image를 inversion 하는 과정에서 나오는 노이즈간의 MSE loss를 사용하여 "A photo of S*" 라는 prompt의 S*에 해당하는 토큰을 직접 optimize한다.
4. Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models
SD모델이 prompt에 있는 사물을 만들지 않거나 속성을 잘못 적용하는 경우가 있음. 이를 저자가 도입한 Generative Semantic Nursing을 제안해 cross-attention과 token <sop>을 적용함. token은 특정 사물에 집중이 잘되게함. 그리고 corss-attention에 모든 subject를 인식하도록 loss 중 가장 큰 걸 택해 무시받는 subject를 없애고 최소값을 두어 subject를 안만드는 경우가 없도록한다.
5. Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt Tuning and Discovery
Hard, Soft Prompts 측면에 두 장점을 활용해 PEZ라는 optimization 기법을 제안한다. Hard prompts를 학습하여, soft prompt를 hard prompt 값으로 계산하여 loss를 업데이트해간다. 그리고 CLIP 모델과 PEZ 모델을 활용해 두 이미지, 텍스트 similarity를 계산해 유사도 값을 얻는다. 이 방법을 이용해 Stable Diffusion에서 좋은 성과를 얻었다.
6. GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models
GLIDE 모델은 ADM 모델에 text conditioning 정보를 augment하여 학습함. 그리고 uncondition한 구조에도 잘 추론하기 위해서 text sequence에 20%를 빈 sequence를 대체하여 학습함. 또한 재밌는 점은 마지막 layer의 토큰 임베딩은 AMD 모델에 각 atteting layer의 project하고 context와 concat을 한다. → 연구에 쓸만한 내용
7. ReVersion: Diffusion-Based Relation Inversion from Images
Relation Inversion이라는 개념을 소개함. CLIP embedding을 살펴보니 명사, 동사, 형용사 등등 품사별로 space가 나눠져 있는것을 관측함. 이에 관계를 나타내주는 text token을 학습을 하는데, contrastive learning으로 positive는 형용사들을, negative로 나머지 정해놓은 단어들을 사용함. 이를 통해 Exemplar Images들이 지니고 있는 관계 ex) 무언가가 어디 위에 그려져 있다던지, 안에 들어가 있다던지, 옆에 나란히 위치한다던지 이런 관계를 학습할 수 있음. 4月 Spotlight
8. P+: Extended Textual Conditioning in Text-to-Image Generation
토큰이 UNet의 layer별로 들어가는데, 이걸 쪼갬. StyleGAN2의 w space와 w+ space를 생각하면 되는데, 각 layer 별 prompt space를 나눠서 생각해서 P+ space라고 부름. 재밌는점은 bottleneck에 가까울수록 semantic한 의미를 지니고있고, 노이즈에 가까울수록 style이라고 해야하나.. 색깔과 관련된 그런 의미를 지님. (Asyrp과 DiffStyle과 결을 같이하는 관측) textual inversion의 확장버전으로 personalization 가능.
9. StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing
10. Imagic: Text-Based Real Image Editing with Diffusion Models
3단계로 이미지 edit을 제안함. linear interpolation이 가능한 부분이 가장 흥미로움. 그리고 embedding에 많은 심혈을 기울임. 또한 TEdBench라는 image editing에 standard benchmark를 제안함. 좋은 논문임.
5月 Spotlight