1. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

Frozen Image encoder와 text decoder(혹은 text encoder, decoder 둘다) 모델을 두고 Q-Former라는 모델에 Image and text transformer 두개를 각각둔다. 이 두 Transformer가 상호작용이 되도록 Image-Text Matching, Image-Text Contrastive Learning ,Image-grounded Text Generation으로 서로 유사도를 비교하고 학습한다. 결론적으로는 빠르고 좋은 성과를 낸다.

2. Unleashing Text-to-Image Diffusion Models for Visual Perception (1)

text와 이미지를 넣어 올바른 visual perception tasks를 확인함. 여기서 기존 label 예측 모델에 S를 추가하여 더 좋은 추출 방법을 얻음. 그리고 cross attention을 통해 semantic한 guidance를 구하는 방법도 제안함.

3. InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning

1.texture inversion 처럼 토큰 하나 만들어주는 encoder를 학습시킴. 2. 이미지를 패치로 쪼개서 패치별 feature를 모아서 concat함. 3. cross att와 self att 사이에 adapter를 하나 넣어서 이미지를 생성함. 이 3단계로 personalize하는 논문. 개인적으로 패치단위로 쪼개서 feature를 뽑는 방식 덕분에 얼굴이 잘 나오는 점이 좋았고, token의 크기를 renormalization 해줘서 concept에 잡아먹히지 않게 하는 기법이 좋았음. remormalization은 다른 토큰들과 정도가 비슷해지도록 학습된 토큰을 normalization 해주는 기법.