1. High-Resolution Image Synthesis with Latent Diffusion Models

global AutoEncoder를 학습해서 그 latent 상에서 diffusion을 한 논문. stable-diffusion이 이 논문이다.

2. Score-based Generative Modeling in Latent Space

10 Jun 2021 VAE랑 합친 논문. VAE와 Diffusion을 동시에 학습. Diffusion은 VAE의 latent space에서 학습된다.

3. Diffusion Autoencoders: Toward a Meaningful and Decodable Representation

Diffusion models에 semantic latent를 컨디션으로 주어서 Autoencoder 처럼 만듬. 그래서 latent가 생겼고, manipulation이 가능해짐. 성능 좋고 잘됨.

4. DiffuseVAE: Efficient, Controllable and High-Fidelity Generation from Low-Dimensional Latents

VAE의 형태를 빌려와서 합친 논문.

5. Tackling the Generative Learning Trilemma with Denoising Diffusion GANs

GAN으로 특정 timestep의 이미지를 생성하는 방법으로 샘플링도 빠르게, 퀄리티도 좋게 함. GAN+Diffusion.

6. High-resolution image reconstruction with latent diffusion models from human brain activity

fMRI 신호와 LDM과의 연동으로 이미지를 생성함. 물론 이미지 질이 좋진 않지만 어려운 작업을 해냄. 또한 각각 피질에 따른 신호를 이용하여 LDM을 넣고 LDM 이해도를 높이기 위한 feature 추출을 함. 특이한 논문이라 3月 spotlight로

7. One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale

txt2img ,tmg2txt 등등 다양한 기능을 하는 모델에 쓰일 기반이 되는 모델을 제안함. 지금까지 하나의 일을 잘하기 위해 학습되었다면 이 모든 모델에 효율적이게 쓰일 수 있도록 모든 분포를 수용하는 diffusion 모델을 만듦.

8. ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation

강화학습에 쓰이는 HPRM(human preference reward model)을 이용해 모델 학습을 함. 주요 포인트는 데이터셋 구축에 상당한 노력을 들임. 그리고 annotation으로 Prompt에 생성된 image ranking을 매겨 이미지들로 RM(reward model)을 학습함.

9. Inpaint Anything: Segment Anything Meets Image Inpainting

SAM 모델과 SD 모델을 합침. 이리하여 Style ChatGPT와 같이 편집이 가능한 방법을 제안함. 이 모델이 특정 object를 지정하는 문제에는 강력함. 하지만 편집 도구들의 문제인 복잡한 prompt 문제는 해결 못한점이 아쉬움. 하지만 발빠르게 현재 나와야하는 방법이라 생각하며 이를 최적화하고 문제를 해결해야함.

추가 연구 필요한 포인트: Prompt 문제와 속도 문제임. Prompt 문제는 decomposing하여 여러번 반복하여 좋은 결과를 내도록해보는 거 좋을듯함. 4月 Spotlight