Analog Bits: Generating Discrete Data using Diffusion Models with Self-Conditioning

처음에 뭔소리지 했는데 읽으면 읽을수록 신기한 방법. 기존 방법들은 discrete data space, state space로 continuos 모델 작업을 했다면 오직 binary bits만을 사용하였다. thresholding, quantization으로 데이터를 discrete/categorical 값으로 바꿈. 그리고 Asymmetric time Intervals와 self-conditioning은 참신한 방법으로 이부분만을 위해서라도 나중에 다시 꼭 다시 읽을 논문.

Composer: Creative and Controllable Image Synthesis with Composable Conditions

기존 condition에 추가적으로 composer를 추가했는데 이미지 생성을 controll한다. 이미지를 decopose하여 representative factor들과 컨디션 factor와 diffusion model을 학습한다. 그리고 다양한 컨디션을 받고 다양한 결과를 내놓을 수 있다. decomposition과 composition 파트는 다시 읽고 공부해볼만한 가치가 높다.

LiT: Zero-Shot Transfer with Locked-image text Tuning

image, text 모델이 있는데 메인은 contrastive learning을 사용한다. 이 학습은 딱 맞는 text-image를 가지지는 않아서 비교적 낮은 퀄리티 이미지를 가짐. 그래서 Contrastive-tuining에서는 선별된 데이터로 학습해 퀄리티를 높힘. 또한 Locked, Unlock, unlock 옵션이 있는데 Locked-unlock이 가장 효과가 좋다고함(Lu). 재밌는 논문임 한번더 읽을 가치 있음. 3월 spotlight로

High-resolution image reconstruction with latent diffusion models from human brain activity

fMRI 신호와 LDM과의 연동으로 이미지를 생성함. 물론 이미지 질이 좋진 않지만 어려운 작업을 해냄. 또한 각각 피질에 따른 신호를 이용하여 LDM을 넣고 LDM 이해도를 높이기 위한 feature 추출을 함. 특이한 논문이라 3月 spotlight로

Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

3月 Spotlight Visula ChatGPT는 현 인공지능 모델들의 문제인 Complex Prompt를 해결하는 데 기여함. 또한 Prompt Manager에 다양한 기능을 이용해 ChatGPT가 잘 이해하고 또 VLMs가 잘 이해하도록 Prompt를 decomposing하여 수정함. 그리고 ControlNet 사용으로 다양한 이미지 condition을 주며 Canny image 등과 같은 condition에 강력한 기능을 보임. filename에 규칙을 넣는다는 점도 재밌게 읽게됨. History가 ChatGPT 이해를 돕는 강력한 도구임을 보임.

All are Worth Words: A ViT Backbone for Diffusion Models

기존까지는 Diffusion model에 U-Net 모델이 쓰임. 하지만 U-Net 말고도 ViT 모델도 쓰일 수있단 걸 보임. 또한 U-Net 모델의 특징인 long skip connection을 적용하여 U-ViT로 작명함. 저자가 모델을 깊이 연구하여 다양한 방법에 대해 제안을 함. 대형 데이터셋(laion2B)을 쓰는 시대인 지금 강력한 모델로 보임. 최근 One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale에서 이 모델을 채택함.

Erasing Concepts from Diffusion Models

최근 많은 데이터를 인터넷에서 가져오며 저작권이나 성적인 윤리적인 문제가 있는 데이터를 가져올 수 있음. 이 문제를 방지하기 위해 pretrained 모델에 classifier free guidance와 비슷하게concept c를 넣어 fine-tuning을 함. 하지만 negative한 버전으로 이 concept과 거리를 두게 만든다. 또한 layer가 Cross-attention(ESD-x)인지 Self-attention(ESD-u) 각각 fine-tuning의 결과가 다르기에 이 점을 이용해 정도를 조절 할 수 있음을 보임.