Diffusion을 이용한 Video generation을 처음으로 한 논문, Video의 길이를 늘리고, quality를 높이는 것에 대한 방법제시.
2. Structure and Content-Guided Video Synthesis with Diffusion Models
비디오2비디오 translation을 할 때, 이미 또는 텍스트로 가이드를 주는 논문. 비디오의 time에 따른 Spatio-temporal을 위해 temporal convolution/attention 네트워크를 삽입하였고, structure를 유지시키기 위해 depth estimation 을 사용하였음. 또한 훈련때 사용한 비디오를 CLIP image encoder에 태워, 기존 텍스트 대신 image로 condition을 줄 수 있도록 훈련함.
3. Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators
txt2img SD 모델 기반 저비용, zero-shot으로 영상을 만드는 인공지능임. 문제점인 motion과 같은 정보를 잃어버린다는 점을 해결하며 cross-frame attention과 motion dyanmics(W)와 함게 latent code를 더욱 풍부하게함.
4. Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation
T2I 모델들이 주어진 비디오와 text를 이용해 새로운 비디오를 추론함. 하지만 이 방법에 기존 spatio-temporal attention을 사용하면 시간복잡도가 너무 높음. 그래서 ST-attn을 제안하여 연산량을 줄임. 그리고 모델에 2D LDM을 spatio-temporal domain으로 확장하고 3D conv layer로 바꿔 3x3→1x3x3 kernel로 바꿈. 각 temporal self-attention layer를 추가하여 좋은 성과를 냄.
5. Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models
zero-shot diffusion video 생성 모델임. 여기서는 Temporal modeling을 위해 query frame에 spatial 정보와 key그리고 value는 모든 frames에 모든 spatial feature로부터 계산됨.
6. Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos
video 분야는 데이터가 부족함. 그래서 저자는 2단계로 나누어 학습함. 1단계에서는 LAION 데이터에서 skeleton 데이터만 뽑아서 t2i 모델에 스켈레톤에 포즈를 넣는 법을 학습하고 2단계에서는 배경을 학습시킴. 그렇게 해서 데이터 부족 문제를 해결한다.
7. MagicVideo: Efficient Video Generation With Latent Diffusion Models
비디오를 가지고 훈련시키는 데, adaptor 라는 개념을 추가하여, frame 간의 관계 정보를 공유하도록 한다. 이 때 Directed Temporal Attention 을 사용해서 - Masked Self attention과 거의 동일한 개념.- 뒤쪽 frame에게만 영향을 끼치도록 만듬. 나쁘지 않은 논문.
8. Latent-Shift: Latent Diffusion with Temporal Shift for Efficient Text-to-Video Generation
T2I model로 T2V model을 학습. 4d tensor(frame x channel x width x height)를 denoising하여 video 생성, Frame 간 정보 교환을 위해 attention 대신 temporal axis로 latent feature (특정 channel만) 를 shift 하는 temporal shift block을 U-Net안에 추가.
9. Video-P2P: Video Editing with Cross-attention Control
Input video 한개에 T2I->T2V fine-tunning(Tune-A-Video와 비슷한 방식), T2I -> T2V 만들때 self-attention을 처음 프레임만을 key와 value만드는데 쓰도록 바꿈 (Frame attention), decoupled-guidance attention으로 background 안바뀌고 foreground object만 editing되도록함(Mask생성)
10. Pix2Video: Video Editing using Image Diffusion
첫 frame 부터 시작하여 이후 frame 으로 점차 propagate하는 방식으로 editing, 이전 프레임과 첫 프레임을 attend하도록 feature를 injection. flickering을 방지하기 위해 이전프레임과 현재프레임의 predicted x0 간의 l2 distance 를 비교하여 denoising할때 classifier guidance를 줌.