However, the same workflow is barely available for videos where the development of video diffusion models is still in its infancy [31, 45, 60]. Not surprisingly, naively applying an image-based workflow to each video frame produces inconsistent results (see Figure 1). Alternately, while it is possible to use a single frame for style guidance and employ video stylization propagation [21], the challenge lies in stylizing new content revealed under changing occlusions across frames.
문제 제기1: 똑같은 workflow는 video diffusion models의 development가 초기 단계일때 드물게 가능함. Fig1 결과를 보면 일관되지 않은 결과가 나옴. 그래서 대안으로 style guidance에 single frmae을 사용하고 video stylization propagation을 채택하였고, 문제는 프레임 전체에서 변화하는 occlusions 아래에 나타나는 새로운 콘텐츠를 스타일링하는 데 있음.
In this paper, we explore the feasibility of editing a video clip using a pre-trained image diffusion model and text instructions with no additional training.
이 논문에서는 pretrained image diffusion model을 사용하여 video clip 편집의 가능성과 추가적인 학습 없이 text instructions 가능성을 연구함.
We start by inverting the input video clip and expecting the user to edit, using textual prompts, one of the video frames. The goal is then to consistently propagate the edit across the rest of the video.
video frames와 textual prompts를 사용하여 편집을 위해 유저가 나오길 원하는 것과 입력한 video clip을 inverting하여 시작함. video의 남은 부분들 편집을 일관하게 전파하는 목표가 있음.
The challenge is to balance between respecting the user edit and maintaining the plausibility and temporal coherency of the output video.
어려운점 제기2: 유저가 편집하고자 하는부분와 유지해야하는 부분 그리고 결과 video의 시간적 일관성 사이에 벨런스를 맞추는 거임. 하지만 현재 edit prompt에 신뢰도는 어느 정도 확립된 상황임. 따라서 시간적 일관성에 편집을 전파하는 게 문제임.
we propose to inject features obtained from the previously edited frames into the self attention layer of the current frame. This feature injection notably adapts the self attention layers to perform cross-frame attention and enables the generation of images with coherent appearance characteristics. To further improve consistency, we adopt a guided diffusion strategy in which we update the intermediate latent codes to enforce similarity to the previous frame before we continue the diffusion process.
self attention layer를 사용하는데, 현재 frame의 self attention layer에 이전 편집된 frames로부터 얻어진 features를 주입을 제안함. 이 feature injection은 공통적인 appearance 특징과 함께 이미지 생성이 가능하며 cross-frame attention이 perform 하기 위한 self-attnetion layers 놀랍도록 적용이 잘됨. 일관성을 높이기 위해, diffusion process 계속하기 전에 중간latent code를 업데이트 하여 이전 frame과 유사성 높이는 guided diffusion strategy를 적용함.
Hence, we utilize a depth-conditioned image generation model and use the predicted depth from each frame as additional input
이미지 생성에서 motion dynamics에 대한 증거가 부족한 상황임. 따라서 depth-conditioned image generation model와 각 frame으로부터 예측되는 깊이를 추가적인 입력으로 넣음.
We term our method Pix2Video and evaluate it on various real video clips demonstrating both local (e.g., changing the attribute of a foreground object) and global (e.g., changing the style) edits
Pix2Video 방법이라 이름 짓고 local과 global edits 둘다 다양한 실제 video clips 증명으로 평가함.
Given a sequence of frames of a video clip, I := {I1, . . . , In}, we would like to generate a new set of images I’ := {I 0 1 , . . . , I0 n} that reflects an edit denoted by a target text prompt P’.
Video clip의 frames의 sequence를 $I$로 두고 text prompt에 영향을 받은 새로운 이미지들 set은 $I'$임.
While the cross-attention blocks are effective in terms of achieving faithfulness to the text prompt, self-attention layers are effective in determining the overall structure and the appearance of the image.