<aside> 💡 이 논문은 StyleGAN 위주로 설명하지만, 근래 쓰이지 않는 모델임. 그래서 한계보다는 어떻게 latent transformer를 잘 구현했는지 중점으로 정리함.
</aside>
Therefore, they are not appropriate for high quality video editing. In addition, these methods are difficult to control, because the modification of one facial attribute tends to modify other attributes.
문제 제기: 21년 기준 맘에 들지 않는 이미지 생성이 많아 이미지 수정을 하는 경우가 많음
These assume that for a binary attribute, there exists a hyper-plane in the latent space which divides the data into two groups. However, this hypothesis has several limitations. Firstly, successful manipulations can only be achieved in well disentangled and linearized latent spaces.
문제 제기2: 그래서 수정을 위한 latent space 2 point를 잇는 방법이 있지만 제한적임. 성공적인 manipulation은 오직 disentangled하고 linearized latent space에서 성공함.
Although the latent space is disentangled compared to the image space, we show in this paper that achieving facial attribute manipulation with linear transformations is a very strong and limiting hypothesis. Furthermore, since these methods are trained on synthetic images (generated from random points in the latent space), their performance on real images (natural, “in-the-wild” photos) is less satisfying.
latent space는 image space에 비해 disentangled하지만, 이 논문에서는 linear transformations에 facial attribute manipulation이 성공적이란 걸 보임. 추가적으로 이 방법들은 synthesis images를 학습하고 real image에 성과는 덜 satisfying함.
The transformation network generates disentangled, identity-preserving and controllable attribute editing results on real images. These key advantages allow us to extend our method to the case of videos, where stability and quality are of crucial importance.
transformation network는 disentangled, identity-preserving 그리고 controllable attribute eiditing 생성함. 이 주요 장점들은 video들 같은 경우들 방법으로 확장이 가능하게 하며 안정적이고 퀄리티가 매우 중요함.
. The image synthesized from T(w) is denoted by G(T(w)). It shares all the attributes with G(w) except the target attribute being manipulated.
Image I를 기존은 generator G에 I=G(w)로 표현했는데, Latent Transformer T에 latent로 표시한 후 G를 넣기에 G(T(w))로 표현됨.
Let {a1, a2, ..., aN } be a set of image attributes, where N is the total number of considered attributes. For each attribute ak, a different Tk is trained. To predict the attributes from the latent codes we use a latent classifier C : W → {0, 1} N . We train Tk with the following three objectives:
a_N은 image attributes의 집합으로 N은 고려해야할 attributes임. 각 attribute a_k와 다른 T_k는 학습됨. latents codes로부터 attributes 예측하기 위해 latent classifier C를 사용함. T_k 학습에 3가지 요소를 따름/ (1) binary clasification loss L_cls를 minimize해야함. Classifier probability p_k 값에 따라 값이 바뀜. (2) 다른 attributes a_i,(i≠k)는 똑같이 남는다면, attribute regularization term L_attr을 적용해야함. r_ik는 ai과 target a_k 사이 상관관꼐를 나타내는데. training dataset에서 측정됨.
(3) L_rec은 사람의 identify는 보존되어야하기에 존재함. latent regularization으로 적용됨. 이 위 3가지 Loss를 각 가중치에 맞게 곱한 후 더하여 Loss를 얻음.