All of these methods function by denoising images through several evaluations of a transformer [22] backbone, meaning that computation scales with the square of the number of tokens
문제 제기 : DALL-E 2와 같은 모델들은 연산 크기가 토큰들의 수가 제곱으로 커진다.
However, none of these approaches reduce the amount of work necessary—they still evaluate the transformer on every token.
문제 제기 : 그리고 지금까지 Xformers와 같은 방법으로 속도를 높였지만 아직도 모든토큰을 평가하는 비효율적인 방법을 아직 유지중임.
Though most of these methods require re-training the model (which would be prohibitively expensive for e.g., Stable Diffusion), Token Merging (ToMe) [1] stands out in particular by not requiring any additional training.
그래서 위와 같은 문제로 필요 없는 토큰 제거를 사용하는 작업이 있는데 거의다 재학습이 필요함. 근데 Token Merging(ToMe)는 추가적인 없습 없이도 좋은 성과를 냈음. 이걸 오직 ViT 모델에 Classification에만 테스트해봄.
In this paper, we put that to the test by applying ToMe to Stable Diffusion. Out of the box, a na¨ıve application can speed up diffusion by up to 2× and reduce memory consumption by 4× (Tab. 1), but the resulting image quality suffers greatly (Fig. 3).
이 논문에서 저자는 Stable Diffusion에 ToMe를 적용하여 테스트함. 속도가 엄청 빨라짐.
Token Merging.
Token Merging (ToMe) [1] reduces the number of tokens in a transformer gradually by merging r tokens in each block. To do this efficiently, it partitions the tokens into a source (src) and destination (dst) set. Then, it merges the r most similar tokens from src into dst, reducing the number of tokens by r, making the next block faster.
ToMe는 각 블럭에 토큰들 r을 merging 하여 Transformer에 토큰들 수를 점차 줄임. 효율적으로 하기 위해, destination(dst)과 source(src) set에 token들을 분할하고 src에서 dst로 가장 비슷한 토큰들 r을 merge한다. 이렇게 r에 의해 토큰들 수가 줄여 다음 block이 빠르게 만듦.
While other token reduction methods such as pruning (e.g., [14]) remove tokens, ToMe is different in that it merges them. And if we have information about what tokens we merged, we have enough information to then unmerge those same tokens.
다른 방법들은 pruning으로 줄이는데, ToMe는 합친다는 점에서 다름. 그리고 정보를 가지기 위헤 합치기 싫으면 똑같은 토큰들을 unmerge하여 정보를 충분히 가짐.
In this work, we’ll define unmerging in the simplest possible way. Given two tokens with c channels x1, x2 ∈ R c s.t. x1 ≈ x2, if we merge them into a single token x ∗ 1,2 , e.g.,
저자는 간단하고 가능한 방법으로 unmerging을 정의함. c channels인 2 토큰들 $x_1,x_2 ∈ R^c$은 위와 같이 합쳐짐.
we can “unmerge” them back into x 0 1 and x 0 2 by setting