Token Merging for Fast Stable Diffusion

Transformer에 불필요한 Token이 너무 많아 제거하는(pruning) 방법이 주로 쓰임. 이방법은 retraining이 필요하다는 단점이 있어 Token Merging(ToMe) 기법을 사용함. 토큰을 합쳐 재학습이 필요없는 건데 이 방법을 diffusion model에 사용하여 기존보다 5.4배 더 빠른 결과를 내놓음. Token에 대한 연구가 더 필요함을 시사한 논문임. 4月 Spotlight

OpenAGI: When LLM Meets Domain Experts

미래 지향적인 모델이라 생각함. Visual ChatGPT와 비슷함. 하지만 강화학습 기법을 사용했거나 다양한 모델을 사용했다는 점에 차이가 있음. 그렇지만 좋은 성능은 기대하기 힘듦. 또한 논문에 정리하고자 하는 내용이 많지 많으므로 짧게 인상적인 것만 남김. 특히 beam search, 강화학습은 정말 인상적임. 그래서 4월 spotlight로 택함. 4月 Spotlight

PAIR-Diffusion: Object-Level Image Editing with Structure-and-Appearance Paired Diffusion Models

fine grainde cotrol과 여러 objects에 각각 prompt engineering에 대한 성능을 높임. 여러 objects를 인식하고 shape, category, texture 등과 같은 여러 요소들을 합쳐 structure와 appearance 요소로 더 나은 editing을 제안함. Appeaerance Editing과 Structure Editing에 대한 설명이 중요함. 두 editing으로 나눈 점에서 좋은 결과를 낼 수 있다는 점을 증명하였음.

필자의 생각 : Appearance와 Structure에 Freeze한 요소를 넣어보면 어떨까 4月 Spotlight

Consistency Models

Yang Song의 논문으로 single-step으로 이미지를 생성하는 점에서 혁신적임. 시간적 제약을 없앰. ODE 모델에 self-consistency 개념으로 특정 point로 바로 돌아가는 모델을 제안함. 또한 zero shot에 강력함. 그리고 Distialltion을 이용해 학습하는 방법도 제안함. 아직 이해의 깊이가 얇지만 혁신적이라 4月 Spotlight

Training language models to follow instructions with human feedback

InstructGPT를 제안함. 3단계로 나누어 InstructGPT를 학습시킴. 그리고 reinforcement에 사용되는 human feedback이나 policy에 집중을 하여 좋은 성과를 냈음. 또한 loss 부분도 특이함. mixing하는 부분은 연산량을 늘리지만 더 좋은 효과를 낼 수 있음. 그렇게하여 toxic conent를 피할 수 있게 되며 사람들이 선호하는 답변을 내놓는데 더 좋은 모델이 됨.

4月 Spotlight

Inpaint Anything: Segment Anything Meets Image Inpainting

SAM 모델과 SD 모델을 합침. 이리하여 Style ChatGPT와 같이 편집이 가능한 방법을 제안함. 이 모델이 특정 object를 지정하는 문제에는 강력함. 하지만 편집 도구들의 문제인 복잡한 prompt 문제는 해결 못한점이 아쉬움. 하지만 발빠르게 현재 나와야하는 방법이라 생각하며 이를 최적화하고 문제를 해결해야함.

추가 연구 필요한 포인트: Prompt 문제와 속도 문제임. Prompt 문제는 decomposing하여 여러번 반복하여 좋은 결과를 내도록해보는 거 좋을듯함. 4月 Spotlight

ReVersion: Diffusion-Based Relation Inversion from Images

Relation Inversion이라는 개념을 소개함. CLIP embedding을 살펴보니 명사, 동사, 형용사 등등 품사별로 space가 나눠져 있는것을 관측함. 이에 관계를 나타내주는 text token을 학습을 하는데, contrastive learning으로 positive는 형용사들을, negative로 나머지 정해놓은 단어들을 사용함. 이를 통해 Exemplar Images들이 지니고 있는 관계 ex) 무언가가 어디 위에 그려져 있다던지, 안에 들어가 있다던지, 옆에 나란히 위치한다던지 이런 관계를 학습할 수 있음. 4月 Spotlight

XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model

GPU memory 문제를 해결하고 지속적인 segment를 위해 깊이 연구함. affinity matrix가 가장 인상 깊음. 장기, 단기 기억을 위해 memory 관련 net이나 working과 같은 여러가지를 합침. 인상적인 논문임. 꼭 다시 읽을 논문. 4月 Spotlight