1. Learning Transferable Visual Models From Natural Language Supervision

CLIP 모델을 발견한 논문. 자세히 분석하고 효율을 극대화하기 노력한 모습이 보인다. 가장 재밌는 점은 기존과 달리 텍스트 단어를 이미지에 딱 맞추지 않고 텍스트와 단어를 비슷한 걸 찾아 진행해서 효율성이 높다.

2 AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities

다중언어를 사용하기 위해 CLIP에 encoder를 바꾸어 학습하는 방법이다. 바꾼다기보다는 계속 대조해가며 배운다. distill이라고 봐도 될듯하다. 1단계는 distill로 teacher와 student의 embedding 차이를 통해 학습. 2단계는 Image-text 쌍의 차이를 loss로 하여 학습(똑같은 이미지에 다른 언어가 나타내는 차이).