1. Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision
Dataset에 대해 기존과 달리 간단하고 덜 엄격한 filtering으로 데이터셋을 구축함. 그러다보니 다른 데이터셋보다 크기가 큼. 또한 image-text pairs에 pretraining을 함. text-image encoder를 쓰는데 loss로 img2text, text2img 이렇게 2개 loss를 최소화 하는 방향으로 학습함.