Resolution (6)

<aside> 💡 사실 여기 말고 다른 곳에 넣어야 하긴 하는데, 여기에 집중해보고자 한다. 그래서 큰 칸을 차지함.(5월 기준임)

</aside>

1. SRDiff: Single Image Super-Resolution with Diffusion Probabilistic Models

비교적 작은 모델로 resolution을 높임. HR image와 upsampled LR image 차이를 예측하기 위해 residual prediction과 입력한 residual image 차이를 표시함. 그리고 RRDB 구조를 이용하여 좋은 결과를 가져옴. 또한 contracting path, expansive path는 local하고 global한 정보를 결합 할 수 있게해주며 multi-skip connection으로 안정적인 학습을 가함. 마지막으로 LR encoder는 LR를 encode하는데 RRDB 구조에 normalization을 없애는 대신 SRFlow로 대체함.

2. Residual Dense Network for Image Super-Resolution

RRDB으로 유명한 모델. 기존까지 complexity하고 input을 잘 기억 못하는 모델 문제점을 해결함. residual을 정말 많이 사용하는데 residual로 memory를 잡고 hierarchy features를 잡는 훌륭한 성능을 낸 구조임. 그리고 구조에 대해 세세한 설명으로 다시 읽을만한 가치가 높음. 5月 Spotlight 의문: RRDB을 U-Net에 깊게 많이 적용해볼 수 있을까

3. Perceptual Losses for Real-Time Style Transfer and Super-Resolution

오래된 논문이다. Loss에 집중하여 style transfer나 high resolution을 해결함. 재밌는 점은 classification model을 이용하여 loss를 구하는데 전체적인 pixe의 차이는 Feature reconstruction으로 구하고 style은 style reconstruction loss로 구한다. 이외에 추가적인 loss로 더 좋은 결과를 얻는다.

4. SRFlow: Learning the Super-Resolution Space with Normalizing Flow

지속적으로 latent value로 바꾸며 노이즈가 가득차있고 작은 이미지가 생성하여 다시 돌리는 과정이 Diffusion과 유사함. 하지만 이론적으로는 엄연히 틀림. 또한 distrubution을 본격적으로 사용한다는 점에서는 비슷하긴함.

일단 각 layer에 정보를 추출하여 tractable하게 함. 그리고 그 정보들을 전부 NLL에 넣어 값을 전부 더한후 loss값을 구함. 구조적으로는 Conditional Flow layers에서 encoder에 나온 정보를 이용해 지속적으로 affine에 이용하며 1x1 con, Actnorm, squeeze 등 다양한 방법들을 자세히 묘사함.

결국은 HR 이미지를 만들기 위한 구조와 tractable하고 loss를 구하며 distribution을 이용한 부분이 좋음. 추가적으로 latent space가 있어서 비슷한 구조에 여러 이미지 생성 가능.

5. Pyramidal Denoising Diffusion Probabilistic Models

이미지를 Pyramidal하게 증진시키며 중간 중간 diffusion forward 길이를 줄임. 따라서 속도는 증가되고 이미지는 안정적으로 커짐. 또한 Positional encoding을 하였음.

6. Image Super-Resolution via Iterative Refinement

conditional DDPM으로 노이즈 y_T부터 y_0까지 가며 input image x를 condition으로 둠. 그리고 나머지 내용은 일반 DDPM임. 근데 SR3모델 구조에 Bicubic interpolation을 사용 그리고 BigGAN residual blocks를 가져온다는 점이 차이가 있음.