High-Resolution Image Synthesis with Latent Diffusion Models

High-Resolution Image Synthesis with Latent Diffusion Models 논문 읽기

Oct 01, 2024

High-Resolution Image Synthesis with Latent Diffusion Models

Introduction

Diffusion model은 likelihood-based 모델에 속하는데, 눈으로 보이는 인지하기 힘든 정도의 차이도 모델링하려다보니 리소스를 지나치게 많이 사용한다. 비록 DDPM에서 objective의 가중치를 조정해서(t가 클 때 Loss에 더 큰 가중치 부여) 초기 Denoising 스텝이 적게 샘플링되도록하여 이게 완화되도록 하려고 하지만 고차원의 RGB 이미지를 다루느라 여전히 연산이 많이 필요하다.

DDPM에서

예시로, 가장 강력한 디퓨전 모델 학습은 GPU 하나로 몇백일이 걸린다. Inference도. 그래서 5만개의 샘플을 뽑는데 대략 A100 한대로 5일이 걸린다.

우선 기존의 방식으로 학습된 diffusion model을 분석하는 것으로 시작한다.

다른 여타 Likelihood-based 모델과 마찬가지로, 학습은 대략 두 단계로 나뉜다.

디테일한 것들을 제거하지만 여전히 의미는 거의 학습하지 않는 perceptual compression 단계

실제 생성 모델이 데이터의 의미론적 구성을 학습하는 단계 - semantic compression

그러므로 우리는 우선 인지하기에는 동일하지만 연산을 줄일 수 있는 적절한 space를 찾는 것으로 시작한다. → 고해상도 이미지 생성도 가능하게 할 수 있다.

일반적인 방법들을 따라, 우리는 학습을 두단계로 나눈다.

낮은 차원의 representational space를 구성하도록 auto encoder를 학습시킨다. perceptual하게는 실제 data space와 같다고 볼 수 있게

중요한 것은, 이전의 연구들과는 다르게 Auto Encoder가 차원을 크게 압축해야할 필요는 없다. 어짜피 LDM을 latent space에서 학습시키기 때문에.

이 방법의 장점은 audo encoder를 한번만 학습시켜서 얻어내도 된다는 점이다. 그럼 그걸 가지고 여러 Diffusion model 실험에 효율적으로 사용할 수 있다.

우리는 Diffusion model의 Unet backbone에 트랜스포머를 연결한 구조를 만들어서 제너럴한 condition 주입이 가능하도록 했다.

Method

Diffusion model이 인지적으로 무의미한 디테일에 관한 loss term을 줄여서 그런걸 학습하느라 리소스가 낭비되는걸 방지하려고 하지만, 여전히 문제가 많다.

우리는 명시적으로 압축과 생성 과정을 분리해서 이걸 해결하려고 한다. 이걸 위해서 우리는 이미지 공간과 인지적으로 일치하는 space를 배우면서 공간을 많이 압축하는 오토인코더 모델이 필요하다.

VAE

Perceptual compression model은 오토인코더에 perceptual loss, patch-based adaverserial objective를 더해서 학습한다. 이렇게하면 reconstruction이 L21 loss에만 집착해서 블러리하게 일어나는걸 방지한다.

f만큼 다운샘플링하고, 논문에서는 여러 f값을 실험했다.

임의의 high-variance latent space를 피하기위해서 두 종류의 reularization을 실험했다.