Autoregressive Image Generation without Vector Quantization

Autoregressive Image Generation without Vector Quantization 논문 리뷰

Aug 13, 2024

Autoregressive Image Generation without Vector Quantization

읽은 이유 : https://arxiv.org/pdf/2406.11838

diffusion으로 patch by patch generation하는 프로젝트를 해보고 싶다고 생각하던 와중 발견

요약

이미지를 auto-regressive하게 생성하는데 VQ를 써서 discrete token을 배운다음 categorical 분포 예측으로 하는게 아니라, 바로 continuous vector를 예측하게하고 diffusion loss를 사용해서 학습한다. google scholar타고 들어가다 정말 우연히 발견한건데 제시하는 개념과 성능이 너무 좋아서 놀랐다.

language가 아닌 이미지를 왜 굳이 discrete하게 바꾼다음 학습/생성해야해?라는 간단한 질문으로 시작한 연구이고 bidirectional attention, set-of-tokens prediction 같은 디테일한 개념도 잘 제시했다.

논문 제목에서 알 수 있듯이, natural language processing의 경우 언어라는 데이터의 자연적 특성상 discrete한 value로 표현하는게 맞는데, visual generation도 auto-regressive로 하고싶다고 해서 LM처럼 vector quantization해서 discrete token 만들어서 학습해야하나?라는 의문에서 시작한 연구이다.

auto-regressive하게 generation하는게 꼭 categorical distribution을 예측하는 태스크가 될 필요없다는게 주장인데 사실 맞는 말이다.

AR의 속성은 “predicting next tokens based on previous ones”일 뿐이고 그게 이산값인지 연속값인지 중요하진 않다.

물론 그렇다고 continuous vector prediction을 task로 하고 L2 Loss를 사용해서 학습할 수는 없다.

왜 단순히 Auto Regressive Transformer model이 출력한 벡터를 다음 토큰 자체로 사용해서 L2 loss로 학습하면 안될까?

Auto-Regressive 모델의 본질은 다음 토큰의 분포 를 모델링하는 것이다.

이미지는 설명이 어렵기 때문에 텍스트로 표현하자면, A cat is on the _ 에서 _를 예측하도록 학습한다고 할 때, 현재 학습 데이터는 floor가 답이더라도, 실제로 해당 위치에 올 수 있는 토큰이 floor만 가능한 것은 아니다.

next token의 분포를 예측하도록 하지 않고 next token 자체를 예측하도록 한다면 그것은 곧 정답이 하나만 존재한다는 가정을 가지고 학습한다고 볼 수 있다.

따라서 L2 loss로 학습하게되면 randomness가 줄어들어 표현 범위가 줄어들고, 평균적인 값을 뱉는 방향으로 학습하게 된다. 근본적으로 동작하지 않는다.

여기서도 Appendix에서 실험한 내용을 공유했다. 아예 학습이 되지 않고 발산함

결론적으로는 모든 토큰(토큰보다는 패치의 개념으로 이해해도 될 것 같다.)을 continuous한 vector로 다루고, 앞의 토큰에 기반해서 뒤의 토큰도 continuous한 값을 예측한다. 기존에는 Vector quantized tokenizer를 사용하는 것에 비해. 그리고 이 continuous vector는 따로 모델링에 사용된다.

기존의 discrete-valued token 방식들을 보자

기존의 discrete한 접근들에서는 다음 위치로 예측할 토큰은 0~K(vocab size)사이의 정수값 x로 표현될 수 있다.

AR model은 D dimension의 벡터를 출력값으로 뱉고, 이게 K-way classifier를 타서 K차원의 categorical 확률 분포(0~K까지의 값 각각의 확률 분포)가 된다. generative modeling의 관점에서 이 확률 분포(출력값)는 두가지 중요한 속성을 가져야한다.

GT 분포와 예측 분포 사이의 차이를 측정하는 loss function이 있어야 한다. categorical 분포에서는 단순하게 cross-entropy loss를 사용한다.

inference 타임에 데이터 분포에서 샘플링을 할 수 있는 샘플러가 있어야 한다. categorical 분포에서는 softmax를 적용해서 얻는다.

→ 다시 말해 이거 두개만 만족하면 discrete 아니어도 된다. 물론 이산적이면 loss func와 sampler가 매우매우 단순하다는 장점이 있긴함.

본 연구에서는 Diffusion loss를 사용한다.

다음 위치에 예측해야한 GT token이 x라고 치자. 여기서 AR model은 앞의 토큰들을 입력으로 받아 z라는 벡터를 뱉는다. 그리고 이 z를 diffusion process의 condition으로 이용해서 noise를 예측할 distribution(x)으로 denoising 한다.

그러면 여기서 loss는 기존의 Diffusion model에서의 noise prediction loss가 된다.

대신 condition으로 쓰이는 z 자체가 x를 위해 네트워크에서 출력된 값이기 때문에 noise estimator 는 작은 MLP network다.

자연스럽게 sampler는 reverse diffusion 과정이 된다.

+기존의 LM에서 사용하는 temperature 조절을 통한 diversity 컨트롤이 매우 중요하다는걸 알고있다. 여기서는 뒤의 σtδ 를 temperature로 나누어서 그 컨트롤을 구현했다.

결론적으로 Auto Regressive model은 아래 조건부 분포를 예측해서 next token prediction을 수행한다.

Unifying Autoregressive and Masked Generative Models

보통 AR model들은 transformer를 사용해서 causal attention 방식으로 만들지만, 우리는 causal이 아니라 bidirectional attention으로도 할 수 있다는걸 보인다.

중요한건 이전 토큰을 사용해서 다음 토큰을 예측하는 거지, 특정 토큰(ex. 3번째)을 attention 처리할 때 이전 1,2번째 토큰만을 사용해야한다는걸 의미하는건 아니다.

여기서는 MAE에서 한 것처럼 bidirectional attention을 도입한다. positional embedding을 주고 mask token을 사용해서 decoder가 어떤 position이 예측해야하는 토큰인지 알도록하는 방법.

→ 이렇게하면 알고있는 토큰들끼리는 전부 서로를 참고하도록 하게된다.

여기서 끝이 아니라!

기존처럼 순서대로 예측이 아니라 랜덤한 순서대로 예측하는 방식도 구현해봤다. 이건 아래 그림처럼 causal attention이어도 positional embedding을 통구현 적용가능하다.

이렇게하면 masked generative modeling처럼 된다.

근데 Masked 방법에서는 한 토큰이 아니라 토큰 뭉치를 예측하는 방법도 쓰는데, 본 연구에서도 그 방법을 도입했다. predicting multiple tokens based on previous tokens

→ next set-of-tokens prediction이 된다. Masked Autoregressive(MAR) 방법이라고 이름붙임. 이전의 MAGE라는 논문과 비슷하다.

구현 디테일들.

결과가 너무 중요한데, 아래에서 볼 수 있듯이 MAR + bidirectional을 합쳤을 때 결과가 꽤 좋다.

diffusion loss는 매우 flexible하다는 장점이 있다(그럴거 같음)

noise predict MLP는 진짜 작다.

속도는 AR인만큼 diffusion보다 빠르다.

다른 생성 모델들과 비교한 결과. 왜이렇게 좋지..??

정성적 결과

Subscribe to our newsletter

See more posts

InstantDrag: Improving Interactivity in Drag-based Image Editing

September 22, 2024

Positive, Negative and Neutral: Modeling Implicit Feedback in Session-based News Recommendation

September 10, 2024

LRM: Large Reconstruction Model for Single Image to 3D

August 8, 2024

Efficient Geometry-aware 3D Generative Adversarial Networks

August 8, 2024