The Platonic Representation Hypothesis

The Platonic Representation Hypothesis 논문 리뷰

김호진

Jul 21, 2024

읽은 이유

논문 간단 설명듣고 흥미가 너무 생겨서 원래 봐야하는거 뒤로하고 읽었다. 딥러닝 논문에서 플라톤이 나오는데 흥미가 생기지 않을 수 없었다.

요약

현실 세계의 이데아가 존재하고, 다양한 거대 모델들은 결국 공통된 이데아(representation)를 학습하는 것으로 수렴한다고 주장함.

이를 위해서는

모델은 커지는게 좋다

다양한 모달리티가 통합되어 학습되는게 좋다. 실제로 이미 그렇게 흘러가고 있다.

conditional gen이 uncond gen보다 쉽다는게 aligned representation으로 인해 설명될 수 있다.

vision generation 논문들보면 text condition으로 CLIP대신 T5를 사용하는 경우 성능이 더 좋은 것들이 많아 의문이었는데 여기에 대한 답이 될 수 있는 문장인듯하다.

완전히 새로운 관점과 접근법은 아니지만 원래 어렴풋이 가진 추측을 증거들을 모아 명확한 직관으로 표현하는게 어려운 만큼, 확실히 가치가 있는 논문인 것 같다

원래 좋은 representation을 위해서는 무조건 다양한 모달리티를 한번에 학습하는게 제일 중요하고 이걸 더 많이 탐구해야하는거 아닌가 라는 생각이 컸는데 더더욱 커졌다. video, sound, text를 전부 동일한 space로 토큰화해서 autoregressive하게 학습하는 videopoet같은 논문의 잠재적 가치가 크지 않나 생각이 된다.

괜히 잡았다가 읽는데 이틀걸림..

Abstract - 가능한 그대로 옮김

우리는 AI model(특히 딥러닝)에서 representation이 수렴하고 있다고 생각한다. - 첫 문장에서 결론던지고 시작 호감포인트 상승

첫번째로, 우리는 많은 앞선 연구들에서 수렴의 예시를 발견했다. 시간에 따라 그리고 여러 도메인에서, 다양한 뉴럴넷들이 데이터를 represent하는 방법들이 점점 align되고 있다.

다음으로, 우리는 data modalitlies 끼리도 수렴이 일어난다고 주장한다. 비전과 언어 모델이 점점 커짐에 따라, 점점 data point사이의 거리도 비슷한 방법으로 측정하고 있다.

우리는 이런 수렴이 현실의 shared statistical model - 플라톤의 이상적 현실(이데아의 개념?)과 비슷하게 - 을 갖도록 나아간다는 가설을 세웠다.

우리는 그걸 플라톤식 representation이라고 부르며 거기로 나아갈 수 있는 몇가지 방법들에 대해 논의합니다. 마지막으로, 우리는 우리의 분석을 통해 이런 경향의 의미, 한계, 반례들을 제시합니다.

예전엔 다양한 language processing task들마다 목적에 맞는 솔루션들이 있었지만 지금은 다양한 기능을 잘 수행하는 하나로 나아간다.

LLM뿐만 아니라 서로다른 데이터 modality도 통합해서 처리한다.(GPT4-V, Gemini, LLaVA). 두가지 데이터를 통합된 아키텍처로 처리한다.

점점더 많은 시스템들이 general-purpose를 가진 pretrained backbones를 띄게 된다(foundation model).

다시 말해, AI system들은 점점 구조와 능력이 비슷해진다. 그런 경향 중 하나로 본 논문은 representation convergence에 대해 다룬다.

우리의 가설은 현실의 representation으로 도달한다는 것이다. - 우리가 관측하는 데이터들을 생성해내는 세상 안의 이벤트들간의 joint distribution.

현실이 존재한다(Z) 이걸 우리는 카메라 X와 같은 방법으로 다양한 센서를 통해 인지한다.

텍스트로 이루어진 설명 같은 이런 관측의 다른 projection은 첫번째 관측을 통해서 혹은 다른 방법으로도 얻어질 수 있다.

둘다 동일한 Z를 관측하고 얻어진거니까 이상적이라면, 비슷해야한다?(각각의 모달리티로 표현되는 과정에서 손실되는게 얼마나 큰데 이렇게 되지?)

이걸 플라톤의 동굴의 그림자 개념과 철학적으로 같다고 말하면서 기원전 375년의 내용을 주석으로 달아놓은게 멋있다.

우리의 training data가 동굴 벽의 그림자이지만, 우리의 가정에 따르면, 모델은 동굴 밖의 실제와 같은 더 나은 representation을 모델링한다.

또 우리 가설과 비슷한건 안나 카레니나 시나리오다(= 모든 제대로 동작하는 뉴럴넷은 세계를 같은 방식으로 represent한다.)

여기서 representation는 벡터 임베딩에 국한하고 실험한다.

Kernel은 보통 rep을 평가하기위해 사용된다. 커널이 rep간의 metric을 측정하기 위해 사용되는데, kernel-alignment metric은 두 커널간의 유사성을 측정하는 지표다.

실험에서, 여긴 mutual NN metric을 사용함 - 두 커널에 의해 유도된 k-nearest neighbor 셋들의 평균 교집합을 측정한 값.

Different models, with different architectures and objectives, can have aligned representations

요즘 같은 pretrained foundation model을 백본으로 위에서 학습하는 경우가 많으니까 rep 수렴이 발생하는 것이기도 하다. → 그럼 다른 백본이면 다르다는걸까? 최근의 연구들을 보면 그건 아님!

최근 연구(2015년)에서 model stitching이라는걸로 두 모델이 represent하는게 비슷한지를 측정하려고 했다. 만약 여러 레이어로 이루어진 모델 f와 g가 있는데 이 두 모델의 중간 레이어 한 곳에서 적절한 affine stitcing layer h로 통합하여 하나의 모델 F를 만들었는데 이 F가 좋은 성능을 보인다면 그건 layer k에서 f와 g가 비슷한 rep을 가진다는걸 의미한다.

그 연구에서 두가지 중요한 시사점

imagenet으로 학습된 vision model이 Places-365 데이터로 학습된 모델과 얼라인됨

좋은 rep은 구체적으로 데이터가 무엇이냐와 별개다.

앞쪽의 레이어들이 더 비슷함

AI와 실제 생물학 모두 Gabor-like filter? on vision

여러 비전 모델에서 비슷한 패턴으로 활성화되는 로제타 뉴런이라는 개념도 있다

2.2. Alignment increases with scale and performance

모델이 커지고 성능이 좋아짐에 따라 내부적으로 활성화되는 패턴도 비슷하다.

본 논문에서는 78개의 비전 모델을 평균 transfer performance에 따라 그루핑했다. 그리고 모델들의 평균 커널 alignment를 각 bin 별로 측정했다. 좋은 모델은 다 비슷한 방법으로 좋고, 나쁜 모델은 각각의 방법으로 나쁘다. 오른쪽은 모델 자체를 축소해서 2d로 매핑한 그림(UMAP으로 한다는데 무슨 방법인지 모르겠다.)

뱉는 rep만 비슷한게 아니라, weight space자체도 비슷해지는 경향이 있다.

2.3. Representations are converging across modalities

vision 모델을 stiching해서 LM에 넣거나 반대의 방식도, 잘 작동한다(single linear 만으로도). 실제로 요즘 multimodal은 그냥 하나를 다른 하나에 프로젝션해서 쓴다.

LM이랑 vision model이랑 서로서로 갖다 써도 도움이 된다는 연구가 많다.

가로축은 LM의 성능, 세로축은 vision model과의 alignment

그럼 반대로 alignment가 높다는게 모델의 성능이 높다는걸 시사하기도 할까? → Yes

align된다는 사실 자체는 이쯤하면 믿어주기로 했다. 중요한건 왜 그런지에 대한 추측

Why are representations converging?

일반적인 머신러닝 모델의 학습 방법.

각 색깔별로 왜 수렴을 발생시키는지 다룬다.

참고로 본 아래에서 얘기하는 것들은 전부 가설일 뿐이다.

Task Generality 가설

데이터와 하나의 모델이 해결해야하는 task가 많고 다양해짐에 따라 generality가 중요하다. 복잡한 어려운 많은 task들을 전부 공통적으로 잘 푸는 representation은 위 그림처럼 겹치는 영역들에 가까워지며 비슷해진다.

multi task로 학습한다는건 더 작고 높은 퀄리티의 solution space를 탐색하게 되기 때문에 여기 이점이 있다. - 재밌는 직관

Convergence via Model capacity

모델이 클수록 모델간에 공유되는 representation이 될 확률이 높다.

모델이 클수록 optimum에 가까워지기 때문도 있음

Convergence via Simplicity Bias

모델이 크고 복잡해짐에 따라 그 모델이 과도하게 복잡하고 distinct한 rep을 갖는건 어떻게 방지되는걸까? → one of the key factors is simplicity bias

명시적인 정규화 term(e.g. weight decay, dropout)에 의해 모델이 simple function을 추구하기 때문에 각 모델마다 확연히 다르면서 복잡한(복잡하기 때문에 비슷하기 힘든) 표현을 갖는게 방지된다.

그래서 최종적으로 어떻게 될까?

결국 모든 rep은 “a statistical model of the underlying reality.”로 나아갈 것이다 → 이게 뭔데

두개의 사건이 비슷한 시간(현실의 학습에서는, 같은 window안에서)에 관측되면 positive pair로 보자 → pointwise mutual information - 두개의 사건이 함께 발생하는 정도

This analysis suggests that certain representation learning algorithms may boil down to a simple rule: find an embedding in which similarity equals PMI

결론적으로는 비슷한 위치에서 발생하는 데이터들끼리 비슷한 representation을 갖도록 학습하는게 이상적인 learning algorithm이라고 이야기하네(같은 문단의 문장들끼리 가까워지도록 SSL학습하는 SimCSE처럼)

어느 정도의 확신으로 하는 말인지 판단이 어렵다. 수학적 증명보다는 직관으로 시작한 문장에서 파생되었기 때문에.

현실에서 관찰하는 사건이라는전 bijective하고 deteministic하기 때문에 각 사건은 특정한 측정값으로 관찰되고, 세계는 real world 분포 P(Z)에서 샘플링된 T개의 이산 사건의 연속으로 이루어진다.

실존적인 수렴 구현을 위한 주장

모델은 커지는게 좋다

다양한 모달리티가 통합되어 학습되는게 좋다. 실제로 이미 그렇게 흘러가고 있다.

conditional gen이 uncond gen보다 쉽다는게 aligned representation으로 인해 설명될 수 있다.

사족 - vision generation 논문들보면 text condition으로 CLIP대신 T5를 사용하는 경우 성능이 더 좋은 것들이 많아 의문이었는데 여기에 대한 답이 될 수 있는 문장인듯하다. (T5가 text model 자체는 CLIP - RoBERTa보다 크고 좋으니)

한 모달에서 학습하면 다른 모달을 바로 처리할 수 있다는 의미는 아니다. 의미론적으로 비슷한 지식을 공유하니 적용시키기가 쉬울뿐

향후 데이터와 learning objective가 충분히 좋아지면, 스케일링이 hallucination을 방지할 수도 있을거다. → 결국 이거야?

그럼 더 real world rep에 가까워지니까.

이건 지나치게 이상적인 추측아닌가?

반례와 한계

데이터의 모달리티마다 해당 모달에서만 특정되는 개념이 존재한다.

vision이 freedom of speech라는 단어와 연결될 수가 있나

우리는 더 발전해야한다.

특정한 목적을 위해 계산되는 representation은 전체적 수렴 흐름과 무관할 수 있다.

본 연구에서 주장하는건 다양한 task를 수행하기 위해 generalization 성능이 중요한 경우를 분석했을 때에 대한 내용이고, 단백질 구조 분석을 위한 bioinformation 정보와 자율주행을 위한 도로 정보에 관한 representation도 비슷하다는걸 주장하는 연구는 아니다.

어떤 태스크는 오히려 현실과 별개의 representation을 모델링하는게 더 효율적인 결과를 가져올 수 있다.

Subscribe to our newsletter

See more posts

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction [review]

July 16, 2024

The Platonic Representation Hypothesis

VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

Rich Human Feedback for Text-to-Image Generation

ViVid-1-to-3 paper reveiw

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction [review]