GraphAGI 첫 걸음, Graph Foundation model 알아보기 (KDD24' Review)

Graph Foundation Model 의 정의 ,한계 그리고 개선을 위한 노력들
정이태's avatar
Sep 21, 2024
GraphAGI 첫 걸음, Graph Foundation  model 알아보기 (KDD24' Review)
 
안녕하세요. 최근 과학기술정통부 산하 프로그램인 오픈 프런티어의 지원을 받아 KDD 24’ 컨퍼런스(https://kdd2024.kdd.org/) 에 참여했습니다. 컨퍼런스 간 여러 유익한 주제들 중 저는 그래프(Graph data) 기술에 대한 주제들 위주로 세션에 참여했고, 그 세션에 참여하며 얻은 인사이트들을 본 블로그 게시물을 통해 여러분들에게 공유드리려고 합니다.
 
https://kdd2024.kdd.org/tutorials/
KDD24’ 첫날인 일요일 오후에 진행한 Large Language Models for Graphs: Progresses and Directions 세션에 참여했습니다. 제목에서 확인할 수 있듯이 요즘 많이 언급하고 있는 LLM 과 대체재 혹은 보완재로 언급되고 있는 Graph 기술의 조화에 대해 이야기한 세션입니다.
세션은 크게 1.GNNs as Prefix , 2.LLMs as Prefix , 3.LLMs-Graphs Integration 그리고 4.LLMs-Only 4가지 파트로 나누어 진행되었는데요. GenAI의 성능 개선을 위해 GNN 을 위주로 사용할 지, LLM을 위주로 사용할 지, LLM-GNN 의 균형을 맞추어 사용할지 그리고 LLM 위주로만 사용할 지에 대해 이야기합니다.
이 4가지 파트들마다 가지각색 특성이 있었지만, 공통된 특성이 있었는데요. 바로 Foundation Model 이였습니다. LLM Foundation Model 에 대해서는 다들 익숙하실거라 생각되어, 이번 게시물에서는 ‘그래프’에 집중하여 Foundation Model에 대해 이야기해보려고 합니다. 또한, 자연어 처리 Foundation Model 과 다르게 그래프 Foundation Model 은 무슨 차이가 있으며, 어떤 한계점을 가지고 있는지 그리고 그 한계점을 극복하고 개선하기 위한 노력들을 다루어볼 예정입니다.
 
 
 

 

1. Graph AGI 의 핵심 Graph Foundation Model 이란?

GFM(Graph Foundation model)을 이야기하기전에, 우선 자연어처리 분야에서 Foundation model 과 그래프 분야에서 Foundation model 정의와 차이에 대해 간단하게 알아보고 넘어가겠습니다.

1.1. Graph , NLP Foundation model

Foundation model은 대규모 데이터에서 학습하여 다양한 작업에 적응할 수 있는 범용 모델을 의미합니다. 이 모델들은 주로 대규모 신경망 구조를 기반으로 하며, 주어진 특정 작업을 위한 전이 학습이나 미세 조정을 통해 다양한 분야에 적용될 수 있습니다.

자연어 처리(NLP) 분야에서의 Foundation model:

자연어 처리에서의 Foundation model은 주로 텍스트 데이터를 기반으로 학습합니다. 예를 들어, BERT나 GPT 같은 모델들은 방대한 양의 텍스트 데이터를 학습하여 인간 언어의 복잡성을 이해하고, 이를 바탕으로 텍스트 생성, 번역, 질의 응답, 감정 분석 등 다양한 언어 관련 작업을 수행할 수 있습니다. 이 모델들은 사전 학습된 언어 모델로, 특정 작업에 맞게 미세 조정되어 더 나은 성능을 발휘합니다.

그래프 분야에서의 Foundation model:

그래프 분야에서는 노드와 엣지로 구성된 그래프 데이터에서 학습된 모델이 Foundation model로 간주됩니다. 그래프 뉴럴 네트워크(GNN, Graph Neural Network)와 같은 모델들이 대표적입니다. 이 모델들은 그래프의 구조적 정보를 학습하여 네트워크 분석, 추천 시스템, 화학 분자 구조 예측 등 그래프 기반 작업에서 사용됩니다. 그래프 데이터는 자연어와는 다른 형태를 가지며, 노드 간의 관계를 기반으로 학습하기 때문에 자연어 처리 모델과는 학습 방식과 활용 방법이 다릅니다.
 

1.2. 각 분야별 Graph Foundation Models 현황

Foundation Models in Graph & Geometric Deep Learning. , “The timeline of emerging foundation models in graph- and geometric deep learning”. , Jun 19, 2024. , https://towardsdatascience.com/foundation-models-in-graph-geometric-deep-learning-f363e2576f58
Foundation Models in Graph & Geometric Deep Learning. , “The timeline of emerging foundation models in graph- and geometric deep learning”. , Jun 19, 2024. , https://towardsdatascience.com/foundation-models-in-graph-geometric-deep-learning-f363e2576f58
  • GFM(Graph Foundation Model)은 다양한 분야에서 활용되고 있습니다. 그 중 대표적인 케이스가 위 그림에서 각각 다른 색으로 표현된 각각의 7가지 분야이구요.
  • Small Molecules , ML Potentials 그리고 Protein LMs 까지는 주로 다른 분야의 도메인에 속한 화합물, 분자 그래프 데이터를 학습하는 GFM 카테고리에 속하고, 그 밑의 Algorithmic Reasoning, Link Prediction , KG reasoning 그리고 Node Classification는 일반적인 상식들을 그래프 형태로 변환하고 이를 학습하는 GFM 카테고리라고 할 수 있습니다.
  • 위 Task들 중 Algorithmic Reasoning 과 KG Reasoning 의 차이에 대해 잠깐 언급해보자면, Algorithmic Reasoning은 특정 절차나 공식(수학적 알고리즘)을 따라 문제를 해결하는 데 중점을 두고, KG Reasoning은 데이터 간(지식 그래프 탐색)의 관계를 바탕으로 의미 있는 결론을 도출합니다.
  • 이처럼, GFM을 만들기 위해선 사전에 목적 및 데이터를 기획하고, 이에 따라 Domain-specific 일지, Task-specific 일지를 분별합니다. 그리고나서 데이터를 수집하고 정제 그리고 학습 및 검증 과정을 거쳐 Foundation model이 탄생하게 됩니다.
 

1.3. Graph Foundation Model 이 만들어지는 과정

Liu, J., Yang, C., Lu, Z., Chen, J., Li, Y., Zhang, M., ... & Shi, C. (2023). Towards graph foundation models: A survey and beyond. arXiv preprint arXiv:2310.11829.
Liu, J., Yang, C., Lu, Z., Chen, J., Li, Y., Zhang, M., ... & Shi, C. (2023). Towards graph foundation models: A survey and beyond. arXiv preprint arXiv:2310.11829.
  • GFM을 만들기 위한 과정은 기존 Graph Deep Learning 에서의 End-to-End 과정과 유사한 부분이 있습니다. 바로, Downstream Task를 수행한다는 과정이 유사합니다. 하지만, GFM은 Graph Data Generalization 기능을 위해 좀 더 광범위한 Task를 수행합니다.
  • GFM의 핵심 기술은 크게 두 개로 분류할 수 있습니다. 1. Pre-training , 2. Adaptation. 우선 Pre-training은 저희가 익히 알고있는 전이학습과 유사한 맥락입니다. Large dataset을 준지도 학습 관점으로 학습하는거죠. 다만, 기존 데이터와는 달리 구조적 정보, 관계, 그리고 그래프 내 다양한 패턴을 분류하고 이를 추가로 학습한다는 점에서 차이가 있습니다.
  • 다음은 Adapation는 Large dataset에서 다양한 정보들을 모델이 학습했다면, 특정 downstream task나 domain task에서 성능 개선을 위해 모델을 적응하는 2차 과정입니다. 흔히 알고있는, Fine-tuning , PEFT(Parameter-efficent FT) 그리고 Prompt-tuning이 이 카테고리에 속합니다.
 

1.4. Graph Deep Learning 대표적인 3가지 Task

Towards Graph Foundation Models Philip S. Yu, Chuan Shi, Cheng Yang, Yuan Fang, Lichao Sun. , WWW 2024 Tutorial
Towards Graph Foundation Models Philip S. Yu, Chuan Shi, Cheng Yang, Yuan Fang, Lichao Sun. , WWW 2024 Tutorial
 
1. Node-level Task (노드 수준 작업)
노드 수준 작업은 그래프 내 개별 노드에 대한 예측 또는 분류 작업을 의미합니다. 여기서는 그래프 내에서 각 노드의 특성에 따라 특정 라벨을 예측하거나, 노드가 어떤 그룹에 속하는지를 분류하는 것이 목표입니다.
  • 노드 분류(Node Classification): 주어진 그래프에서 각 노드에 라벨을 할당하는 작업입니다. 예를 들어, 소셜 네트워크에서 사람들의 직업이나 관심사 등을 분류할 수 있습니다.
  • 노드 예측(Node Prediction): 노드의 속성이나 상태를 예측하는 작업입니다. 예를 들어, 추천 시스템에서 특정 사용자가 어떤 상품을 구매할 가능성이 있는지 예측할 수 있습니다.
 
2. Edge-level Task (엣지 수준 작업)
엣지 수준 작업은 그래프 내에서 노드 간의 관계(엣지)를 예측하거나 분류하는 작업을 의미합니다. 여기서는 두 노드 사이에 엣지가 존재할 가능성을 예측하거나, 두 노드 간의 관계의 종류를 분류하는 것이 목표입니다.
  • 링크 예측(Link Prediction): 그래프 내에서 두 노드가 연결될 가능성을 예측하는 작업입니다. 예를 들어, 소셜 네트워크에서 두 사용자가 친구가 될 가능성을 예측하거나, 추천 시스템에서 사용자가 특정 상품을 구매할 가능성을 예측할 수 있습니다.
  • 엣지 분류(Edge Classification): 두 노드 간의 관계 유형을 분류하는 작업입니다. 예를 들어, 지식 그래프에서 두 엔티티 사이의 관계를 분류할 수 있습니다(예: "사람이 회사에 다닌다" vs "사람이 책을 쓴다").
 
3. Graph-level Task (그래프 수준 작업)
그래프 수준 작업은 그래프 전체에 대한 예측이나 분류 작업을 의미합니다. 여기서는 주어진 그래프의 전체적인 특성이나 구조를 기반으로 라벨을 예측하거나, 그래프 전체를 하나의 단위로 취급하여 분류하는 것이 목표입니다.
  • 그래프 분류(Graph Classification): 전체 그래프를 특정 카테고리로 분류하는 작업입니다. 예를 들어, 화학에서 분자의 구조를 기반으로 약물의 효과를 예측하거나, 소셜 네트워크에서 커뮤니티의 성향을 분류할 수 있습니다.
  • 그래프 회귀(Graph Regression): 그래프의 속성에 대한 연속적인 값을 예측하는 작업입니다. 예를 들어, 분자의 구조를 기반으로 특정 물리적 특성(녹는점, 용해도 등)을 예측할 수 있습니다.

2. Graph Foundation Model 의 Challenging

  • Model , Data 그리고 Hardware 관점에서
 

2.1. Model-Centric ; Generalization을 위한 Graph Training

 
 

Graph of Relations 그리고 Knowledge Graph Embedding

Michael Brontstein (Oxford). [Simons Institute]. (2024, Jul 1). Towards Foundation Models for Graphs[Video]. YouTube. https://www.youtube.com/live/1dhM5yJYYYM?si=KtWIpxKPbVpWtGdm
Michael Brontstein (Oxford). [Simons Institute]. (2024, Jul 1). Towards Foundation Models for Graphs[Video]. YouTube. https://www.youtube.com/live/1dhM5yJYYYM?si=KtWIpxKPbVpWtGdm
 
 
 
Cs224W : Machine Learning with Graphs "08 - Knowledge Graph Embedding". , Jure Leskovec, Stanford University. , http://cs224w.stanford.edu
Cs224W : Machine Learning with Graphs "08 - Knowledge Graph Embedding". , Jure Leskovec, Stanford University. , http://cs224w.stanford.edu
 
 
 
Cs224W : Machine Learning with Graphs "08 - Knowledge Graph Embedding". , Jure Leskovec, Stanford University. , http://cs224w.stanford.edu
Cs224W : Machine Learning with Graphs "08 - Knowledge Graph Embedding". , Jure Leskovec, Stanford University. , http://cs224w.stanford.edu
 
 

2.2. Data-Centric ; Foundation model vocabulary 구축을 위해 고려해야할 Graph TSD(Type, Scale, Diversity)

  • Data Size에 맞춰 Hardware resource도 고려해야함.
  • 이미 ‘관계’가 자연스레 형성되어 있는 그래프 데이터도 있지만, ‘관계’를 직접 형성해주고 이를 그래프로 변환해주는 데이터가 현실에서 대다수임.
  • 주로 Table 간 FK-PK 를 활용해 그래프로 변환함. 이 과정중에 발생하는 연산들이 상당하기에, 이를 어떻게 다룰지를 고민해보아야함.
 

Graph Isomorphism

Michael Brontstein (Oxford). [Simons Institute]. (2024, Jul 1). Towards Foundation Models for Graphs[Video]. YouTube. https://www.youtube.com/live/1dhM5yJYYYM?si=KtWIpxKPbVpWtGdm
Michael Brontstein (Oxford). [Simons Institute]. (2024, Jul 1). Towards Foundation Models for Graphs[Video]. YouTube. https://www.youtube.com/live/1dhM5yJYYYM?si=KtWIpxKPbVpWtGdm
“Knowledge Transferability” 데이터 간 고유 특성을 구축해
 
Graph isomorphism(그래프 동형성)은 두 그래프가 구조적으로 동일한지를 판단하는 문제를 말합니다. 구체적으로, 두 그래프가 서로 다른 이름의 노드와 엣지로 구성되어 있지만, 그 연결 관계가 동일하다면 이 두 그래프는 동형(isomorphic)이라고 합니다. 즉, 노드의 이름이나 순서에 관계없이 두 그래프의 구조가 같은지 여부를 판단하는 문제입니다.
Graph Isomorphism의 정의:
두 그래프 G1G_1G1​와 G2G_2G2​가 동형이라는 것은, G1G_1G1​의 노드를 G2G_2G2​의 노드에 대응시키는 일대일 함수 fff가 존재하며, 이 함수가 노드들 간의 연결성을 보존한다는 의미입니다. 즉, G1G_1G1​에서 노드 uuu와 vvv가 연결되어 있으면, G2G_2G2​에서 대응하는 노드 f(u)f(u)f(u)와 f(v)f(v)f(v)도 연결되어 있어야 합니다.
Graph Foundation Model에서 Graph Isomorphism이 한계점으로 언급되는 이유:
  1. 그래프 구조 인식의 어려움: 그래프 데이터는 자연어 텍스트나 이미지 데이터처럼 명확한 순서나 구조가 존재하지 않습니다. 동일한 구조의 두 그래프가 있을 때, 이를 같은 그래프로 인식하는 것은 간단하지 않습니다. 특히 그래프 신경망(GNN) 같은 모델들이 노드 간의 연결성만을 학습하는 경우, 두 그래프가 이름이 다르거나 노드의 순서가 다를 경우에도 구조적으로는 같은 그래프임을 인식하기 어려울 수 있습니다. 이것이 바로 Graph Isomorphism 문제입니다.
  1. 모델의 제한된 표현력: 많은 그래프 신경망(GNN) 모델들은 그래프 동형성 문제를 완벽하게 해결하지 못합니다. 대표적인 예로, Message Passing Neural Networks (MPNN)은 두 그래프가 동형인지 정확히 구분하는 데에 한계가 있습니다. 즉, GNN이 그래프의 노드 및 엣지 정보를 학습하여도, 두 그래프가 동형인지 여부를 정확하게 구별하지 못할 수 있습니다. 이는 GNN의 표현력에 제한이 있음을 의미하며, 그래프 동형성 문제를 해결할 수 없는 이유 중 하나입니다.
  1. 그래프 동형성 문제의 복잡성: 그래프 동형성을 해결하는 문제는 NP 문제로 알려져 있습니다. 즉, 그래프의 크기가 커질수록 동형성을 확인하는 데 시간이 기하급수적으로 증가할 수 있습니다. 이는 대규모 그래프에서 효율적인 모델을 개발하는 데 큰 도전 과제가 됩니다.
  1. 동형 그래프의 구별 필요성: 많은 실제 응용에서는 그래프 동형성을 구분하는 것이 중요합니다. 예를 들어, 분자 구조를 기반으로 약물의 효능을 예측할 때, 구조가 동일한 분자들은 동일한 효능을 가질 가능성이 큽니다. 하지만 그래프 모델이 이 구조를 정확히 인식하지 못하면, 예측의 정확도가 떨어질 수 있습니다.
 

Type

Cs224W : Machine Learning with Graphs "08 - Knowledge Graph Embedding". , Jure Leskovec, Stanford University. , http://cs224w.stanford.edu
Cs224W : Machine Learning with Graphs "08 - Knowledge Graph Embedding". , Jure Leskovec, Stanford University. , http://cs224w.stanford.edu
  • 그래프는 노드와 엣지의 범주에 따라 동질 그래프와 이질 그래프로 나뉩니다.
  • 이질 그래프는 여러 유형의 노드와 관계를 포함하며, 이를 처리하기 위해서는 메타-패스 기반 접근법이 사용될 수 있습니다.
  • 동질 및 이질 그래프 외에도 동적 그래프와 하이퍼그래프 같은 복잡한 그래프 유형이 존재하여 추가적인 어려움을 줍니다.
 

Scale

Michael Brontstein (Oxford). [Simons Institute]. (2024, Jul 1). Towards Foundation Models for Graphs[Video]. YouTube. https://www.youtube.com/live/1dhM5yJYYYM?si=KtWIpxKPbVpWtGdm
Michael Brontstein (Oxford). [Simons Institute]. (2024, Jul 1). Towards Foundation Models for Graphs[Video]. YouTube. https://www.youtube.com/live/1dhM5yJYYYM?si=KtWIpxKPbVpWtGdm
NLP Foundation model 에 비하면, 현재까지 모델이 학습할 양이 상대적으로 작지만 복잡한 문제가 하나 있습니다. 바로, Graph 데이터 특성상 구조적인 특성을 어떻게 반영할지를 디자인하는 부분입니다.
예를 들면, 그래프 구조 내에서 어느 노드를 기준으로 서브 그래프를 추출해서 학습할지 이때, 노드 기준으로 몇 hop 내에 속한 이웃을 학습할지와 같이 Graph Sampling Strategy 를 선택하게 되고 크게, vertex / edge cut 형태로 나누어 Partitioning 까지 고려하게 됩니다.
 
 

Diversity

다 데이터와 그래프 데이터의 가장 큰 차이는 ‘관계’ 입니다. 그래프에서 동일한 종류의 노드라고 하더라도, 노드끼리 어떤 관계로 연결이 되어있는지에 따라 그 해석이 달라지기 때문이죠. 이렇듯, 다양한 도메인에서 관계 다양성을 메타 데이터로 보유하는게 GFM에서 핵심이라고 할 수 있습니다.
만일, 이 관계 다양성을 잘 구축해놓은 메타 데이터가 있다면, 해당 메타 데이터를 기반으로 유사한 데이터 사전을 만들어 도메인 별 GFM 을 구축하는게 더욱 편의해지고 정확해지는 거죠. Warm starter 를 위한 기능을 한다라고 보면 되겠습니다.
하지만, 각기 다른 도메인 별 관계 다양성 합의를 이루기엔 방대한 데이터 관계 및 체계들이 존재합니다. 전세계적으로 다양한 문화적인 특성들이 존재하고 이 특성별로 데이터를 바라보는 시선이 다르기 때문이죠. 이를 합의하기 위한 표준 체계 플랫폼 기능을 하는 공간이 바로 https://schema.org/ 과 같은 곳이라고 할 수 있겠습니다.
 

2.3. Hardware 리소스 문제 , 데이터 처리와 학습 그리고 Fetching을 어떻게 효율적으로 할 것인가?

 

Raw data 를 Graph data로 만들기

Wang, M., Gan, Q., Wipf, D., Cai, Z., Li, N., Tang, J., ... & Zhang, Z. (2024). 4DBInfer: A 4D Benchmarking Toolbox for Graph-Centric Predictive Modeling on Relational DBs. arXiv preprint arXiv:2404.18209.
Wang, M., Gan, Q., Wipf, D., Cai, Z., Li, N., Tang, J., ... & Zhang, Z. (2024). 4DBInfer: A 4D Benchmarking Toolbox for Graph-Centric Predictive Modeling on Relational DBs. arXiv preprint arXiv:2404.18209.
 
 
Wang, M., Gan, Q., Wipf, D., Cai, Z., Li, N., Tang, J., ... & Zhang, Z. (2024). 4DBInfer: A 4D Benchmarking Toolbox for Graph-Centric Predictive Modeling on Relational DBs. arXiv preprint arXiv:2404.18209.
Wang, M., Gan, Q., Wipf, D., Cai, Z., Li, N., Tang, J., ... & Zhang, Z. (2024). 4DBInfer: A 4D Benchmarking Toolbox for Graph-Centric Predictive Modeling on Relational DBs. arXiv preprint arXiv:2404.18209.
 
 

Graph Traversal , 유저 질의를 그래프 형태로 응답 하기위해 거쳐야 하는 연관 있는 데이터 발견 및 추출 과정

 
Cs224W : Machine Learning with Graphs "09 - Reasoning over Knowledge Graphs”. , Jure Leskovec, Stanford University. , http://cs224w.stanford.edu
Cs224W : Machine Learning with Graphs "09 - Reasoning over Knowledge Graphs”. , Jure Leskovec, Stanford University. , http://cs224w.stanford.edu
 
 
 
Cs224W : Machine Learning with Graphs "09 - Reasoning over Knowledge Graphs”. , Jure Leskovec, Stanford University. , http://cs224w.stanford.edu
Cs224W : Machine Learning with Graphs "09 - Reasoning over Knowledge Graphs”. , Jure Leskovec, Stanford University. , http://cs224w.stanford.edu
 
  • Query Plan
    • Database Query 연산
  • Embedding Space
    • Embedding 연산
 

3. Challenging 을 위한 노력들

 
 

3.1. Graph Mixture of Experts

Wang, H., Jiang, Z., You, Y., Han, Y., Liu, G., Srinivasa, J., ... & Wang, Z. (2024). Graph mixture of experts: Learning on large-scale graphs with explicit diversity modeling. Advances in Neural Information Processing Systems36.
notion image
 
MoE 개념
  • MoE란, Mixture of Expert 의 약어로써 데이터가 학습을 위해 모델로 주입될 때 관련있는 데이터를 판별하는 게이트가 작동되고 해당 게이트와 연결되어 있는 Expert layer를 통해 데이터가 학습되는 알고리즘을 의미합니다.
  • 기존 모델은 각 데이터 별로 모든 레이어가 학습되어 가중치가 갱신되었다면, MoE 는 관련 있는 데이터들만 학습되기 때문에 보다 효율적으로 학습을 할 수 있다는 이점이 있습니다.
MoE 핵심 요소
  • 효율적으로 학습을 하기 위해 MoE 알고리즘 추가된 요소가 있는데요. 바로 Gating network, Expert choice 입니다. 직관적으로 생각해보시기에도, '데이터' 와 '관련 있는 게이트'를 판별하는게 핵심이라 생각하실 수 있습니다. 또한, 몇 개의 Expert 를 선정해야할지 또한 고려해야할 파라미터 중 하나라고 할 수 있는데요. 이 두 가지 관점에 대해 조금 더 깊게 이야기 해보겠습니다.
1. 게이트 메커니즘 구축:
게이트 메커니즘은 각 입력에 적합한 전문가를 선택하는 데 중요한 역할을 합니다. 작동 방식은 다음과 같습니다:
  • 입력 기반 선택: 게이트 네트워크는 일반적으로 입력 데이터를 받아서 각 전문가에 대한 확률 분포를 예측하는 작은 신경망입니다.
  • 희소 선택: 모든 전문가를 선택하는 대신, 게이트 메커니즘은 일반적으로 소수의 전문가만을 선택하여 입력을 처리하게 합니다. 이러한 희소 선택은 모델이 데이터의 관련 부분에만 집중할 수 있게 합니다.
  • 가중치 출력: 게이트 네트워크가 전문가를 선택한 후, 그들의 출력은 가중치 합으로 결합됩니다. 이 가중치는 게이트 네트워크의 확률 분포에서 얻어집니다.
일반적인 게이트 메커니즘에는 다음이 포함됩니다:
  • Softmax: Softmax 레이어는 일반적으로 전문가들에게 확률을 할당하는 데 사용됩니다.
  • Top-k 선택: 모든 전문가를 활성화하지 않기 위해 "top-k" 함수가 적용되며, 가장 높은 확률을 가진 상위 k개의 전문가만 선택됩니다.
  • Load balance: 일부 고급 구현에서는 전문가들 간의 작업 부하가 고르게 분배되도록 추가 제약을 적용하여 특정 전문가만 과도하게 사용되는 것을 방지합니다.
2. 다중 전문가 구축:
전문가 자체는 일반적으로 개별 신경망입니다. 다음과 같은 주요 선택 사항이 있습니다:
  • 모델 유형: 각 전문가는 소형 피드포워드 신경망, 합성곱 신경망(CNN), 순환 신경망(RNN) 등 문제 도메인에 적합한 모델일 수 있습니다.
  • 크기와 복잡도: 각 전문가의 복잡성은 달라질 수 있습니다. 선형 모델처럼 간단할 수도 있고, 심층 신경망처럼 복잡할 수도 있습니다. 전문가의 크기를 적절히 조정하는 것이 중요합니다. 너무 크면 계산 비용이 증가하고, 너무 작으면 유용한 특징을 학습할 수 없을 수 있습니다.
  • 전문화: 전문가들은 데이터 분포의 다른 부분에 특화되도록 설계될 수 있습니다. 학습 과정에서 게이트 네트워크는 각 입력에 적합한 전문가를 할당하는 방법을 배우며, 이는 전문가들이 서로 다른 작업이나 데이터 영역에 특화되도록 유도합니다.
3. 전문가 수가 민감한 요소인 이유:
전문가 수는 모델의 용량성능에 직접적인 영향을 미칩니다.
  • 전문가가 너무 적을 경우: 전문가 수가 너무 적으면 모델이 작업의 복잡성을 충분히 처리할 수 없을 수 있습니다. 이 경우 각 전문가가 여러 기능을 담당해야 하므로 전문화의 이점이 감소합니다.
  • 전문가가 너무 많을 경우: 반대로 전문가 수가 너무 많으면 모델이 효율성을 유지하기 어렵습니다. 게이트 네트워크가 적절한 전문가를 선택하기 어려워질 수 있으며, 모든 전문가를 관리하는 데 더 많은 계산 자원이 필요합니다. 또한 일부 전문가가 제대로 활용되지 않을 수 있습니다.
  • 적절한 수 찾기: 적절한 전문가 수를 찾는 것이 중요합니다. 모델은 데이터의 다양성을 처리할 수 있을 만큼 충분한 전문가가 필요하지만, 너무 많아져서 게이트 네트워크가 효과적으로 관리하지 못하는 상황은 피해야 합니다. 이는 개발 중 실험과 튜닝을 통해 조정할 필요가 있습니다.
왜 MoE 가 필요한지
  • 이러한 여러 고려 요소들이 필요함에도 불구하고, 왜 MoE를 사용할까요?
  • 대용량 데이터들을 다루게 될 때, 하드웨어 리소스가 풍부하다면 이 모든 데이터들을 모두 학습하면 좋을텐데 이를 모두 학습하기엔 제한이 있습니다.
  • 때문에 주어진 환경속에서 효율적인 학습이 필요할텐데, 이 효율적인 학습을 위해 '적절한' 학습을 하게끔 선별하고 학습되는 MoE layer가 사용됩니다.
  • 잠깐, 라우팅 알고리즘을 언급해보자면 라우팅 알고리즘은 크게 두 방식으로 나뉜다고 할 수 있는데요. 데이터 주입시, 사전에 설정해놓은 Domain-specific 을 활용할지 혹은 사전에 룰을 설정해놓지 않았으나 데이터 분포와 같은 데이터에 좀 더 치중한 w/o Domain-specific 으로 나눌 수 있습니다.
MoE 사용 시 이점
1.모델 용량을 효과적으로 확장할 수 있음
  • MoE (Mixture of Experts) 모델은 모든 네트워크 레이어를 거치지 않고, 입력에 따라 선택된 몇몇 전문가(Expert Layer)만을 활성화함으로써 효율적으로 학습이 가능합니다. 이는 계산 자원을 절약하면서도 큰 모델의 성능을 유지할 수 있도록 돕습니다.
  • NVIDIA의 블로그에 따르면, 일반적으로 매개변수가 많은 모델은 더 큰 용량을 가지며, MoE는 기존 모델의 전체 네트워크를 활성화하지 않고 전문가 하위 네트워크로 대체함으로써 효율적으로 용량을 확장합니다. 즉, MoE 레이어는 기존 레이어와 동일한 크기를 유지하면서도 더 많은 전문가를 추가해 모델의 표현력을 증가시킵니다.
  • 예를 들어, GPT와 같은 트랜스포머 모델에서 MoE를 적용하면, 기존 모델에 비해 학습하는 매개변수의 양은 줄어들지만, 선택된 전문가들이 적절히 동작하여 더 많은 데이터 패턴을 학습할 수 있습니다. 이는 대규모 모델을 구축할 때 특히 유리합니다.
2.가중치당 플롭(FLOP) 효율이 높아 비용 절감에 효과적임
  • MoE 모델은 특정 입력에 대해서만 소수의 전문가를 활성화시키기 때문에, 모든 가중치를 사용하는 대신 일부 가중치만 사용하여 효율적인 계산을 할 수 있습니다. 이로 인해 플롭(FLOP, 부동소수점 연산) 효율이 높아져, 계산 비용을 절감할 수 있습니다.
  • 구체적으로, 게이트 메커니즘은 입력에 따라 가장 관련성이 높은 전문가를 선택하여 활성화하고, 나머지 전문가들은 비활성 상태로 유지됩니다. 예를 들어, 기존 모델에서는 모든 레이어의 모든 가중치가 활성화되지만, MoE에서는 오직 선택된 전문가의 가중치만 계산되므로 모델의 계산 비용을 줄일 수 있습니다.
  • 이 방식은 클라우드 환경에서 큰 규모의 모델을 배포할 때 특히 유리하며, 트레이닝 또는 추론에 필요한 연산 자원을 절감하는 데 효과적입니다.
3.RAG (Retrieval-Augmented Generation) 작업의 지연 시간 단축
  • MoE 모델을 사용하면 RAG와 같은 복잡한 작업에서 지연 시간을 줄일 수 있습니다. RAG는 외부 지식 소스로부터 데이터를 검색하고 이를 기반으로 텍스트를 생성하는 방법으로, 많은 계산이 필요합니다.
  • MoE는 이 과정에서 입력에 적합한 전문가만을 선택하여 계산하므로, 모든 전문가가 동작하는 경우보다 더 적은 시간 안에 결과를 도출할 수 있습니다. 이로 인해 검색 및 생성 과정에서 발생하는 지연 시간이 감소합니다.
  • 특히 실시간 응답이 중요한 대화형 시스템이나 정보 검색 시스템에서는 MoE의 이러한 특성이 큰 이점을 제공합니다. 필요한 전문가만을 선택적으로 활성화하여 작업을 수행함으로써 처리 속도가 빨라지고, 대기 시간을 단축할 수 있습니다.
플롭효율이란, 1초동안 부동소수점으로 저장된 수를 얼마나 많이 연산할 수 있는지를 나타낸 지표를 의미합니다.
기존 MoE와 Graph MoE 차이점
  • 기존 MoE와 다르게 Graph MoE는 structure & feature 를 잘 선별해 적절한 Expert 에게 보내는게 핵심입니다. GFM 의 학습을 위해 필요한 GNN 알고리즘의 대다수가 Message Passing 을 기반으로 가중치가 학습되고, 이 가중치를 학습하기 위해 연결된 주변 이웃 N개를 기반으로 aggregation 하기때문에 적절한 N개의 이웃을 선별해야하기 때문이죠.
  • 타 데이터 대비 Graph 데이터는 '연결' 되어 있는 데이터들을 기반으로 가중치가 갱신되기 때문에, 어떤 데이터와 연결되어 있는지 그리고 해당 데이터의 연결이 유의미한지를 판별하는게 핵심이라 할 수 있습니다. 이러한 관점에서 Graph MoE는 그래프 구조가 유의미한 구조인지 판별 기능에 특화된 Expert 가 있다는게 기존 MoE 와의 차이점이라 할 수 있겠습니다.
 

3.2. ULTRA

Galkin, M., Yuan, X., Mostafa, H., Tang, J., & Zhu, Z. (2023). Towards foundation models for knowledge graph reasoning. arXiv preprint arXiv:2310.04562.
 
notion image
 

3.3. OpenGraph

Xia, L., Kao, B., & Huang, C. (2024). Opengraph: Towards open graph foundation models. arXiv preprint arXiv:2403.01121.
notion image
 
 

3.4. Position

Mao, H., Chen, Z., Tang, W., Zhao, J., Ma, Y., Zhao, T., ... & Tang, J. Position: Graph Foundation Models Are Already Here. In Forty-first International Conference on Machine Learning.
 
node , edge 그리고 graph 형태마다 발생하는 Expressiveness 와 stability 를 다룬 논문. 또한 GFM 구축시 고민할 Neural Scaling Law 를 data , model 관점에서 언급함.
 

3.5. GraphAny

Zhao, J., Mostafa, H., Galkin, M., Bronstein, M., Zhu, Z., & Tang, J. (2024). GraphAny: A Foundation Model for Node Classification on Any Graph. arXiv preprint arXiv:2405.20445.
 
notion image

4.끝으로

 
다음시간에는 최근 KDD24’ , WWW24’ tutorial 발표들을 통해 GNNs + LLMs 트렌드에 대해 알아보겠습니다.
 
Share article

Graphwoody