블랙박스 이해하기: Scaling Monosemanticity by Anthropic

Jason Lee's avatar
May 25, 2024
블랙박스 이해하기: Scaling Monosemanticity by Anthropic

Introduction

트랜스포머 기술을 기반으로 하는 생성형 AI는 비결정적(non-deterministic) 컴퓨터입니다. 이러한 시스템은 개발자가 명확하게 프로그래밍한 명령에 의존하는 기존의 폰 노이만 머신과는 달리 “확률적”으로 작동합니다.
생성형 AI는 확률적 컴퓨터로서, 자연어, 이미지와 같은 다양한 비정형 데이터를 처리하고 이해하는 능력을 갖추고 있습니다. 이를 통해 기존 컴퓨터가 접근할 수 없는 방대한 지식을 습득하고 활용할 수 있습니다.
확률적 컴퓨터는 학습된 방대한 지식을 바탕으로 연구와 모델링은 물론, 다양한 창의적 작업을 별도 프로그래밍 없이 '제로샷' 방식으로 수행할 수 있습니다. 여기서 '제로샷'은 특정 작업에 대해 사전에 특별히 훈련되지 않은 상태에서도 해당 작업을 수행할 수 있는 AI의 능력을 의미합니다.
그러나 이런 확률적 컴퓨터는 운영 방식이 말 그대로 “확률적”이기 때문에 interpretability가 매우 중요합니다. 예를 들어, 확률적 컴퓨터의 아웃풋에서 위험한 내용(차별, 혐오, 환각증상 등)이 포함되어 있다면 이 오류에 대한 원천을 이해해야 문제를 개선할 수 있습니다.
notion image
하지만, 모두 잘 아시다시피 거대언어모델은 거대한 데이터셋을 unsupervised learning (비지도학습) 방식으로 학습되어 이젠 1 trillion이 넘어가는 파라미터에 분산 되어 저장됩니다 (LLM 기초 블로그). 이러한 복잡한 구조로 인해, 실제로는 매우 똑똑한 컴퓨터를 만들었음에도 불구하고, 그 작동 원리를 완전히 이해하지 못하는 '블랙박스' 상태에 빠지게 됩니다.
이러한 '블랙박스'의 성격은 신뢰성 부족, 상업적 도입의 어려움, AI의 편향성 및 공정성 문제, AI에 대한 사회적 두려움으로 인한 규제 증가 등 다양한 downstream 문제를 야기합니다.
그렇기 때문에 interpretability 연구는 매우 중요하고 AI 모델의 성능 개선과 같이 병행되어야 하는 필수적인 연구분야입니다.
최근 Anthropic이 발표한 “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet”가 화제입니다. Anthropic은 sparse autoencoders라는 모델을 활용하여 거대언어모델 행동을 이해하고 조정할 수 있는 방향성을 제시합니다.

Anthropic Paper 주요 내용

아래는 논문의 주요 요점 몇 가지입니다:

개요

notion image
  • 전통적인 신경망은 해석하기 어렵습니다. 각 뉴런은 서로 관련 없는 다양한 자극에 반응하기 때문에, 뉴런이 정확히 어떤 역할을 하는지 특정하기 어렵습니다. 예를 들어, 한 뉴런이 고양이 얼굴 뿐만 아니라 자동차 전면에도 반응할 수 있습니다.
  • AI 모델을 이해하기 위해선 뉴런 단위로 이해하기 어렵기 때문에 Anthropic은 신경망을 더 단순하고 이해하기 쉬운 구성 요소인 "특징(features)"으로 분해함으로써 문제를 해결합니다. 역할 별(예. 외로움을 나타내는 feature, 특정 인물을 나타내는 feature 등)로 나눠 볼 수 있다면 전체 네트워크를 더 잘 이해할 수 있습니다.
  • Anthropic은 특수한 신경망인 Sparse Autoencoders(SAE)를 학습하여 AI 모델 내 feature들을 뽑아냅니다. SAE는 신경망 내의 이해하기 어렵고 시끄러운 신호를 최소화하여 이해하기 쉬운 feature들로 특정하고 interpretability 문제를 접근합니다.

왜 중요한가?

8개월 전, Anthropic은 작고 단순한 트랜스포머(single-layer transformer)에서 단일 의미 특징(monosemantic features)을 찾는데 SAE의 잠재력을 확인했습니다.
  • Monosemantic features는 특정 자극 또는 개념에만 반응하는 신경망 구성 요소로, 모델 행동에 어떤 영향을 미치는지 이해하기 쉽게 만듭니다.
이 기술이 더 크고 복잡한 모델, 특히 생산 환경에서 사용되는 SOTA 모델로 확장될 수 있는지 여부가 중요했습니다. Anthropic은 금번 리서치로 Claude 3 Sonnet (최신 모델 패밀리 중 중간 사이즈의 거대언어모델)에 SAE를 학습하여 단순한 트랜스포머보다 복잡한 모델에서도 유용한 특징을 추출할 수 있음을 입증했습니다.
  • 예를 들어 매우 단순한 feature들 (문장 내 단어의 위치, 품사, 사람 이름, 주제 등)부터 추상적인 사항들 (외로움, 편견, 불법적인 사항들 등)까지
notion image

Influencing Model Behavior with Features

이 논문에서는 특징(features)이 모델 행동에 어떻게 영향을 미치는지 해석할 수 있을 뿐만 아니라, 활성화 값(activation value)을 조절하여 모델 행동을 직접적으로 변화시킬 수 있는 능력을 보여주었습니다.
  • SNS에서 많이 인용된 example은 “Golden Gate Bridge”가 있습니다. 이 feature의 활성화 값을 10배 증가시키자 모델이 자신을 골든 게이트 브리지로 식별하기 시작했습니다.
notion image
  • 더 재밌는 예시는 추상적인 특징들일 것 같습니다. 예를 들어, “gender bias awareness” feature을 극대화한 예시:
notion image
  • 예를 들어, 모델의 속임수, 비밀 등과 같은 feature를 극대화 한 예시
notion image

작동 원리

작동 원리는 매우 단순하게 예시로 정리했습니다:

1. 입력 데이터

SAE에 텍스트를 입력합니다:
  • 입력 텍스트: "Golden gate bridge is in San Francisco."

2. 인코더 출력

SAE는 Claude 3 Sonnet 내 activation (활성화) 데이터에 학습되었습니다. 입력 텍스트가 들어오면 인코더는 “sparse representation”으로 변환 시키고 feature들의 활성화 수치를 아웃풋합니다.
  • 특징 활성화(단순화된 예):
    • 특징 1 (랜드마크): 0.8
    • 특징 2 (도시): 0.7
    • 특징 3 (구조물): 0.2
여기서 숫자는 각 특징이 입력 텍스트에 의해 얼마나 강하게 활성화되는지를 나타냅니다. 숫자가 높을수록 더 강한 활성화를 의미합니다.

3. 디코더 출력

디코더는 활성화된 제한적인 특징만으로 원래 입력 텍스트를 재구성(reconstruction)하려고 시도합니다.
  • 재구성된 텍스트: "Golden gate bridge is in San Francisco."
이상적인 상황에서는 재구성된 텍스트가 원본 입력 텍스트와 매우 가깝습니다. 이 재구성의 목적은 인코더가 입력 텍스트의 핵심 정보를 포착하는 데 필요한 특징을 학습했는지를 확인하는 것입니다.
SAE는 재구성 손실을 최소화하는 동시에 활성화되는 특징 수를 최소화하기 위해 희소성(sparsity) 패널티를 적용하면서 훈련됩니다.
notion image

여기서도 나오는 Scaling Law

notion image
SAE를 학습하기 위해선 역시 또 scaling law가 나타납니다. SAE가 학습되는 feature # (데이터 + 파라미터와 유사?)와 training steps가 증가할 수록 더 낮은 loss가 발현됩니다.
Anthropic은 본 리서치 페이퍼를 공개하면서 자세한 수치(FLOPS 등)은 공개하지 않았습니다. 다만 확실한 것은 Interpretability를 위해선 꽤 유의미한 자원을 allocate 해야 할 것으로 보입니다. 모델 발전과 동시에 AI Safety를 위해 자원을 얼마나 배분하느냐가 매우 중요한 전략적 결정사항일 것으로 보입니다.
재밌는 것은 Anthropic이 본 리서치를 공개한 타이밍이 최근 OpenAI가 AI Safety 관련 몇가지 악재가 터진 것과 맞물려 있다는 점입니다. 최근 OpenAI 내 AI Safety 관련 인력(Ilya Sutskever, Jan Leike 등)들이 대거 이탈하는 일이 발생했고 특히 Jan Leike는 X(tweet)를 통해 꽤 불만을 토로했죠.
작년 11월에 OpenAI 쿠데타 블로그에서 저는 아래와 같이 OpenAI는 AI Safety보다 모델성능 강화 및 상용화에 초점을 둘 것이라고 전망한 바 있습니다:
샘 알트만이 돌아온다면 Ilya의 쿠데타는 완패로 돌아간다. AI안전과 속도조절을 주장한 파벌은 약해지고 오픈AI는 고삐 풀린 말처럼 더욱 공격적으로 프로덕트를 상용화할 것으로 본다. 이는 마이크로소프트와 오픈AI의 주주가치에 긍정적인 효과로 작용할 것이다.
또 최근엔 영화 Her 내에서 성우 역할을 한 Scarlett Johansson은 OpenAI GPT-4o 어시스턴트 목소리와 비슷하다고 주장하면서 소송을 건 이벤트가 있었습니다. AI Safety와 Copyright (fair use) 문제와 맞물리면서 시끄럽습니다.
주주가치에 긍정적인 효과로 작용할 것인지는 지켜봐야 할 것 같네요.

Conclusion

Anthropic의 리서치 페이퍼를 읽으면서 몇 가지 생각나는 시사점을 대충 정리해봤습니다:
  • Interpretability 모델은 각 회사 뿐만 아니라 모델마다 학습되어야 할 것처럼 보임
  • Anthropic은 3가지 사이즈의 SAE를 학습 (~1M, 4M, 34M features). 하지만, 모델 내 feature들은 사실상 billions+ 단위일 것. 사이즈를 계속 키워나가야 하고 scaling law에 따라 비용이 기하급수적으로 늘어날 것으로 예상됨
  • Feature들이 더 많아지고 정확해지고 뾰족해질 수록 더 정교하게 모델을 이해하고 조정할 수 있을 것으로 예상함
  • SAE와 같은 Interpretability 모델은 학습이 끝난 모델의 문제점을 파악하고 조정할 수 있는 힘을 부여하기 때문에 AI Safety 뿐만 아니라 모델 성능 개선에 필수적인 요소가 될 가능성 있음
    • 예: 출력코드 내 버그에 반응하는 feature에 마이너스 활성화 함수를 부여하면 정확한 코드 생성??
  • Interpretability가 commercial adoption에 필수요소가 될 수 있음. 이젠 모델 성능 뿐만 아니라 Interpretability 문제를 잘 해결한 회사가 성공할지도..?
  • Anthropic의 interpretability 페이퍼를 읽어보니 오히려 왜 closed 모델 ecosystem 캠프에서 오픈소스 모델을 규제하자고 하는지 이해가 감… 악의적인 플레이어들이 오픈소스 모델 내 나쁜 feature들을 극대화해서 사용한다면?
  • 아직 갈 길이 매우 멀지만 이 Black Box가 어떻게 구동 되는지 조금씩 이해가 가다 보니 AI가 인간이 아니라 기계로 보여지는데 도움을 주는 것 같음. AI는 살아있는 생물체가 아니라 결국 기계일 뿐. 다만, 우리 말을 잘 듣는 기계를 만들 수 있도록 alignment가 중요.
 
Share article
Subscribe to my newsletter
RSSPowered by inblog