블랙박스 이해하기: Scaling Monosemanticity by Anthropic

May 25, 2024

블랙박스 이해하기: Scaling Monosemanticity by Anthropic

Contents

Introduction Anthropic Paper 주요 내용 개요 왜 중요한가?Influencing Model Behavior with Features 작동 원리 여기서도 나오는 Scaling Law Conclusion

Introduction

트랜스포머 기술을 기반으로 하는 생성형 AI는 비결정적(non-deterministic) 컴퓨터입니다. 이러한 시스템은 개발자가 명확하게 프로그래밍한 명령에 의존하는 기존의 폰 노이만 머신과는 달리 “확률적”으로 작동합니다.

생성형 AI는 확률적 컴퓨터로서, 자연어, 이미지와 같은 다양한 비정형 데이터를 처리하고 이해하는 능력을 갖추고 있습니다. 이를 통해 기존 컴퓨터가 접근할 수 없는 방대한 지식을 습득하고 활용할 수 있습니다.

확률적 컴퓨터는 학습된 방대한 지식을 바탕으로 연구와 모델링은 물론, 다양한 창의적 작업을 별도 프로그래밍 없이 '제로샷' 방식으로 수행할 수 있습니다. 여기서 '제로샷'은 특정 작업에 대해 사전에 특별히 훈련되지 않은 상태에서도 해당 작업을 수행할 수 있는 AI의 능력을 의미합니다.

그러나 이런 확률적 컴퓨터는 운영 방식이 말 그대로 “확률적”이기 때문에 interpretability가 매우 중요합니다. 예를 들어, 확률적 컴퓨터의 아웃풋에서 위험한 내용(차별, 혐오, 환각증상 등)이 포함되어 있다면 이 오류에 대한 원천을 이해해야 문제를 개선할 수 있습니다.

하지만, 모두 잘 아시다시피 거대언어모델은 거대한 데이터셋을 unsupervised learning (비지도학습) 방식으로 학습되어 이젠 1 trillion이 넘어가는 파라미터에 분산 되어 저장됩니다 (LLM 기초 블로그). 이러한 복잡한 구조로 인해, 실제로는 매우 똑똑한 컴퓨터를 만들었음에도 불구하고, 그 작동 원리를 완전히 이해하지 못하는 '블랙박스' 상태에 빠지게 됩니다.

이러한 '블랙박스'의 성격은 신뢰성 부족, 상업적 도입의 어려움, AI의 편향성 및 공정성 문제, AI에 대한 사회적 두려움으로 인한 규제 증가 등 다양한 downstream 문제를 야기합니다.

그렇기 때문에 interpretability 연구는 매우 중요하고 AI 모델의 성능 개선과 같이 병행되어야 하는 필수적인 연구분야입니다.

최근 Anthropic이 발표한 “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet”가 화제입니다. Anthropic은 sparse autoencoders라는 모델을 활용하여 거대언어모델 행동을 이해하고 조정할 수 있는 방향성을 제시합니다.

Anthropic Paper 주요 내용

아래는 논문의 주요 요점 몇 가지입니다:

개요

전통적인 신경망은 해석하기 어렵습니다. 각 뉴런은 서로 관련 없는 다양한 자극에 반응하기 때문에, 뉴런이 정확히 어떤 역할을 하는지 특정하기 어렵습니다. 예를 들어, 한 뉴런이 고양이 얼굴 뿐만 아니라 자동차 전면에도 반응할 수 있습니다.

AI 모델을 이해하기 위해선 뉴런 단위로 이해하기 어렵기 때문에 Anthropic은 신경망을 더 단순하고 이해하기 쉬운 구성 요소인 "특징(features)"으로 분해함으로써 문제를 해결합니다. 역할 별(예. 외로움을 나타내는 feature, 특정 인물을 나타내는 feature 등)로 나눠 볼 수 있다면 전체 네트워크를 더 잘 이해할 수 있습니다.

Anthropic은 특수한 신경망인 Sparse Autoencoders(SAE)를 학습하여 AI 모델 내 feature들을 뽑아냅니다. SAE는 신경망 내의 이해하기 어렵고 시끄러운 신호를 최소화하여 이해하기 쉬운 feature들로 특정하고 interpretability 문제를 접근합니다.

왜 중요한가?

8개월 전, Anthropic은 작고 단순한 트랜스포머(single-layer transformer)에서 단일 의미 특징(monosemantic features)을 찾는데 SAE의 잠재력을 확인했습니다.

Monosemantic features는 특정 자극 또는 개념에만 반응하는 신경망 구성 요소로, 모델 행동에 어떤 영향을 미치는지 이해하기 쉽게 만듭니다.

이 기술이 더 크고 복잡한 모델, 특히 생산 환경에서 사용되는 SOTA 모델로 확장될 수 있는지 여부가 중요했습니다. Anthropic은 금번 리서치로 Claude 3 Sonnet (최신 모델 패밀리 중 중간 사이즈의 거대언어모델)에 SAE를 학습하여 단순한 트랜스포머보다 복잡한 모델에서도 유용한 특징을 추출할 수 있음을 입증했습니다.

예를 들어 매우 단순한 feature들 (문장 내 단어의 위치, 품사, 사람 이름, 주제 등)부터 추상적인 사항들 (외로움, 편견, 불법적인 사항들 등)까지

Influencing Model Behavior with Features

이 논문에서는 특징(features)이 모델 행동에 어떻게 영향을 미치는지 해석할 수 있을 뿐만 아니라, 활성화 값(activation value)을 조절하여 모델 행동을 직접적으로 변화시킬 수 있는 능력을 보여주었습니다.

SNS에서 많이 인용된 example은 “Golden Gate Bridge”가 있습니다. 이 feature의 활성화 값을 10배 증가시키자 모델이 자신을 골든 게이트 브리지로 식별하기 시작했습니다.

더 재밌는 예시는 추상적인 특징들일 것 같습니다. 예를 들어, “gender bias awareness” feature을 극대화한 예시:

예를 들어, 모델의 속임수, 비밀 등과 같은 feature를 극대화 한 예시

작동 원리

작동 원리는 매우 단순하게 예시로 정리했습니다:

1. 입력 데이터

SAE에 텍스트를 입력합니다:

입력 텍스트: "Golden gate bridge is in San Francisco."

2. 인코더 출력

SAE는 Claude 3 Sonnet 내 activation (활성화) 데이터에 학습되었습니다. 입력 텍스트가 들어오면 인코더는 “sparse representation”으로 변환 시키고 feature들의 활성화 수치를 아웃풋합니다.

특징 활성화(단순화된 예):

특징 1 (랜드마크): 0.8
특징 2 (도시): 0.7
특징 3 (구조물): 0.2

여기서 숫자는 각 특징이 입력 텍스트에 의해 얼마나 강하게 활성화되는지를 나타냅니다. 숫자가 높을수록 더 강한 활성화를 의미합니다.

3. 디코더 출력

디코더는 활성화된 제한적인 특징만으로 원래 입력 텍스트를 재구성(reconstruction)하려고 시도합니다.

재구성된 텍스트: "Golden gate bridge is in San Francisco."

이상적인 상황에서는 재구성된 텍스트가 원본 입력 텍스트와 매우 가깝습니다. 이 재구성의 목적은 인코더가 입력 텍스트의 핵심 정보를 포착하는 데 필요한 특징을 학습했는지를 확인하는 것입니다.

SAE는 재구성 손실을 최소화하는 동시에 활성화되는 특징 수를 최소화하기 위해 희소성(sparsity) 패널티를 적용하면서 훈련됩니다.

여기서도 나오는 Scaling Law

SAE를 학습하기 위해선 역시 또 scaling law가 나타납니다. SAE가 학습되는 feature # (데이터 + 파라미터와 유사?)와 training steps가 증가할 수록 더 낮은 loss가 발현됩니다.

Anthropic은 본 리서치 페이퍼를 공개하면서 자세한 수치(FLOPS 등)은 공개하지 않았습니다. 다만 확실한 것은 Interpretability를 위해선 꽤 유의미한 자원을 allocate 해야 할 것으로 보입니다. 모델 발전과 동시에 AI Safety를 위해 자원을 얼마나 배분하느냐가 매우 중요한 전략적 결정사항일 것으로 보입니다.

재밌는 것은 Anthropic이 본 리서치를 공개한 타이밍이 최근 OpenAI가 AI Safety 관련 몇가지 악재가 터진 것과 맞물려 있다는 점입니다. 최근 OpenAI 내 AI Safety 관련 인력(Ilya Sutskever, Jan Leike 등)들이 대거 이탈하는 일이 발생했고 특히 Jan Leike는 X(tweet)를 통해 꽤 불만을 토로했죠.

작년 11월에 OpenAI 쿠데타 블로그에서 저는 아래와 같이 OpenAI는 AI Safety보다 모델성능 강화 및 상용화에 초점을 둘 것이라고 전망한 바 있습니다:

샘 알트만이 돌아온다면 Ilya의 쿠데타는 완패로 돌아간다. AI안전과 속도조절을 주장한 파벌은 약해지고 오픈AI는 고삐 풀린 말처럼 더욱 공격적으로 프로덕트를 상용화할 것으로 본다. 이는 마이크로소프트와 오픈AI의 주주가치에 긍정적인 효과로 작용할 것이다.

또 최근엔 영화 Her 내에서 성우 역할을 한 Scarlett Johansson은 OpenAI GPT-4o 어시스턴트 목소리와 비슷하다고 주장하면서 소송을 건 이벤트가 있었습니다. AI Safety와 Copyright (fair use) 문제와 맞물리면서 시끄럽습니다.

주주가치에 긍정적인 효과로 작용할 것인지는 지켜봐야 할 것 같네요.

Conclusion

Anthropic의 리서치 페이퍼를 읽으면서 몇 가지 생각나는 시사점을 대충 정리해봤습니다:

Interpretability 모델은 각 회사 뿐만 아니라 모델마다 학습되어야 할 것처럼 보임

Anthropic은 3가지 사이즈의 SAE를 학습 (~1M, 4M, 34M features). 하지만, 모델 내 feature들은 사실상 billions+ 단위일 것. 사이즈를 계속 키워나가야 하고 scaling law에 따라 비용이 기하급수적으로 늘어날 것으로 예상됨

Feature들이 더 많아지고 정확해지고 뾰족해질 수록 더 정교하게 모델을 이해하고 조정할 수 있을 것으로 예상함

SAE와 같은 Interpretability 모델은 학습이 끝난 모델의 문제점을 파악하고 조정할 수 있는 힘을 부여하기 때문에 AI Safety 뿐만 아니라 모델 성능 개선에 필수적인 요소가 될 가능성 있음

예: 출력코드 내 버그에 반응하는 feature에 마이너스 활성화 함수를 부여하면 정확한 코드 생성??

Interpretability가 commercial adoption에 필수요소가 될 수 있음. 이젠 모델 성능 뿐만 아니라 Interpretability 문제를 잘 해결한 회사가 성공할지도..?

Anthropic의 interpretability 페이퍼를 읽어보니 오히려 왜 closed 모델 ecosystem 캠프에서 오픈소스 모델을 규제하자고 하는지 이해가 감… 악의적인 플레이어들이 오픈소스 모델 내 나쁜 feature들을 극대화해서 사용한다면?

아직 갈 길이 매우 멀지만 이 Black Box가 어떻게 구동 되는지 조금씩 이해가 가다 보니 AI가 인간이 아니라 기계로 보여지는데 도움을 주는 것 같음. AI는 살아있는 생물체가 아니라 결국 기계일 뿐. 다만, 우리 말을 잘 듣는 기계를 만들 수 있도록 alignment가 중요.

Jason 블로그 구독하기