트렌드라인을 믿어라 - 2027년 AGI는 온다
Situational Awareness by Leopold Aschenbrenner (June 2024)
Jul 14, 2024
Elon Musk, Sam Altman, Ilya Sutskever, Kevin Scott 등 AI 산업 내 주요 목소리들이 AGI가 가깝다는 예견을 하면 저와 같은 외부인은 실감하고 체내화하기 매우 어렵습니다. 언론사들이 기사 제목 뽑을 땐 유용하겠지만, 이들의 생각과 근거에 차단되어 있고 노이즈가 너무 많기 때문에 해당 정보를 어떻게 해석해야 하며, 어떻게 반응해야 할지, 이 예견이 현실성이 있는지 파악하기 어렵습니다.
Leopold Aschenbrenner라는 OpenAI Superalignment 팀의 전 멤버가 작성한 Situational Awareness 블로그는 노이즈를 무시하고 본질에 집중합니다. 왜 본인과 AI 리더들이 AGI 미래가 가깝다고 생각하는지, 그리고 사회/정치/기업은 어떻게 대비하여야 하는지에 대해 다룹니다.
아래는 Leopold의 지정학적, 윤리적, 정치적 내용보다 왜 AGI가 3년 후인 2027년까지 도달할 수 있는지에 대한 근거에 대해 정리하였습니다. 판단은 각자의 몫이며 개인적으론 Leopold의 주장이 설득력 있다고 판단하고 있습니다.
TL/DR
- 아래는 Leopold Aschenbrenner (전 OpenAI Superalignment 팀)의 Situational Awareness 블로그의 TL/DR. 2027년까지 AGI가 올 것이며 그에 대한 본인의 생각을 논리와 evidence 바탕으로 설명한다.
- AGI는 우리가 생각하는 것보다 가깝게 있다. 트렌드라인을 따라가면 2027년까지 도달 가능하다.
- 많은 시장 참여자들이 우려하는 스케일링에 따른 수확 체감 (diminishing return)은 나타나고 있지 않다. 모델들은 그저 배우고 싶고, 스케일링하면 더 배운다.
The models, they just want to learn; you scale them up, and they learn more.
- 2023년 기준 향후 4년간 약 100,000배 총 컴퓨팅 스케일업이 예상된다. 이는 GPT-2(2019)와 GPT-4(2023) 사이즈 스케일업이다.
- 스케일업을 통해 GPT-2에선 유치원생 급 지능, GPT-4에선 똑똑한 고등학생 수준까지 올라왔다. 2027년엔 PhD 급 지능이 가능하지 않을까?
- 물론 챌린지는 많다. 데이터 바틀넥, 알고리즘 혁신 속도 등 AGI에 도달하기 위한 현실적인 장애물은 많다. 하지만 이 벽을 뚫기 위해 전세계 어마어마한 인적자본과 돈이 투자되고 있다.
- 또한, 역사적으로 인공지능의 회의학파는 지속적으로 AI의 발전속도를 과소평가하였다. 우리는 지금도 적어도 몇 년을 걸릴 것으로 예상했던 Evaluation 벤치마크 (e.g. MMLU)를 몇 개월만에 saturation하고 있다.
- 트렌드라인은 확실하다. AGI는 2027년에 도달 가능할 것으로 보이고, 오히려 입증책임은 회의론자들에게 있다. 그들은 왜 갑자기 역사적 트렌드가 꺽일 것으로 생각하는가?
- 개인적인 생각:
- AI에서 최고 똑똑한 사람들: Elon Musk, Greg Brockman, Sam Altman, Mark Zuckerberg, Kevin Scott 등등이 모두 스케일링을 믿고 있고, 막대한 자금을 사용하면서 행동으로 믿음을 증명하고 있다. 내가 AI 엔지니어가 아니니 눈으로 보고 느끼지는 못하지만 이들과 반대되는 생각을 할 이유는 없다고 본다.
- 2027년까지 AGI 예측이 맞든 틀리든 미국 및 중국 내 AI는 기하급수적으로 개선되고 있다. 이는 자국 및 컴퓨팅에 접근 할 수 있는 몇몇 기관 및 기업들에게 엄청난 어드벤티지다.
- 예를 들어, Cognition Labs의 Devin (AI 소프트웨어 엔지니어 블로그)이 현실화되어 개발자들을 대체할 정도의 수준까지 이르렀다고 가정해보자. 특정 몇 개의 엔터프라이즈만 1,000명, 10,000명의 Devin을 사용할 경우, 다른 기업들은 이들과 어떻게 경쟁할 수 있을까?
- 이제 조만간 Sam Altman이 얘기한 Universal Basic Income (기본소득), 아님 Universal Basic Compute를 기대해야 하는 것일까?
- AI race에서 우리나라가 뒤쳐지는 마당에 이 양상이 지속된다면 다른 나라(미국, 중국)에게 AI와 컴퓨팅 자원을 기대할 수 밖에 없지 않을까? 소베린AI를 진지하게 고민해야 할 시기인가?
지금까지의 성과
현재 우리는 LLM의 성능을 어쩌면 너무 당연하게 여기고 있습니다. 조금만 내용이 틀리면 우리는 재빠르게 AI capability를 무시합니다. 하지만, LLM은 지난 4년간 기하급수적으로 발전해왔고, 지금도 지속적으로 좋아지고 있습니다.
가장 쉽게 AI 모델의 성능을 예측할 수 있는 방법은 얼마나 많은 컴퓨팅 파워를 사용했느냐 입니다.
지난 4년간 AI 모델의 지능은 놀라울 정도로 발전했습니다. GPT-2가 유치원생 수준의 지능을 보였다면, GPT-4는 똑똑한 고등학생 수준까지 지능이 개선되었죠.
2019년 공개된 GPT-2는 약 4e21 FLOP을 사용했습니다. 4년 뒤 학습된 GPT-4는 약 8e24 ~ 4e25 FLOP을 사용한 것으로 알려져 있습니다. 약 3.5~4 OOMs의 컴퓨트 스케일링이 있었습니다.
여기서 “OOM”이란 Order of Magnitude를 의미합니다. 1 OOM은 10배, 2 OOM은 100배, 3 OOM은 1,000배 증가를 의미합니다.
약 4 OOM 사이 AI는 장난감 수준의 툴에서 사람보다 뛰어난 지능을 보이는 툴로 발전하였습니다. 앞으로 컴퓨팅 스케일업이 지속될 경우, 어떤 AI 모델이 나올 수 있을까요?
무시무시한 Scaling Law
지금까지 Scaling Law에 따라 모델의 학습 컴퓨트(compute)를 증가시키면 예측 가능한 수준으로 성능이 개선되어 왔습니다. Leopold 주장의 주요 가정은 “학습에 사용된 컴퓨트(compute)는 곧 지능과 직결된다” 입니다.
With each OOM of effective compute, models predictably, reliably get better.
이 Scaling Law를 미리 이해한 사람들만이 몇년 전 GPT-4 급의 지능을 예견할 수 있었습니다. Scaling Law는 지금까지도 느려지고 있다는 근거는 없으며, 모든 LLM 회사들이 scaling을 위해 어마어마한 CapEx를 투자하는 이유입니다. Scaling Law는 놀랍게도 단순하면서도 현재 AI 개발 방향을 대표하는 무시무시한 법칙입니다.
Count the OOMs
여기까지 OK. 스케일링 법칙에 따라 컴퓨팅이 늘어나면 AI의 지능이 예측 가능한 수준으로 개선된다는 것은 이해했어. 하지만, 영원히 데이터센터를 늘려나갈 수 없잖아?
Leopold는 단순히 하드웨어 투자로 인한 컴퓨팅 스케일업 외에 총 3가지 방법으로 “effective compute”이 지속적으로 증가할 것이라고 주장합니다.
- 컴퓨팅 스케일업: 더 큰 컴퓨팅 클러스터 구축
- 알고리즘 효율화: LLM을 학습하는 방식이 더욱 효율적으로 개선되면서 “compute multiplier” 효과를 냄
- Unhobbling: LLM의 역량을 unlock 해주는 다양한 방법들이 계속 나올 것 (e.g. RLHF, CoT, function calling, scaffolding 등)
예를 들어, GPT-3는 2020년 출시 되었지만, RLHF 학습으로 alignment-tuning이 된 ChatGPT가 2021년에 출시되면서 사람들이 실질적으로 유용성을 느끼고 본격적으로 사용되기 시작
그리고 이 3가지가 향후 3년간 지속적으로 “effective compute”을 늘려줘 2027년까지 총 약 3~6 OOM 스케일업이 예상되며, GPT-2에서 GPT-4 급 스케일업 (100,000x)이 가능할 것으로 예측하고 있습니다.
유치원생에서 똑똑한 고등학생이 탄생한 스케일업 수준이니 이 정도 스케일링이라면 PhD 급 지능이 가능하지 않을까요?
1. 컴퓨팅 스케일업
컴퓨팅 스케일업은 역사적으로 연간 약 0.5 OOMs 증가하였습니다.
컴퓨팅 스케일업으로 연간 0.5 OOM 증가가 된다면 아래와 같은 클러스터 및 CapEx 투자와 전력이 필요할 것으로 예상됩니다.
2024년엔 100,000 H100 클러스터가 예상됩니다. 이미 일론 머스크의 xAI는 Grok 3 학습을 위해 100,000 H100 클러스터를 구축하고 있다고 보도된 바 있죠(링크). Meta의 저커버그는 2024년 말까지 컴퓨팅 인프라 내 350,000 H100을 확보할 것이라고 얘기하기도 했습니다(링크).
아마존은 펜실베이니아 내 1GW 데이터센터를 인수한 바 있고(링크), 루머에 따르면 일론 머스크는 1GW, 1.4백만 H100 equivalent 클러스터를 Kuwait에서 짓고 있다고 합니다(링크). 마이크로소프트와 오픈AI는 2028년 완공 예정인 $100B 클러스터를 구상 중이라고 합니다(링크).
컴퓨팅 스케일업은 단순 탁상공론이 아니라 최고 AI 전문가들 및 리딩 기업들이 실제로 천문학적인 돈을 투자하는 엄연한 사실입니다.
2027년까지 적어도 +2 OOM 증가, 어쩌면 +3 OOM 증가가 가능할 것으로 보입니다.
2. 알고리즘 효율화
앞서 언급드린 바와 같이 단순 컴퓨팅 증가만이 방법이 아닙니다. 알고리즘 효율화도 똑같이 중요한 “effective compute multiplier”입니다.
아래 표는 MATH 벤치마크에서 50% 점수를 받기 위해 사용된 인퍼런스 비용입니다. 2년만에 비용이 약 3 OOMs (약 1,000배) 감소하였습니다.
Leopold는 인퍼런스 비용 효율화가 학습 효율성과 직접적인 관계가 없을 수도 있다는 사실을 인정합니다. 그럼에도 불구하고 알고리즘 효율화에 대한 엄청난 연구와 성과가 있다는 것을 보여줍니다.
그럼에도 불구하고 개인적으론 Leopold가 이 내용을 근거로 삼은 이유엔 분명히 이유가 있을 것으로 추측하고 있습니다. OpenAI 팀 전 멤버로써 직접 내부정보를 공개할 수는 없지만 인퍼런스 비용과 트레이닝 효율화 간 연관성을 봤을 것으로 보고 있습니다.
Trust the Trendline
알고리즘 발전은 똑같은 성능를 내기 위해 더 낮은 컴퓨팅 자원을 사용하는 것으로 볼 수 있습니다. 예를 들어, 같은 성능를 내기 위해 10x 낮은 학습 컴퓨팅을 사용했다면 이 알고리즘 발전은 약 1x OOM 효과인 것이죠.
현재까지의 AI 발전 성과를 보면 우리는 지속적으로 알고리즘 효율화를 달성했습니다. 물론 개별 국가, 연구소, 기업 내에 성과들이 파편화 되어 있고, 일회성처럼 보일 수 있지만 꽤 장기적으로 consistent하게 알고리즘 발전을 해내었습니다. 이를 가장 직관적으로 보여줄 수 있는 것이 ImageNet입니다.
위 차트와 같이 알고리즘 발전 덕분에 더 적은 양의 컴퓨팅과 데이터로 똑같은 성과를 낼 수 있었습니다. ImageNet 성과에 따르면 2012년에서 2019년 사이 약 0.5 OOM의 알고리즘 효율화가 있었습니다.
이대로라면 2027년까지 알고리즘 발전만으로 약 2 OOMs 증가 (100x 스케일업)이 가능할 것을 보여줍니다. 아쉽게도 이젠 OpenAI, Anthropic 등 주요 리딩 연구소들이 이러한 데이터를 공개하지 않아 알고리즘 발전이 지속되고 있는지 최신 데이터로 확인하기 어렵습니다.
하지만 우린 거대 AI 모델의 인퍼런스 비용 효율화 트렌드를 proxy로 삼아 알고리즘 효율화 성과를 유추해볼 수 있습니다.
- 처음 출시했을 때, GPT-4는 매우 높은 성능 업그레이드에도 불구하고 출시 시점의 GPT-3와 똑같은 가격이었습니다 (GPT-3: $60/1M tokens, GPT-4: $30/1M input tokens and $60/1M output tokens). 매우 단순히 계산한다면, 총 effective compute 스케일링 중 알고리즘 효율화가 약 50%의 OOM을 차지했다고 생각할 수 있음
부연 설명) GPT-3를 1B 파라미터 모델이라고 침. 원래 같으면 GPT-4 모델 성능을 구현하기 위해선 10x 컴퓨팅 스케일링 및 파라미터 스케일링이 필요. 파라미터 스케일링은 필연적으로 인퍼런스 비용을 비슷한 비율(10x)로 증가시킴. 하지만, GPT-3와 GPT-4의 인퍼런스 비용이 같음.
매우 단순하게 본다면, GPT-4의 인퍼런스 비용이 GPT-3와 비슷할 수 있는 이유는 적어도 50%의 알고리즘 효율화가 있지 않았을까 추측할 수 있음.
- GPT-4 첫 출시 이후 GPT-4 급 모델 가격은 6x/4x (input/output) 싸짐
- 최근 출시된 Gemini 1.5 Flash는 GPT-4 레벨 퍼포먼스를 보여주며 가격은 85x/57x 쌈
- 이 외에도 아키텍처, 데이터, 트레이닝 스택 등 여러가지 개선들을 진행해 왔었음
공개된 모든 정보들을 취합해보면 GPT-2에서 GPT-4 사이 알고리즘 효율화로 약 1~2 OOM 증가가 있었고, 2023년부터 2027년까지 이 트렌드는 지속될 것으로 예측됩니다 (연간 0.5 OOM).
3. Unhobbling
Unhobbling의 “effective compute” OOM을 수치화하기 매우 어렵지만서도 여전히 매우 중요합니다.
이미 LLM엔 어마어마한 지식들이 학습되어 있기 때문에 생각보다 매우 간단한 알고리즘 tweak로 어마어마한 역량을 끄집어 낼 수 있습니다.
예를 들어, 단순 Prompt Engineering 만으로도 더 자세하고 정확한 답변을 유도할 수도 있고, RLHF를 통해 전세계 사람들이 사용하는 ChatGPT라는 Q&A 어플리케이션을 만들 수도 있습니다.
Reinforcement Learning from Human Feedback (RLHF), Chain of Thought, Scaffolding, Tools, Context Length, Post-training Improvements 등
향후 우리의 AI 상호작용은 단순 LLM 챗봇보다 더 어렵고 다양한 작업을 대신 수행해 줄 수 있는 에이전트 형태로 발전해 나갈 것으로 생각됩니다. 이를 위해선 Unhobbling 개선이 필수적입니다.
METR에 따르면 GPT-4 베이스 모델에서 “unhobbling”을 했을 경우, 에이전트 작업 수행률이 5%에서 40%까지 개선되었습니다.
물론 이 개선을 “effective compute scale-up”으로 수치화하기엔 무리지만, 오늘날 많은 AI 어플리케이션과 사용성을 제한하는 것은 모델의 지능 문제라기보단 이 “unhobbling” 문제라고 볼 수도 있을 만큼 AI 발전에 매우 중요한 부분입니다.
Conclusion
2019년부터 현재까지 AI 발전에 대한 원인 분석
현재부터 2027년까지 OOM 스케일업 프로젝션
So What?
위 내용을 종합해보면 2027년까지 GPT-2~GPT-4 사이즈 스케일업이 가능할 것으로 보입니다. 그렇다면 2027년엔 무엇을 기대해볼 수 있을까요?
2027년까진 PhD 급 지능이 가능할 것이며, 에이전트화까지 “unhobbling” 되면서 오히려 AI 연구분야를 자동화할 수 있는 현실을 생각해볼 수도 있겠습니다.
마무리하며…
Leopold는 AGI를 달성하기까지 여러가지 챌린지와 현실적인 어려움이 있을 것이며 본인이 높은 확률로 틀릴 수 있다는 사실을 인정합니다. 다만, 지금까지 트렌드라인은 지속되어 왔고, 이 거대한 흐름이 갑자기 멈출 것이라고 생각하는 것이 오히려 더 비합리적인 wishful thinking일 수도 있겠습니다.
정말 가까운 미래에 정치인들이 Universal Basic Compute에 대해 진지하게 토론하는 장면을 목격하게 될 수도 있습니다. 단기적으로 더 중요한 것은 AI는 반도체, 에너지, 국방력처럼 국가의 전략적 자산인 것을 인지하고 소베린 AI를 진지하게 고민할 시기가 아닌가 싶습니다.
스타트업 종사자 및 벤처투자자들을 위해 작은 오픈채팅방(<200)을 개설했습니다. 단순 뉴스클립이 아니라 깊은 공부와 고민이 필요한 주제에 대해 다뤄볼 예정입니다.
*익명 참여 가능, 광고 X, 스팸 X
카톡방 링크: jasonlee snippets 오픈채팅방
내용 예시: Archive 링크
Share article