Introduction
최근 Sebastian Mallaby의 The Power Law를 읽으면서 매우 감명 깊게 읽은 글귀 공유 드립니다. 1994년 Kleiner Perkins의 John Doerr의 웹 브라우저 회사 Mosaic Communications (later Netscape) 투자에 대한 view입니다:
…tech startups are founded upon technologies that may themselves progress exponentially… As a young engineer at Intel, he had seen how Moore’s Law transformed the value of companies that used semiconductors: the power of chips was doubling every two years, so startups that put them to good use could make better, cheaper products. For any given modem, digital watch, or pc, the cost of the semiconductors inside the engine would fall by 50% in two years, 75% in four years, 87.5% in eight… Mosaic, and the internet more generally, turbocharged this phenomenon. Again, Doerr grasped this better than most others. As well as working at Intel, he had known Bob Metcalfe, so he understood that Metcalfe’s Law (i.e. network effect). Rather than merely doubling in power every two years, as semiconductors did, the value of a network would rise as the square of the number of users. Progress would thus be quadratic rather than merely exponential; something that keeps on squaring will soon grow a lot faster than something that keeps on doubling. Moreover, progress would not be tethered to the passage of time; it would be a function of the number of users. At the moment when Doerr met Clark, the number of internet users was about to triple over the next two years, meaning that the value of the network would jump ninefold, an effect massively more powerful than the mere doubling in the power of semiconductors over that same period. What’s more, Metcalfe’s law as not supplanting Moore’s law… it was compounding it. The explosion of internet traffic would be fueled both by its rapid growth in usefulness (Metcalfe’s law) and by the falling cost of modems and computers (Moore’s law).
무어의 법칙과 메트칼프의 법칙은 미래 기술 발전에 대해 놀라울 정도로 정확했습니다. John Doerr와 같이 반도체의 발전속도와 인터넷의 네트워크 가치를 예측한 VC와 창업자들은 큰 돈을 벌었습니다 (Netscape, Google, Intel 등).
역사를 돌이켜 보면 시대의 가장 중요하고 valuable한 회사들은 해당 시대의 주요 기술 발전과 사회적 paradigm shift를 강한 원동력 삼아 가치를 만들어나갔습니다. 그런 회사들의 가치는 ceiling(천장)이 없습니다.
역사적으로 여러 버블이 있었음에도 불구하고 “핫” 산업 내 스타트업에 돈이 몰리는 이유죠. Power Law에 따라 VC의 포트폴리오사가 모두 망하더라도 하나만 “next Mosaic,” 또는 “next Google”이면 loss를 메꾸고도 남기 때문입니다.
Venture-captial returns are dominated by grand slams partly because of the dynamics of startups: most young businesses fail, but the ones that gain traction can grow exponentially… In August 1995, Mosaic went public. At the close of the first trading day, Kleiner’s original $5 million stake was worth $293 million. As Netscape’s stock climbed further, Kleiner soon found itself sitting on profit of $500 million; it had achieved a multiple of 100x… In the face of this sort of bonanza, it really didn’t matter how many Kleiner bets went to zero.
기술은 가까이서 보면 너무 어렵고 복잡합니다. 그렇기 때문에 미래를 예측하는 일은 더더욱 어렵습니다. 현재 기술은 어떻고, 지정학적 움직임은 저렇고, 리스크는 이렇고 등등 미래 일어날 일들은 multivariable function (다변수함수)입니다. 우리는 이 모든 변수에 대해 제대로 이해하고 예측할 수 있는 능력이 없습니다.
하지만, 투자 뿐만 아니라 창업, 정치 등 영역에선 어느 정도 미래를 가늠해 볼 수 있는 framework이 매우 중요합니다.
무어의 법칙과 메트칼프의 법칙은 놀라울 정도로 단순합니다. Multivariable calculus를 단 하나의 변수(메트칼프 법칙 - 사용자 수, 무어의 법칙 - time)로 미래를 꽤 정확하게 예측합니다. 이를 활용하여 미래를 예측하고, 대비하고, 투자할 수 있습니다.
지금 당장 어렵고 난해해 보일 수 있지만, zoom-out해서 미래를 그려보면 매우 단순하고, 해당 프레임워크를 이용해서 현재 decision-making에 반영할 수 있습니다.
Scaling Law (스케일링 법칙)
(투자자의 관점으로) 이 글을 읽으면서 그렇다면 현재와 중장기적 미래(10~20년)의 예측을 도울 수 있는 법칙이 무엇이 있을까를 고민하게 되었습니다. 가장 먼저 생각난 법칙이 Scaling Law입니다.
그래서 OpenAI의 Scaling Laws for Neural Language Models (link)를 공부해봤습니다. 논문정리는 저보다 내용을 잘 이해하시는 많은 분들이 많이 공개해주셔서 focus하지 않겠습니다.
제목에서 유추해보실 수 있듯이 논문의 주요 내용은 세 가지 척도 - 파라미터(N), 데이터셋(D), 컴퓨팅 자원(C)을 스케일링함에 따라 성능(measured by cross-entropy loss)을 예측 가능하게 올릴 수 있다 입니다.
2020년 1월에 공개된 Scaling Law는 아직까지도 진행 중 (no end in sight)입니다. 그렇기 때문에 OpenAI 뿐만 아니라 frontier AI 회사들은 모두 스케일링 법칙에 따라 더 큰 데이터셋, 컴퓨팅 자원, 모델 사이즈로 모델 성능을 업그레이드 하고 있습니다.
Meta는 2024년 말까지 350,000 H100 GPU를 보유할 예정(link)이며 Elon Musk의 xAI는 Grok 3를 100,000 H100 GPU (link)로 학습할 예정이라고 하죠. 더 큰 모델을 학습하기 위함입니다.
Frontier AI 모델 사이즈는 지속적으로 기하급수적으로 커질 것으로 예상할 수 있습니다. 중간중간에 지속적으로 3가지 척도(N, D, C)에 대한 바틀넥은 풀어나가야 하겠지만요.
Small vs. Large
최근 모델 생태계 내에서 Open-souce vs. Closed 외에도 새로운 divergence가 생겼습니다. 가장 펀딩과 자원이 많은 frontier AI 모델사 (Anthropic, OpenAI, xAI, Meta)는 기하급수적으로 모델을 키우는 반면에 그 외 회사들은 한정된 컴퓨팅 자원 안에서 작은 모델을 학습하는 플레이어들로 나뉩니다.
Snowflake Arctic, Microsoft Phi 시리즈, Llama-3 8B, Mistral 등 모델들이 이런 카테고리에 들어가겠죠. 작은 사이즈 대비 높은 퍼포먼스를 강조하기 위해 해당 회사들은 벤치마크 비교에서 “Active Parameters”를 X-axis로 두기 시작했습니다. Active parameters가 낮으면 인퍼런스 단계에서 가격 부담이 덜하니 “performance per cost”라고 봐도 무방합니다.
사용자 입장에서 작은 모델 사이즈를 선호할 이유는 아래와 같습니다:
- Active parameter가 낮은 관계로 inference 비용과 latency가 낮음
- Fine-tuning이 필요할 경우, 작은 모델의 fine-tuning 비용이 낮음
- 작은 모델일 수록 self-host가 쉬워짐 (edge device 등) —> also can mitigate privacy/security risk
하지만, 개인적으로 pure-LLM 회사가 스몰 모델만 집중하는 것은 그닥 exciting한 시장 기회라고 보여지지 않습니다.
Small 모델은 by definition:
- 누구나 참여 가능하기 때문에 경쟁이 너무 많고 (closed + open 포함)
- Closed, 또는 frontier 모델 대비 성능 및 capability에서 밀리기 때문에 매우 버티컬 use-case (limited downstream use cases)에만 사용할 것으로 예상됨
물론 위 value proposition도 훌륭하지만 SLM 시장은 많은 부분 incumbent (ServiceNow, Notion, Apple 등)가 기존 distribution을 활용해 현금화할 것으로 보입니다. 현재 Small 모델을 연구하고 출시하는 회사들 (Snowflake, Databricks, Apple, Meta)만 봐도 유추해볼 수 있습니다. 이들은 해당 모델을 기존 사업에 덧붙여 현금화 할 수 있는 기회가 있습니다.
베타적으로 소유한 매우 특별한 데이터를 보유하지 않는 이상 이 영역에서 Mistral 같은 pure AI 모델 플레이를 하는 회사들의 위치가 애매하다고 생각합니다. 매우 훌륭한 회사임에도 불구하고 개인적으로 Mistral이 향후 전략을 어떻게 가져갈지 매우 궁금합니다.
그렇기 때문에 개인적으론 모델 플레이어라면 Scaling Law에 따라 큰 모델 (AGI)로 승부보는 플레이어가 win할 것으로 내다보고 있습니다. AI 어플리케이션이라면 프로덕트 use case와 사용자에 맞춰 small과 large, open과 closed 중 전략적인 선택(most likely use both)을 하면 되겠죠.
Scale to AGI
지속적으로 모델을 scaling 하는 방식에 대해 회의적인 시각도 많습니다:
- 조만간 데이터셋, 에너지 등 바틀넥에 가까워 질 것임
- 금방 depreciation 될 자산에 너무 많은 자원이 들어가기 때문에 돈 떨어져서 망할거임
- Inference 시 레이턴시와 비용이 너무 큼
- Autoregressive transformer 아키텍처는 비효율적이고 다른 아키텍처로 대체될 것임 등등
당연히 이 과정에서 망하는 회사도 많을 것으로 생각합니다 (Inflection AI 사례). 하지만, 전체적인 방향성에 대해서 개인적으로 위 문제는 큰 문제가 아니라고 생각합니다.
압도적인 성능의 AI 모델(AGI?)에 대한 willingness to pay는 ceiling이 없다고 생각합니다. 또한, 만약에 autoregressive transformer 아키텍처를 대체할 수 있는 새로운 무언가 (e.g. Mamba?)가 있다 하더라도 해당 breakthrough를 가장 잘 leverage 할 수 있는 회사들은 컴퓨팅 자원, 데이터셋, 인적자원을 보유한 frontier AI 회사라고 생각합니다. 결국엔 트랜스포머든, 맘바이든 간에 스케일링은 불가피하기 때문이죠.
주로 많이 인용되는 criticism은 아래와 같은 그래프를 보여주면서 “모델의 학습비용은 기하급수적으로 증가하는 반면에 성능은 선형적으로 증가한다”라고 말합니다.
GPT-3 학습비용은 $4.6M, GPT-4는 $100M+; 학습비용은 20배 증가하였는데 성능은 선형적으로 증가함
이러한 주장이 missing하는 것이 있습니다. Evaluation metric (y-axis)가 잘 못 설정 되었습니다.
Evaluation metric을 중간고사 같은 benchmark(LAMBDA, MMLU 등)를 사용한다는 것은 full-picture를 보여주지 못합니다. 이는 사람의 연봉심사를 고등학교 수학시험으로 하는 것과 똑같다고 생각합니다. 하나의 척도가 될 수도 있겠지만 그 사람이 회사에 기여하는 진정한 가치를 보여주지 않죠.
좀 더 적절한 평가방식은 utility (사용성)라고 생각합니다. 사용성으로 평가한다면 GPT-2와 GPT-3, 또 GPT-3와 GPT-4 사이 몇 배의 step-change function이 있었죠. “수학시험”으로 평가할 수 없는 가치가 분명히 있습니다. 다만, “사용성”이란 것을 어떻게 quantify하고 정의할지는 다른 문제입니다.
사용성을 quantify 하는 방법 중 매출, 사용자 수 등 시장지표를 활용하는 것도 방법이 아닐까요?
이러한 step-change function을 볼 수 있는 다른 방법은 “emergent ability”입니다. 모델 사이즈를 키워보니 작은 파라미터 수의 모델에서 볼 수 없었던 새로운 능력이 추가된다는 내용입니다. Scaling이 지속될 수록 우리는 상상할 수 없었던 더 많은 “emergent ability”가 추가될 것이며 이는 또 다른 사용성의 step-change function일 것 입니다.
최근 리서치에 따르면 위 그래프와 같이 모델을 키울수록 “갑자기” 나타나는 현상은 아니라고 하지만 적어도 모델을 평가할 땐 너무나 다양한 방법이 있다는 것을 알려줌
Emergent Abilities of Large Language Models (Jun 2022) - 링크
Conclusion
Scaling Law가 중요하다는 가정 하에 벤처투자자는 이 내용을 어떻게 활용할 수 있을까요?
AI와 벤처 생태계에 대한 다양한 내용을 메일로 받아보고 싶으신 분들은 아래 Subscribe 부탁드립니다.
Share article
Subscribe to my newsletter