스타트업 종사자 및 벤처투자자들을 위해 작은 오픈채팅방을 개설했습니다. 단순 뉴스클립이 아니라 깊은 공부와 고민이 필요한 주제에 대해 다뤄볼 예정입니다.
*익명 참여 가능, 광고 X, 스팸 X
카톡방 링크: jasonlee snippets 오픈채팅방
PW: 0852
내용 예시: Archive 링크
최근 시장 내 DeepSeek 관심도가 높고 노이즈도 많아서 공부하는 차원에 짧은 글 작성해봤습니다.
딥시크에 대한 오해
최근 DeepSeek가 화재입니다. R1 출시 이후 Nvidia, Marvell, SK하이닉스 등 반도체 회사들의 주가가 크게 하락했습니다. 모든 언론사들은 DeepSeek의 $6M 학습 비용을 거론하며 스케일링 법칙이 깨졌고, 더 이상 거대한 컴퓨팅 클러스터의 니즈가 없어졌기 때문이라고 합니다.
진단이 틀렸습니다.
$6M이란 숫자는 헤드라인 뽑기엔 매우 좋지만 misleading한 수치이죠. $6M은 final training run에만 사용된 비용이고, 같은 방식으로 OpenAI의 o1 모델 학습비용을 apples-to-apples 비교한다면 $15M, 즉 별다를 게 없는 수준입니다.
뿐만 아니라 SemiAnalysis에 따르면 딥시크의 전체 서버 CapEx (약 50,000 hopper GPU + 10,000 A100)는 $1.3B, 총 TCO (4년 운영 가정)는 약 $2B(!) 수준입니다.
물론 거대 기업들 대비 제약은 있었겠으나 언론이 포장하는만큼 GPU 리소스가 적은 곳은 아닙니다. 게다가 이 수치는 미국 수출규제를 우회해서 확보한 GPU 숫자는 포함되어 있지 않겠죠.
스케일링 법칙은 끝인가?
스케일링 법칙과 GPU 수요는 여전히 건재하다고 생각됩니다.
빅테크 기업들은 CapEx에 지속적으로 투자하고 있고, 최근 OpenAI 컨소시엄이 $500B 규모 스타게이트 프로젝트를 발표하기도 했었죠. 여전히 smart money는 언론이 주장하는 것과 달리 scaling과 inference를 위해 돈을 쏟아 붇고 있습니다.
R1을 비롯한 추론(reasoning) 모델들이 나오기 전엔 한동안 많은 옵저버들이 “pre-training has hit a wall”라고 얘기했었습니다. 학습 컴퓨팅을 기하급수적(exponential increase)으로 늘려야만 linear한 퍼포먼스 업그레이드를 기대할 수 있었고, 이는 현실적으로 지속가능하지 않기 때문입니다.
하지만 젠슨 황이 발표했듯이 scaling law엔 pre-training 뿐만 아니라 총 3가지(post-training, inference-time scaling)의 레버가 있고, 나머지 2개에 대해 우린 이제 막 scratching the surface하고 있습니다.
오히려 DeepSeek는 스케일링 법칙을 disprove한 것이 아니라 reinforce 했다고 봐야겠습니다. 알고리즘적 혁신으로 계속 효율적인 방법을 찾아내면서도 조금이라도 더 많은 intelligence와 capability를 위해 scaling 기차는 계속 전진할 것으로 믿습니다.
Scaling law는 건재합니다.
그럼 내 주식은 왜…?
DeepSeek가 불러온 것은 GPU의 수요조정이 아니라 중국 AI 개발능력에 대한 재평가, 그리고 그에 따른 미국 정재계 내 경각심일 것으로 판단됩니다.
다른 모델들을 단순 배꼈다면서 DeepSeek 개발역량을 폄훼하는 사람들도 많지만 확실히 훌륭한 모델과 연구성과인 것은 맞습니다. 더 큰 모델의 아웃풋을 이용하는 distillation 또한 능력이고, 그 외 알고리즘적 혁신과 시도(MTP, MLA 등) 또한 평가 받아야 합니다.
중국 업체인 DeepSeek의 약진으로 미국 정재계 내 알람을 울렸고, 트럼프 행정부는 더욱 적극적으로 중국에 흘러들어가는 GPU 물꼬를 틀어막을 것으로 예상됩니다.
미국의 중국 GPU 수출금지 이후 엔비디아의 싱가포르 고객향 매출이 9% 수준에서 현재 22%까지 급등
미국과 중국은 선포만 안 했을 뿐, 전쟁 중입니다. 틱톡 사례에서 봤듯이 중국에 대한 경계심은 어느 한 정당의 진영논리가 아니라 bipartisan한 움직임이며, 중국 때리기는 계속해서 힘을 얻을 것이고, 엔비디아와 같이 국가 안보와 첨예한 기업들의 불확실성은 중단기적으로 커질 것으로 생각됩니다.
이번 DeepSeek 사태 이후 중국 때리기(?) 파는 크게 힘을 얻었고, 반도체 주가 하락의 주요 원인은 HPC에 대한 관세, 수출금지 등 조치가 선반영되었을 것으로 봅니다. 뿐만 아니라 장기적으로 봤을 땐 일각에선 중국이 칩에 대한 첨단기술을 자체적으로 개발할 니즈가 커져 국제 서플라이 체인에서 독립하는 리스크도 있죠.
이 소식에 웃는 사람들
이 소식으로 기뻐할 자들은 누가 있을까요?
빅테크 기업들은 GPU 확보와 클라우드 판매에 거대한 경쟁자가 하나 없어졌으니 좋겠죠. GPU 수출규제에 덧붙여 최근 오픈소스 모델에 대한 규제 여론 또한 거세지고 있으니 거대모델 회사들 (구글, 오픈AI, Anthropic 등) 또한 기분 좋을 것입니다.
가장 무서운 것은 “regulatory capture”으로 인해 incumbent(대기업)들이 더욱 강한 moat를 갖게 되고, 오픈소스 커뮤니티와 작은 스타트업들이 힘을 잃게 되는 결말입니다. 이러한 움직임에 경계해야 할 것입니다.
Bill Gurley의 Regulatory capture에 대한 키노트
AI 스타트업 생태계 내 영향
하지만 정치적 향방은 둘째 치고 DeepSeek 현상만 놓고 본다면 AI 스타트업들에게 매우 좋은 소식입니다. 마치면서 몇가지 시사점을 정리해봤습니다:
- 어떤 한 시점에 최고 frontier 모델 외 모델의 사용비용은 0으로 수렴할 것입니다. 오픈소스가 급격히 frontier 모델을 따라잡는 상황에서 frontier 모델 외에는 pricing power가 없고, bare metal (GPU) + 매우 작은 마진에 대한 비용만 지급할 것으로 예상됩니다.
- AI의 비용이 0에 수렴함에 따라 전통 SaaS 가격모델이 그대로 유지될 수도 있겠습니다. 기존엔 API 콜 비용이 워낙 크다보니 정액제 (per seat) 모델은 지속가능하지 못하고 usage-based만 가능할 것으로 생각했는데, 비용이 지속적으로 감소함에 따라 AI 시대에서 정액제로도 기존 SaaS와 비슷하게 80~90% 마진이 가능하지 않을까 싶습니다.
- AI 어플리케이션 회사들이 많아질 것입니다. AI 사용비용이 낮아짐에 따라 사용량은 기하급수적으로 성장할 것(Jevon’s Paradox)으로 예상합니다. AI 회사들의 API를 사용하여 패키징한 어플리케이션 회사들을 “GPT Wrapper”라고 놀림을 당했었지만, 오히려 반대로 모델 회사들이야말로 moat가 없는 “wrapper”일 수도 있겠습니다. AI 어플리케이션 회사들은 underlying 모델의 차별화보다 UI/UX 등 사용자 경험과 workflow에 대한 이해도가 차별점이 될 것으로 예상합니다.
Share article
Subscribe to my newsletter