오픈AI 비장의 무기: Strawberry는 무엇인가?

Aug 31, 2024

Contents

TL;DR 오픈AI와 AI시장에 향하는 의심의 눈초리 AI 회의론 AI의 붉은 여왕 가설 Strawberry(aka Q*)는 무엇인가?왜 놀라운가?Strawberry의 역사 Strawberry… 그리고 Project Orion(오리온)Conclusion

TL;DR

현재 시장은 AI의 ROI에 대한 우려가 많다. Nvidia의 주가 움직임과 빅테크 임원들의 코멘트에서도 이러한 우려가 점차 커져간다는 것을 느낄 수 있다.

“합리적으로 가까운 시간 내(3~5년)로 AGI가 도달 가능할 것인가? 불가능할 것인가?” 이 질문의 답에 따라 Nvidia의 주가 및 빅테크 기업의 CapEx spending이 지속가능하냐 안하냐가 결정될 것이라고 생각한다.

또한, 최근 AI 모델들의 성능이 converge 하면서 1) commoditization과 2) 성능 plateau에 대한 의심이 우려를 더욱 증폭하고 있다.

단기적으론 이러한 우려를 잠식시키기 위해선 GPT-3에서 GPT-4 급의 step-level function 급 성능 개선이 있어야 된다고 생각한다.

OpenAI의 Project Strawberry (구 Q-star)가 이 step-level change를 보일 수 있는 technical breakthrough로 보여진다.

Q*는 OpenAI가 개발한 비공개 AI 모델로 학습 되지 않은 초등 수준의 수학문제를 풀 수 있다고 전해져 큰 관심을 이끌었다.

별 거 아닌 것처럼 보이지만 이 사실이 놀라웠던 이유는 AI 모델이 수학문제를 풀 수 있다는 것은 곧 self-learning과 logical thinking 능력이 있다는 것을 증명하기 때문이다.

인간의 사고과정으로 비유해서 보면 현재까지 AI 모델은 System 1 thinking (즉흥적인 생각과 아웃풋)이었다면 Strawberry는 System 2 thinking (multi-step reasoning) 방식으로 구동된다고 추정할 수 있다.

Strawberry를 직접 사용하기엔 너무 무겁기 때문에 고퀄리티 합성데이터를 생성하고, 해당 데이터로 OpenAI의 새로운 frontier model인 Project Orion을 학습했다고 알려졌다. 이렇게 학습된 모델은 Hallucination 문제를 크게 개선할 수 있다.

이러한 최근 development를 바탕으로 OpenAI는 $100B+ 밸류 라운드를 진행 중이며 신규 투자자로 Apple과 Nvidia가 거론되고 있다.

OpenAI는 정부와 협조적인 stance로 GTM 전략 방향성을 확고히 하였으며 초거대언어모델 분야에선 해당 전략이 새로운 스탠다드가 될 가능성이 높다고 생각한다. AI safety, 국가 안보를 위해선 옳은 방향이라고 생각하면서도 censorship, regulatory capture 등도 우려된다.

오픈AI와 AI시장에 향하는 의심의 눈초리

최근 OpenAI 소식이 잠잠합니다.

GPT-5는 도대체 언제 나오는 것이냐?

올해 5월에 공개된 ChatGPT 보이스 모드는 언제 공개되는 것이냐?

Sora는 어떻게 된 것이냐?

GPT-4o mini 이후 눈에 띌 만한 product shipping이 없었습니다.

GPT-4o mini도 사실 underlying AI 모델의 획기적인 성능 개선보다 비용 절감 효과가 더 컸죠. 물론 비용절감도 매우매우 큰 성과이긴 하지만 OpenAI가 “AGI 회사”라고 강조하는 만큼 사람들은 next-level frontier 모델을 눈이 빠지게 기다리고 있습니다.

이 와중에 next frontier 모델에 대한 소식보다 새로운 컨슈머 어플리케이션인 SearchGPT만 공개합니다 (심지어 일부 사용자들의 피드백을 들어보면 꽤 부정적인 의견이 많습니다). 더 큰 소식을 기대한 사람들은 실망합니다.

또 최근엔 OpenAI 연구진 중 주요 인력들의 이탈도 있었습니다.

올해 5월 Ilya Sutskever, Jan Leike 등에 이어 최근엔 John Schulman, Greg Brockman (leave of absence), Peter Deng 등 OpenAI 주력 인사들이 이탈했습니다.

오픈소스(Llama-3)의 약진에 이어 최근 구글의 Gemini-1.5, xAI의 Grok-2, Anthropic의 Claude Sonnet가 OpenAI의 단일체재를 흔들면서 사람들은 얘기합니다: OpenAI는 끝인가?

그리고 사람들은 의심합니다: 혹시 우리가 AI에 대한 기대치가 너무 높은 것이 아닐까? AI 성능이 plateau하는 것이 아닌가?

AI 회의론

Nvidia는 상장시장 내 대표적인 AI proxy로 떠올랐습니다. 전체 매출 중 88%가 데이터센터 향 매출로 가장 직관적이며 pure하게 AI 익스포져를 가져갈 수 있는 종목이죠. 다르게 보자면 Nvidia의 주가 퍼포먼스를 보면 곧 AI 시장에 대한 시장 sentiment를 이해할 수 있습니다.

2년 동안 AI향 GPU 판매량을 나타내는 Nvidia의 데이터센터 매출의 성장은 전례 없는 고속 성장을 이어가고 있습니다.

2021년 2분기 불과 45%를 차지하던 데이터센터 매출은 현재 88%를 차지하고 2021년 2분기엔 분기 매출이 $1.8B 수준에서 데이터센터의 기하급수적 성장으로 현재(Q2 2025)는 $26B입니다. 데이터센터 매출이 거의 Nvidia의 모든 성장을 견인했죠.

💡

Nvidia’s fiscal year does not align with calendar year; Nvidia’s current fiscal year (FY2025) starts in 2024 February ~ 2025 January. Nvidia’s 2025 Q2 quarter ends in July 2024.

이러한 어마어마한 실적을 지켜보는 투자자들은 환호합니다. 주가는 치솟습니다.

하지만 최근 들어 시장 내 AI Capex spending에 대한 ROI 우려로 인해 약간의 제동이 걸렸습니다.

2024년 8월 28일 Nvidia 실적발표 이후 주가는 6.4% 하락합니다.

어닝 서프라이즈를 달성했는데도 불구하고 AI의 중장기적인 ROI에 우려를 표한 것으로 해석됩니다. 향후에도 데이터센터 CapEx spending이 유지 될 것인가에 대한 의문이 제기되었고, 성장률이 점차 decay하는 트렌드가 예상되기 때문입니다.

화제의 “AI의 $600B 문제” 블로그를 쓴 Sequoia 파트너 David Cahn은 승전보를 울립니다.

AI의 붉은 여왕 가설

최근 들어 AI의 ROI 문제가 수면 위로 올라왔습니다. 요즘 들어 빅테크 수장들은 어딜가나 ROI 문제에 대한 질문을 받습니다.

최근 Mark Zuckerberg, Sundar Pichai와 같은 빅테크 수장들의 코멘트가 더욱 ROI에 대한 리스크를 부각시켰죠.

I think that there’s a meaningful chance that a lot of the companies are overbuilding now and that you look back and you’re like, oh, we maybe all spent some number of billions of dollars more than we had to. - Mark Zuckerberg

When we go through a curve like this, the risk of underinvesting is dramatically greater than the risk of overinvesting for us here. - Sundar Pichai

현재 AI시장은 classic Red Queen Effect (붉은 여왕 가설)으로 설명된다고 생각됩니다.

💡

붉은 여왕 가설에 대해선 Altimeter Capital의 Jamin Ball의 글, 또는 아래 주요 요약 내용에서 더 자세히 읽어보실 수 있습니다.

Red Queen Effect - 주요 요약 내용

붉은 여왕 가설이란 계속해서 발전(진화)하는 경쟁 상대에 맞서 끊임없는 노력을 통해 발전(진화)하지 못하는 주체는 결국 도태된다는 가설이다.

예를 들어, 애플과 삼성 같은 거대 기업들이 끊임없이 새로운 스마트폰 모델을 출시하기 위해 경쟁하고 있다. 새로운 기능이나 기종이 즉각적으로 수익을 크게 증가 시키지 않더라도, 게임 이론 상 고객이 경쟁사의 최신 제품으로 전환하는 것을 방지하고 시장 점유율을 유지하기 위해 업그레이드가 필수적이다.

현재 AI는 매우 중요한 플랫폼 시프트로서 기업들은 AI에 투자하지 않으면 시장 점유율을 잃고 점차 obsolete 해질 위험이 있다.

경쟁업체가 AI에 투자하고 있으므로, 나도 속도를 맞추기 위해 투자해야 한다. 이러한 투자는 즉각적인 ROI에 나타나지 않지만 어쩔 수 없다.

경쟁자가 더 나은 사용자 경험을 제공하고 내가 그러지 못한다면, 중장기적으로 뒤처질 위험이 있다. AI의 궁극적인 보상이 우리의 현재 기대를 초과할 것이라고 나와 같이 믿는다면, AI에 대한 투자는 선택이 아니라 필수다.

투자하지 않으면 경쟁자에게 경주를 포기하고 시장 점유율을 잃는 것을 의미한다. 이것이 레드 퀸 효과.

즉, 기업들은 AI가 얼마만큼 리턴을 가져다 올 지 모르지만 투자하지 않으면 곧 죽는 것, irrelevant해지는 것을 의미합니다. 또, 빅테크 기업들 입장에선 AGI의 도달 시점은 물음표지만 AGI의 경제적 기회는 어마어마하기 때문에 지금 조 단위 투자와 비용은 잠재적 기회에 비교했을 때 아무 것도 아닙니다.

한 편으론 AI 회의론이 매우 공감됩니다. 빅테크 기업들이 아무리 돈이 많다 하더라도 CapEx에 합당한 리턴이 나오지 않는다면 영원히 돈을 퍼붓는 것은 지속가능하지 않기 때문입니다 (그렇다면 당연히 Nvidia 매출 성장률도 점차 decay 하겠죠).

게다가 최근 Frontier AI 모델 성능들이 converge하고, 성능 개선이 plateau하는 양상이 보이고 있기 때문에 이러한 우려는 더욱 가중됩니다.

“현재까지 AI 투자에 대한 ROI가 나오지도 않고, 모델의 commodification이 의심되고, 성능이 plateau하는 것으로 보이는데 여기서 몇 백 조를 더 투자하겠다고?”

단기적으론 이러한 우려를 잠식시키기 위해선 GPT-3 —> GPT-4 레벨의 step-level function 성능 점프가 요구될 것으로 보입니다.

Strawberry(aka Q*)는 무엇인가?

현재 침체된 AI 시장 분위기에 활기를 불어일으킬 수 있을만한 소식이 있습니다. 바로 OpenAI의 Strawberry(구 Q-star)라는 AI 모델입니다. 이 소식이 사실이라면 ROI 문제를 잠식시키고, AI 웨이브의 새로운 패러다임 시프트가 될 수 있을 것으로 추정됩니다. 네티즌들 사이 관심이 뜨겁습니다.

Q*는 OpenAI가 개발한 비공개 AI 모델로 학습 되지 않은 초등 수준의 수학문제를 풀 수 있다고 전해져 큰 관심을 이끌었습니다.

별 거 아닌 것처럼 보이지만 이 사실이 놀라웠던 이유는 AI 모델이 수학문제를 풀 수 있다는 것은 곧 self-learning과 logical thinking 능력이 있다는 것을 증명하기 때문입니다.

즉, 사람들이 기다리는 GPT-4 레벨 급에서 다음 frontier로 넘어갈 수 있는 scientific breakthrough일 것이라고 추정됩니다.

왜 놀라운가?

기존 LLM은 자연어 처리에 특화되어 있습니다. 아키텍처 상 pattern-recognition을 기반으로 next-token prediction을 수행하는 LLM은 정형화된 로직과 추론이 요구하는 수학에 취약합니다.

예를 들어, LLM은 많은 학습 데이터를 통해 2+2=4라는 것을 외울 수는 있지만 왜 답이 4인지 이해하지 못합니다. 또한, 학습데이터가 부족하거나 없는 경우, non-deterministic 컴퓨터로써 가장 높은 확률의 토큰을 아웃풋만 하지, 직접 이해하거나 푸는 노력을 하지 않습니다.

학습되지 않은 수학문제를 풀 수 있다는 것은 Q*이 새로운 알고리즘으로 외부 도움(e.g. 학습데이터, few-shot prompting, function calling 등) 없이 문제를 풀기 위해 직접 추론하고 배울 수 있는 능력(logical thinking and self-learning)이 있음을 암시합니다. 즉, AGI를 위해 필수 요구사항이자 가장 큰 난제인 hallucination 문제를 해결할 수 있다고도 볼 수 있죠.

인간의 사고과정(Daniel Kahnemann - 생각에 관한 생각)로 비유해서 보면 현재까지 AI 모델은 System 1 thinking (즉흥적으로 생각이나 planning 없이 바로 답변하는 것)이었다면 Q*은 System 2 thinking (복잡한 문제 해결을 위한 의식적이고 논리적인 사고; multi-step reasoning)으로 구동되는 알고리즘을 사용한다고 볼 수 있을 것입니다.

이는 단순 Prompt Engineering 수준 (e.g. think step by step)의 CoT와 ToT가 아니라 이러한 기능들이 AI 모델 내 알고리즘에 natively built-in 되어 있고, AlphaGo와 비슷하게 self-play 방식, 또는 STaR(boostrapping reasoning)와 유사한 방식을 통해 지속적인 self-learning과 step-by-step reasoning을 진행하는 것으로 추정됩니다.

💡

STaR: Self-Taught Reasoner - Boostrapping Reasoning with Reasoning (paper)

Strawberry의 역사

Strawberry가 처음 공론화 된 것은 2023년 11월입니다. 그 당시엔 Q* (Q-star)라는 이름으로 알려졌죠.

2023년 11월은 Ilya Sutskever 필두로 OpenAI의 이사회가 갑작스럽게 Sam Altman을 해임하는 사건 시기와 맞물립니다 (OpenAI 쿠데타 정리). 그 당시 여러 인터뷰를 통해 Sam Altman은 OpenAI 내부에서 scientific breakthrough가 있었다는 내용을 암시했었죠.

해임 사건 이후 사람들은 “scientific breakthrough”가 Q*이며, AGI가 가까워졌고 Sam Altman의 리더십이 무모하다고 여긴 Ilya는 “인류를 위한 AGI”를 위해 쿠데타를 벌였다고 추정합니다.

💡

Q*이 무시무시한 이유는 self-learning이 가능하고 수학문제를 풀 수 있는 AI 모델은 더 많은 time과 compute가 주어질 경우, 이론적으론 모든 encryption을 풀 수 있습니다. Encryption(비밀번호, 개인정보, 온라인 대화, nuclear codes 등)은 곧 수학문제이기 때문입니다.

Some at OpenAI believe Q* could be a breakthrough in the startup’s search for what’s known as artificial general intelligence… Given vast computing resources, the new model was able to solve certain mathematical problems… Though only performing math on the level of grade-school students, acing such tests made researchers very optimistic about Q*’s future success. But conquering the ability to do math - where there is only one right answer - implies AI would have greater reasoning capabilities resembling human intelligence. - Reuters

물론 곧바로 Sam Altman이 다시 돌아오게 되었지만 “what did Ilya see” 밈은 여전히 회자되고 있죠.

무엇을 봤길래 그렇게 반응했을까???

그 이후 한창 잠잠하다가 Sam Altman의 트윗 하나가 다시 인터넷을 뜨겁게 달굽니다.

이와 더불어 “I Rule the World Mo”라는 익명의 미스테리 트위터 계정이 지속적으로 OpenAI의 Strawberry 프로젝트에 대한 힌트와 밈을 공유하면서 관심도를 더욱 키워갔죠. 짧은 시간 내에 몇 천 수준의 팔로워 수가 3만 팔로워로 늘었습니다.

이제 껏 까진 Project Strawberry는 단순 speculation과 밈으로만 소비 되다 하루 아침에 시장 참여자들은 갑자기 진지하게 받아들이기 시작했습니다. 8월 27일 The Information에서 Strawberry와 Project Orion에 대해 보도합니다.

Strawberry… 그리고 Project Orion(오리온)

해당 기사에선 OpenAI의 next frontier model인 Project Orion에 대해 다룹니다. 그리고 OpenAI가 올해 여름에 Project Orion을 국가안보 관계자들에게 데모를 한 것에 대해 얘기합니다.

💡

최근들어 OpenAI가 통상적인 private 기업보다는 정부기관과 협력하려는 노력에 대해 많이 보도되어 왔습니다. 전 NSA Chief인 Paul M. Nakasone을 이사회에 선임하기도 했고, 글로벌 Public Affairs 팀 (로비 팀)을 3명에서 50명까지 늘리겠다는 계획도 있죠. 생성형 비디오 모델인 Sora와 ChatGPT 내 보이스 모드 또한 misuse와 safety 이슈로 적어도 대선 이후로 공개하겠다는 말들도 많고, 현재 캘리포니아의 AI Safety Bill과 EU의 AI Act에도 정부 관계자들과 적극적으로 대화에 참여하고 영향력을 행사했다는 얘기가 있습니다. OpenAI가 빠르게 shipping 하지 않은 이유는 AI 모델 성능이 plateau하거나 R&D 노력이 stall 했기 때문이 아니라 어쩌면 정부와 긴밀하게 협력하고 신뢰 관계를 쌓기 위해 delay 하였다고 추정할 수도 있습니다. 그리고 AI safety 이슈가 국가적, 사회적 이슈로 부각되고 있는 와중에 이러한 roll-out 방식이 새로운 스탠다드가 될 가능성을 시사합니다.

Strawberry는 Project Orion을 학습할 합성 데이터를 생성하는데 사용된다고 알려져 있습니다. Strawberry 자체로는 돌리는데 너무나 많은 컴퓨팅 자원과 시간(system 2 thinking!)을 사용하기 때문에 Strawberry로 고퀄리티 합성 데이터를 생성하고, 해당 데이터로 모델을 학습해 hallucination을 줄인다고 합니다.

또, OpenAI 내부에서 Strawberry를 소형화하는 노력(distillation)도 있습니다. 여전히 무겁고 느려서 SearchGPT와 같이 즉각적인 답이 필요한 어플리케이션엔 적합하지 않지만 더 정확하고 thoughful한 아웃풋이 필요한 less time-sensitive use case (AI agent, coding 등)엔 어마어마한 유틸리티가 있겠죠.

💡

Think Perplexity normal search vs. pro search, but actually have multi-step reasoning natively built in the model instead of trying to replicate it through prompt engineering!

예를 들어 법률 컨설팅이 필요한 개인은 “속도”보다 “정확도” 및 “답변의 퀄리티”가 훨씬 중요하겠죠. System 1 thinking이 아닌 System 2 thinking이 요구되는 use case입니다. 이러한 고부가가치 use case의 경우, 사용자는 높은 퀄리티의 답변을 위해 시간이 10분이 걸리든, 1주일이 걸리든 크게 상관 없을 수 있습니다. 또, 이러한 서비스의 경우, willingness to pay (지불용의) 또한 실제 변호사 컨설팅 비용까지 converge할 것이라고 추정합니다.

💡

Strawberry’s slowness is not a bug. It’s a key feature!

Conclusion

루머에 따르면 Project Orion은 2024년 말 (11월 대선 이후)에 release할 것이란 얘기가 많습니다.

최근 Strawberry와 Project Orion에 대한 뉴스 이후에 OpenAI는 $100B+ 밸류로 몇 조 단위 펀드레이징을 진행 중이라고 하죠. Apple과 Nvidia가 신규 투자자로 거론되고 있습니다.

OpenAI에 대해 한동안 말이 많았습니다. Shipping은 안하고 데모만 공개할 뿐이고, 그 와중에 경쟁사들이 모델 성능을 대폭 끌어올리면서 오픈AI는 죽은 것이 아니냐라는 말이 많았습니다.

제 생각은 다릅니다.

앞서 말씀드린 근거를 바탕으로 OpenAI의 GTM 전략은 정부기관과 협력하여 그들의 요구사항에 맞춰 roll-out하고, 향후 무조건적으로 다가올 regulation을 대비해 같이 shaping하고 stay ahead of the curve하는 방향성을 잡았다고 생각합니다. 이러한 전략이라면 급하게 새로운 모델을 roll-out 했다가 정부 관계자들 눈 밖에 날 일을 안하는 것이 상책이겠죠.

OpenAI는 정부와 협조적인 stance로 GTM 전략 방향성을 확고히 하였으며 초거대언어모델 분야에선 새로운 스탠다드가 될 가능성이 높다고 생각합니다. AI safety, 국가 안보를 위해선 옳은 방향이라고 생각하면서도 한 편으론 censorship, regulatory capture, 과도한 정부개입 등도 우려됩니다.

소프트웨어는 국가에서 regulate하지 않는 거의 유일한 분야이었는데요. 처음으로 소프트웨어(AI)가 국가의 감시와 인허가(?)를 받아야 하는 현실이 멀지 않을 수도 있습니다. 이게 현실화되면 스타트업 이코시스템에도 큰 영향이 있겠죠.

어찌 되었던 OpenAI는 많은 시장 참여자들이 추론 (또는 wishful thinking?) 했듯이 죽지 않고 매우 굳건히 시장을 끌어가고 있는 것 같네요. 무시무시한 회사입니다.

💡

스타트업 종사자 및 벤처투자자들을 위해 작은 오픈채팅방(<200)을 개설했습니다. 단순 뉴스클립이 아니라 깊은 공부와 고민이 필요한 주제에 대해 다뤄볼 예정입니다. *익명 참여 가능, 광고 X, 스팸 X 카톡방 링크: jasonlee snippets 오픈채팅방 PW: 0852 내용 예시: Archive 링크