Llama-3 심층 분석: AI 개발동향, 산업 트렌드 및 파급효과

Apr 21, 2024

Contents

Performance New Benchmark Evaluation Dataset Llama-3 8B > Llama-2 70B How? More Data + Compute 역시 답은 Scaling Law Compute Power Multi-linguality (Korean)Conclusion

저번 주 Meta가 Llama-3를 공개(Meta announcement)했습니다.

이미 개발자 커뮤니티 내에서 Llama-3에 대한 리액션과 분석 자료가 많이 공유되었습니다. 전문가 분들의 분석 내용을 인용해서 Llama-3의 성능과 미래 implication을 공부해봤습니다.

Performance

Meta는 8B와 70B 모델을 선공개했고 400B+ 모델은 아직 training 중이며 추후에 release 될 예정입니다.

Llama-3 8B와 70B 모델(both pre-trained & intruction-tuned)은 respective model size 내에서 SOTA 수준의 퍼포먼스를 보여줍니다.

Llama-3 400B+ 모델은 아직 트레이닝이 끝나지 않았지만 현재 GPT-4와 Clause-3 Opus 등 SOTA 모델 대비 이미 유사한 퍼포먼스를 보여주고 있습니다. 몇달 내로 학습이 완전히 끝나면 성능이 아예 넘어갈 것으로 전망됩니다.

1 trillion+ 파라미터로 알려진 GPT-4보다도 훨씬 낮은 파라미터 수로 퍼포먼스를 능가할 것으로 보이며 게다가 오픈소스입니다.

Source: Jim Fan

New Benchmark Evaluation Dataset

최근 Elon Musk가 Grok 1.5V 모델을 공개(link)하며 RealWorldQA 평가(evaluation) 벤치마크도 같이 공개했었습니다.

그 이유는 LLM이 단순한 문제 뿐만 아니라 고난이도 문제해결 능력을 위해선 다양한 real-world scenario에서 LLM이 사용자의 의도나 물리적 환경을 제대로 이해하며 추론할 수 있고,

실제로 사람들이 유용하게 사용할 수 있는 아웃풋을 제시하는 것이 중요한데

기타 벤치마크는 이런 부분을 평가하는데 있어서는 부족하다 보니, 새로운 Evaluation Benchmark를 제시합니다.

이로 인해 자주 인용되는 Evaluation Benchmark에서 캡쳐되지 않는 본인의 LLM 능력을 과시할 수 있죠.

Meta도 유사하게 새로운 “high-quality human evaluation set”을 공개했습니다. 총 12개의 분야(Q&A, coding, 추론, 요약 등)에 대해 사람들이 자주 사용하는 1,800개 real-world 프롬프트에 대해 답변을 생성하고 사람이 평가하는 방식처럼 보여집니다.

LMSYS Chatbot 리더보드(link)가 ELO 랭킹하는 것과 유사한 방식처럼 보여짐

Meta가 1,800개의 프롬프트와 테스트 결과를 자세히 공개하지 않았다 보니 제대로 평가할 순 없겠지만 Claude Sonnet, Mistral Medium, GPT-3.5 대비 real-world scenario 임무에 대해 human evaluation에서 더 우수한 결과를 냈다고 자부합니다.

또한, LMSYS 리더보드에서 Llama-2 70B-Instruct가 Google의 Gemini Pro (Bard)와 Claude-3 Sonnet과 공동 5위를 차지하고 있네요.

현재 evaluation benchmark는 부족한 점이 많습니다. 비유하자면 사람이 수능을 잘 보거나 못 본다고 해서 그 사람을 전체적으로 평가할 수 없는 것처럼 LLM 능력을 평가하기 위해선 다양한 방법이 존재해야 합니다.

LLM 모델들이 in-production으로 넘어오게 되면서 기존 Evaluation 벤치마크 외에도 real-world problem solving ability를 평가하는 다양한 evaluation셋이 많아질 것으로 보입니다.

Llama-3 8B > Llama-2 70B

Llama-3 패밀리에서 가장 작은 모델이 Llama-2 패밀리의 가장 큰 70B 파라미터 모델을 이겼습니다. 불과 ~9개월 만에 (source)!

How? More Data + Compute

Model architecture largely the same

In line with our design philosophy, we opted for a relatively standard decoder-only transformer architecture in Llama 3.

Tokenizer improvement

Llama-3 모델에 사용된 토크나이저가 사용하는 토큰 수는 4배 (Llama-2 32,000 tokens) 커졌습니다. 이로 인해 소형 모델 크기도 7B에서 8B로 증가했습니다.
토크나이저가 4배 커졌다는 것은 매우 큰 의미를 갖습니다: Llama-3의 더 많은 “vocabulary”를 갖춘 토크나이저는 언어적 뉘앙스의 범위를 넓히고, 사전 외 단어(OOV)를 줄이며, 문맥을 더 잘 유지하는 등 언어 이해를 향상시킴

Training method

We trained the models on sequences of 8,192 tokens, using a mask to ensure self-attention does not cross document boundaries.

물론 위와 같이 다양한 요인이 있겠지만 퍼포먼스 델타의 가장 중요한 부분은 Training Data+compute로 보여집니다.

Llama-3 pre-training에 총 15T token이 사용되었으며 이는 Llama-2 대비 7x, 코드 데이터는 4x 차이 규모입니다.

💡

Andrej Karpathy는 매우 흥미로운 분석을 제시합니다. LLM의 성능을 하나의 숫자로만 예측해야 한다면 학습에 사용된 “total flops”를 보면 됩니다. Andrej의 napkin math에 의하면 Llama-3 400B 모델은 ~4e25 FLOP입니다. GPT-4에 대한 정확한 수치는 나와있지 않지만 leak 데이터로 유추해본다면 Llama-3 400B의 전체 FLOP는 GPT-4의 2배로 유추해볼 수 있습니다.

역시 답은 Scaling Law

Google Deep Mind에서 2022년 공개한 Chinchilla 페이퍼에선 Transformer 모델을 훈련하기 위한 모델 크기 대비 최적의 트레이닝 토큰 수를 제시합니다.

DeepMind 연구팀은 당시 출시된 모델들이 파라미터 수 대비 학습 데이터 토큰 수가 적고 비효율적이라고 주장합니다. Gopher, GPT-3 등 대비 Chinchilla 모델은 낮은 모델 파라미터 수 아키텍처를 갖고 있지만 약 4배 더 많은 학습데이터를 사용하고, 비슷한 compute budget를 사용하면서 더 훌륭한 벤치마크 퍼포먼스를 달성합니다.

Chinchilla 페이퍼에 의하면 8B 파라미터 모델의 최적 학습 토큰 수는 ~200B 토큰입니다. 하지만, Llama-3 8B 모델은 Chinchilla 페이퍼가 제시한 최적 토큰 수의 75배인 15T 토큰으로 학습되었습니다. 뿐만 아니라 학습 이후에도 더 많은 데이터로 학습 시 지속적으로 log-linearly 성능이 좋아지는 것을 알아냈습니다.

가능하다면 더 많은 데이터를 사용했겠지만 Yann LeCun에 따르면 사용할 수 있는 데이터를 거의 모두 소진했다고 합니다.

There is only so much data you can get (Yann LeCun)

앞으로 frontier LLM 개발의 중요한 바틀넥은 데이터가 될 것으로 보여집니다. 고퀄리티 데이터 파이프라인을 구축하는게 주요 경쟁력이 되겠죠.

이와 별도로 현재 LLM 상용화의 바틀넥은 비용(inference cost)과 속도(latency)입니다. 모델 사이즈 (activated parameters)가 크면 클 수록 비용은 올라가고 속도는 느려지는데 8B이면 많은 부분 해결되지 않을까요?

또한, 오픈소스 커뮤니티 내에서 Llama-3 8B로 다양한 재밌는 시도(quantization, fine-tuning 등)들로 개선해나가서 Llama-3로 구동되는 다양한 LLM-native 어플리케이션을 볼 수 있지 않을까요?

Compute Power

Scaling Law가 지속되는 한 주요 바틀넥은 데이터와 compute power입니다. Meta는 AI hype가 본격적으로 시작하기 전 (ChatGPT moment 11/30/2022) 엄청난 GPU 리소스에 투자하고 있었습니다.

Meta는 2022년부터 GPU 구매량을 대폭 늘립니다.

Mark Zuckerberg에 따르면 이 GPU (H100) 구매는 LLM 학습을 위한 것이 아니라 당시 Reel 프로덕트로 TikTok 경쟁에 맞서기 위함이었다고 합니다.

한 팟캐스트에서 Mark는 아래와 같이 얘기합니다:

I think it was because we were working on Reels. We always want to have enough capacity to build something that we can't quite see on the horizon yet. We got into this position with Reels where we needed more GPUs to train the models. It was this big evolution for our services. Instead of just ranking content from people or pages you follow, we made this big push to start recommending what we call unconnected content, content from people or pages that you're not following. The corpus of content candidates that we could potentially show you expanded from on the order of thousands to on the order of hundreds of millions. It needed a completely different infrastructure. We started working on doing that and we were constrained on the infrastructure in catching up to what TikTok was doing as quickly as we wanted to. I basically looked at that and I was like “hey, we have to make sure that we're never in this situation again. So let's order enough GPUs to do what we need to do on Reels and ranking content and feed. But let's also double that.” Again, our normal principle is that there's going to be something on the horizon that we can't see yet.

이 대량의 GPU들이 AI에 쓰여질 것을 미리 알고 있었느냐에 대한 질문엔 아래와 같이 답변합니다:

We thought it was going to be something that had to do with training large models. At the time I thought it was probably going to be something that had to do with content. It’s just the pattern matching of running the company, there's always another thing. At that time I was so deep into trying to get the recommendations working for Reels and other content. That’s just such a big unlock for Instagram and Facebook now, being able to show people content that's interesting to them from people that they're not even following.
But that ended up being a very good decision in retrospect. And it came from being behind. It wasn't like “oh, I was so far ahead.” Actually, most of the times where we make some decision that ends up seeming good is because we messed something up before and just didn't want to repeat the mistake.

틱톡의 중독적인 추천 알고리즘으로 existential 위협을 느끼게 된 Meta는 기존 인프라를 갈아엎는 극단적인 결정을 하게 되었고, AI transition에서 follower가 아니라 주요 리더가 될 수 있는 자원을 의도치 않게 확보하게 되었습니다. 제가 이전 블로그에서 정리했듯이 이 시기는 Meta가 투자자들로부터 엄청난 질타를 받고 있었던 시기인데 엄청난 피봇을 진행했고 매우 prescient한 결정이 되었습니다.

Meta는 2024년 말까지 350,000 H100 GPU + others (total compute power equivalent to 600,000 H100)을 보유할 예정입니다. 이 모든 자원이 LLM 학습에 사용되는 것이 아니라 다양한 ML 모델 (추천 알고리즘 등) 학습과 Facebook app suite (Whatsapp, Instagram 등) 내 인퍼런스에도 사용됩니다.

LLM 학습(Llama-3, 4 등)은 별도 자체 설계한 거대 “single compute cluster”를 사용합니다. 현재까지 알려진 기준 세계 최대 규모이며 24,000 GPU single cluster 두 개를 보유하고 있습니다 (link). 이러한 자원으로 더 빠른 iteration cycle과 정확한 학습으로 SOTA 수준의 모델을 배출할 수 있었습니다.

💡

Meta가 Llama-3를 학습할 때 ground-up부터 시스템을 single-cluster로 설계한 것을 보면 단순 GPU의 “양” 뿐만 아니라 compute의 “density”가 매우 중요한 역할을 한다는 것을 유추해볼 수 있습니다.

Meta 및 대기업이 LLM 시장에서 가질 수 있는 가장 큰 장점 중 하나가 이러한 resource allocation이라고 생각합니다. 스타트업 대비 underutilization risk로부터 자유롭기 때문에 Big tech 기업들은 공격적으로 CapEx를 투자할 수 있습니다.

Andrej Karpathy의 분석(source)에 따르면 Llama-3 학습 당시 자원 utilization은 40% 수준이라고 합니다. 매우 훌륭한 수준이라고 하지만 Big Tech가 아닌 중소기업이 GPU가 금값인 와중에 그 정도의 under-utilization을 감당하긴 어려울 것입니다.

Multi-linguality (Korean)

Llama-3의 multi-linguality 다국어 기능은 업데이트 예정(along with longer context window, multimodality 등) 입니다.

그럼에도 불구하고 한국어만 놓고 보면 지금도 꽤 훌륭한 multi-lingual capability를 보여줍니다.

GUIJIN SON (NLP Researcher at OneLineAI)님에 따르면:

해례팀에서 개발한 KMMLU를 활용해 LLaMA3 의 성능을 평가한 결과 70B 버전은 54.5 점으로 GPT-4, HyperCLOVA X와 같은 모델과 비교해도 큰 손색이 없어 보이네요.
저희도 새롭게 개발중인 벤치마크를 활용해 내부적으로 테스트를 진행 중인데요. 아래 사진을 보면 비록 한자를 섞어 생성하긴 했지만 현재 대한민국과 5세기 고구려의 국토 면적을 거의 정확하게 예측하는 것을 보실 수 있습니다.

Meta는 향후 Llama-3 multilingual 업데이트엔 pretraining dataset의 5%+ (약 750B token; 책 약 100만 권)를 약 30개 언어의 고퀄리티 non-English 데이터를 사용할 예정이라고 합니다.

현재 수준에서 multi-lingual capability가 얼마나 더 개선될지는 모르겠습니다. Meta 또한 “we do not expect the same level of performance in these languages as in English”라고 합니다.

하지만… Do we really need a Korean-specific LLM built from the ground-up, or are these SOTA models good enough to fine-tune… or even better as is?

Conclusion

AI 산업이 매우 재밌게 흘러가고 있는 것 같습니다. Llama-3를 활용해 어떤 재밌는 어플리케이션이 나올까요? Meta는 ChatGPT와 유사한 AI 어시스턴트 Meta AI를 출시한 바 있습니다. ChatGPT가 압도적인 유저 베이스를 갖고 있지만 Meta는 다양한 프로덕트 포트폴리오를 통해 3 billion user를 보유하고 있는 거인이기도 합니다. 아쉽게도 한국에선 사용이 아직 불가능하지만 사용후기를 들어보면 호평이 많은 것 같습니다.

Meta는 왜 엄청난 자본은 투자하면서 오픈소스화를 하는가에 대해도 분석해보고 싶었지만 글이 너무 길어져 다른 기회로 작성해보도록 하겠습니다.

Subscribe Newsletter

Stay connected for the latest news and insights.

See more posts