GPT-4 보다 강력하다고? 클로드 3(Claude 3) vs GPT-4 비교하기

클로드 3(Claude 3)와 GPT-4를 직접 사용해 보고 어떤 점에서 다른지, 그리고 어떤 장단점이 있는지 비교해 보려 합니다.

Apr 05, 2024

GPT-4 보다 강력하다고? 클로드 3(Claude 3) vs GPT-4 비교하기

Contents

1. Claude 3와 GPT-4의 모델 개발 배경 2. Claude 3 vs GPT-4성능 비교하기 3. Claude 3 실제 사용 후기 4. 마치는 글

⏳7min

앤스로픽(Anthropic)에서 선보인 클로드 3(Claude 3)가 OpenAI의 GPT-4와 함께 가장 주목받는 LLM 모델로 불리고 있습니다. 클로드 3(Claude 3) 유저 중 일부는 GPT-4 보다 강력하다는 평가도 하고 있는데요. Anthropic은 블로그에서 “Claude 3가 복잡한 작업에 대해 거의 인간 수준의 이해력과 유창함을 보이며, 일반 지능 영역의 최전선을 이끄는 AI“라고 소개하고 있습니다. 이렇게 자신감 넘치게 말할 수 있는 이유는 무엇일까요? 클로드 3(Claude 3)와 GPT-4를 직접 사용해 보고 어떤 점에서 다른지, 그리고 어떤 장단점이 있는지 비교해 보려 합니다.

1. Claude 3와 GPT-4의 모델 개발 배경

Anthropic의 Claude와 OpenAI의 GPT-4는 각 기업의 비전과 목표를 반영하며 탄생했습니다. Anthropic은 '헌법적 AI'라는 독특한 접근 방식을 택했습니다. Anthropic은 인간에게 도움이 되면서도 해를 끼치지 않는 안전한 인공지능을 만드는 것을 목표로 삼았습니다. 이를 위해 클로드는 인간을 위협하지 않는 10가지 원칙을 바탕으로 설계되었습니다. 클로드는 대화할 때마다 이 원칙들을 잘 지키고 있는지 스스로 점검하는 과정을 거치게 됩니다. Anthropic은 이런 노력을 통해 사람들이 AI를 더욱 신뢰할 수 있게 만들고 싶어 합니다.

한편 OpenAI는 GPT-4를 개발하면서 AI의 성능과 활용성에 초점을 맞췄습니다. OpenAI는 엄청난 양의 데이터를 활용해 언어 이해, 추론, 문제 해결 등 다양한 분야에서 뛰어난 능력을 가진 AI를 만드는 것을 목표로 했습니다. GPT-4는 GPT 시리즈 버전을 업그레이드하면서 이전 버전보다 점점 더 많은 데이터를 학습했고, 그 결과 놀라운 성능을 보여주고 있습니다. OpenAI는 GPT-4를 통해 AI 기술의 한계를 뛰어넘고, 더 많은 분야에서 인공지능을 활용할 수 있게 하고 싶어 합니다.

클로드와 GPT-4는 각자 다른 접근 방식을 택하고 있지만, 궁극적으로는 인류에게 도움이 되는 AI를 만들고자 하는 공통된 목표를 가지고 있습니다. 앞으로도 이 두 모델이 어떻게 발전해 나갈지, 또 다른 모델이 경쟁자로 나타나게 될지 지켜보는 것이 흥미로울 것으로 기대됩니다.

(출처: Anthropic)

클로드에는 3가지 모델이 있습니다. 1. Haiku, 2. Sonnet, 3. Opus 모델이 있으며, 위 이미지처럼 성능, 비용 등이 우상단으로 갈 수록 높아집니다.

1️⃣ 클로드 하이쿠 Claude Haiku

가볍고 빠른 속도를 가지며, 비용 효율성을 고려한 모델입니다. 주로 작업의 빠른 완료와 비용 효율성이 중요한 경우에 적합합니다.

2️⃣ 클로드 소넷 Claude Sonnet

우리가 로그인 시 무료로 사용할 수 있는 버전은 Sonnet 모델이며 GPT-3.5 보다 벤치마크 성능이 조금 우수하다고 합니다. 클로드 모델 시리즈 중 중간 수준의 성능을 제공하는 모델입니다. 인지 능력과 처리 속도를 균형 있게 갖추고 있습니다. 기업 환경에서 데이터 처리, 품질 관리, 제품 추천 등에 활용될 수 있습니다.

3️⃣ 클로드 오퍼스 Claude Opus

유료로 사용할 수 있는 Opus 프로 버전은 GPT-4.0 보다 조금 더 우수하게 나왔다고 합니다. 클로드 3중에서 가장 뛰어난 인지 능력을 갖춘 모델입니다. 수학적 추론부터 복잡한 천문학 계산까지, 전문적인 작업에 특화된 성능입니다.

저는 Sonnet을 조금 사용하다가 한국어 답변의 자연스러움을 보고 놀라서 바로 유료 구독 결제를 했습니다. 지금부터의 Claude 모델은 Opus라고 생각해 주시면 됩니다.

2. Claude 3 vs GPT-4성능 비교하기

Anthropic은 Claude 3, ChatGPT, Gemini 등 생성형 AI 모델의 성능을 자체적으로 테스트했습니다. 학부 수준의 전문 지식(MMLU), 대학원 수준의 전문가 추론(GPQA), 기본 수학(GSM8K), 코드 등 총 10개 항목에 대해 평가한 결과, 클로드 3 Opus 모델이 모든 항목에서 가장 높은 점수를 받았습니다. 특히 분석, 예측, 코드 생성, 영어가 아닌 언어로 대화하기 태스크에서 Claude 3가 두각을 나타냈습니다.

(출처: Anthropic)

대학 수준의 지식(MMLU)에서는 Claude 3의 모든 버전이 GPT-4와 GPT-3.5를 앞섰습니다. 특히 Claude 3 Opus는 86.8%로 가장 높은 점수를 받았습니다. 대학원 수준의 추론(GPQA, Diamond)에서도 Claude 3가 GPT-4보다 우수한 성적을 보였습니다. 하지만 Gemini 모델들은 이 부분에 대한 점수가 없었습니다. 수학 분야에서는 결과가 조금 다릅니다. 중학교 수학(GSM8K)에서는 Gemini 1.0 Ultra가 94.4%로 가장 높았고, Claude 3도 GPT-4를 앞섰습니다. 하지만 수학 문제 해결(MATH)에서는 GPT-4가 52.9%로 Claude 3 모델들보다 높은 점수를 얻었습니다. 다국어 수학(MGSM)에서는 Claude 3 모델들이 GPT-4와 Gemini 1.0 모델들을 모두 앞섰습니다. Claude 3 Opus는 90.7%로 가장 높은 성적을 받았습니다.

코딩 능력(HumanEval)에서도 Claude 3 모델들이 GPT-4와 Gemini 모델들보다 우수했습니다. 특히 Claude 3 Opus는 84.9%로 가장 높은 점수를 기록했습니다. 텍스트 추론(DROP)과 복합적인 평가(BIG-Bench-Hard)에서는 GPT-4가 Claude 3 모델들을 약간 앞섰지만, 전반적으로 비슷한 수준입니다. 지식 Q&A(ARC-Challenge)와 상식(HellaSWAG)에서는 두 모델 모두 높은 점수를 보였고, 근소한 차이로 GPT-4가 Claude 3를 앞섰습니다. 종합해 보면, Claude 3는 대부분의 벤치마크에서 GPT-4와 비슷하거나 더 우수한 성능을 보여주었습니다. 특히 대학 수준의 지식과 추론, 코딩 능력 등에서 두각을 나타냈습니다. 다만 일부 수학 문제 해결에서는 GPT-4가 더 높은 점수를 얻기도 했습니다.

(출처: MaximumTruth.org)

이번에는 여러 AI 모델들의 전반적인 IQ를 비교해 보았습니다. 결과를 보면 Claude 3가 IQ 101로 가장 높은 점수를 받았습니다. GPT-4는 그 뒤를 이어 85점으로 두 번째로 높았습니다. 반면 ChatGPT-3.5와 Grok Fun은 IQ 64로 가장 낮은 점수를 기록했습니다. IQ 점수를 산출하는 데 사용된 질문 수는 35개였습니다. Claude 3는 18.5개의 질문을 맞혔고, GPT-4는 13개를 맞혔습니다. Claude 3가 GPT-4보다 더 많은 질문에서 정답을 맞혔습니다.

마지막 열은 '우연히 맞출 확률'인데, 이는 각 모델이 순전히 운에 의해 해당 점수를 받을 확률을 나타냅니다. Claude 3부터 Gemini Advanced까지의 모델들은 우연히 그 점수를 받을 확률이 99% 이상으로 매우 높습니다. 반면 Grok부터 아래 모델들은 우연히 점수를 받을 확률이 더 낮았습니다. 특히 Random Guesser는 우연히 맞출 확률이 50%로, 정답을 맞히는 게 운에 크게 좌우된다고 볼 수 있습니다. 전반적으로 Claude 3와 GPT-4가 다른 AI 모델들에 비해 IQ 테스트에서 더 우수한 성능을 보였습니다. 하지만 이 결과만으로 모델의 종합적인 능력을 판단하기는 어렵습니다. IQ 테스트가 AI의 전반적인 능력을 평가하는 데 적합한지에 대해서도 생각해 볼 필요도 있습니다.

3. Claude 3 실제 사용 후기

벤치마크 결과는 참고할 만하지만, 실제 사용해 보면 느낌이 또 다릅니다. 저 혹은 타 유저들이 사용한 클로드의 실제 사용 후기를 GPT-4와 비교해 보겠습니다.

1️⃣ 한국어 답변의 자연스러움

위에서 말씀드렸다시피 제가 Claude 3 프로 결제를 하게 된 이유는 한국어 답변의 자연스러움에 놀라서입니다. 무료 버전만 사용해 보셔도 놀라실 겁니다. 한국어의 뉘앙스를 잘 파악하고, 문맥에 맞는 자연스러운 표현을 사용합니다. GPT-4도 한국어를 잘 다루긴 하지만, 때로는 어색한 번역 투 같은 말을 쓰는 경우가 있습니다. 이제는 글만 봐도 ChatGPT를 사용했는지 알 수 있을 정도로 특유의 말투가 있는데요. 반면 Claude 3는 정말 사람이 직접 쓴 것 같은 말투로 답변해 주는 것이 인상깊었습니다. 이러한 점 때문에 저는 요즘 ChatGPT보다 Claude에 먼저 손이 가게 됩니다.

2️⃣ 긴 컨텍스트 길이

(출처: Anthropic)

Claude 3 프로를 사용하다 보면 또 놀라는 것이 컨텍스트 길이입니다. GPT-4와 비교했을 때 기억력이 정말 좋다고 느껴지는데요. 그 이유는 긴 컨텍스트 길이 때문입니다. 위 그래프는 Claude 3가 최대 200,000개의 단어까지 처리할 수 있으며(가로축), 글 속에서 원하는 정보를 정확하게 찾아내기까지(세로축) 한다는 것을 보여줍니다. 흥미로운 점은 컨텍스트 길이가 길어져도 원하는 정보를 찾아내는 성능이 떨어지지 않는다는 것입니다.

3️⃣ 답변의 센스

개인적인 용도나 업무에서 클로드를 사용하게 되면서 느낀 차이점은 ‘센스'입니다. 클로드가 조금 더 유저의 요구에 찰떡같이 답변을 주는 느낌이라고 보시면 될 것 같습니다. 위 이미지는 각각 GPT-4와 Claude 3에 20대 MZ 말투로 답변해달라고 입력한 결과입니다. 확실하게 Claude 3가 더 답변을 잘 해주는 느낌이 듭니다. 이렇게 상대적으로 요청 사항에 대해 더 답변을 잘 해주다 보니 커뮤니티에서는 클로드를 사용하여 과격하거나 자극적인 멘트를 뽑아내어 공유하는 경우도 많습니다.

4️⃣ 클로드는 F, GPT-4는 T

개인적인 생각으로는 클로드는 MBTI F 성향, GPT-4는 T 성향을 가지고 있다고 느껴졌습니다. 위 이미지는 제로샷으로 ‘토닥토닥'을 입력했을 때의 결과입니다.결과를 보시면 차이가 확연히 느껴집니다. 왼쪽이 GPT-4, 오른쪽이 Claude 3입니다. ChatGPT는 ‘토닥토닥'의 정의에 관해 설명하는 반면, Claude는 유저를 위로하는 듯한 답변을 합니다. 답변의 방향성이 다르다는 것이 잘 보입니다.

4. 마치는 글

지금까지 사용해 본 결과, GPT-4와 Claude 3 Opus를 비교한 것을 요약하면 위의 표와 같습니다. GPT-4도 Claude 3도 모두 대단한 성능을 가지고 있으며, 저는 둘 다 크게 만족하며 사용하고 있습니다. 새삼 이러한 모델들을 20$를 주고 사용할 수 있다는 것이 감사하게 느껴집니다. 사용을 하지 않았던 때와 비교하면 생산성 차이가 크게 나기 때문이죠. 이러한 모델들이 앞으로 어떻게 발전하게 될지, 또 어떤 새로운 언어 모델이 등장하여 우리의 업무와 삶을 확장하는데 도움이 될지 기대됩니다.

이 아티클은 AI 히어로즈 전문 필진
무니(AI 엔지니어)
님의 글입니다.