GEO

토큰화

토큰화(Tokenization)는 자연어 텍스트를 LLM이 실제로 처리하는 최소 단위인 '토큰(token)'으로 쪼개는 과정입니다. 모든 LLM 입출력과 과금, 컨텍스트 윈도우 제한은 단어가 아닌 토큰을 기준으로 계산됩니다.

토큰화(Tokenization)는 자연어 텍스트를 LLM이 실제로 처리하는 최소 단위인 '토큰(token)'으로 쪼개는 과정입니다. 모든 LLM 입출력과 과금, 컨텍스트 윈도우 제한은 단어가 아닌 토큰을 기준으로 계산됩니다.

왜 중요한가

토큰은 LLM의 기본 화폐입니다. OpenAI·Anthropic·Google 모두 API 사용료를 토큰당 과금하고, 컨텍스트 윈도우 상한도 토큰 수로 정의합니다. 같은 분량의 콘텐츠라도 언어와 텍스트 구조에 따라 토큰 소모량이 2~3배까지 차이 나기 때문에, GEO·콘텐츠 전략·AI 서비스 개발에서 토큰화 특성을 이해하는 것이 직접적인 비용·성능 차이로 이어집니다.

토큰화는 어떻게 작동하는가

현대 LLM 대부분은 Byte Pair Encoding(BPE) 또는 이를 변형한 방식(SentencePiece, tiktoken)을 사용합니다.

  1. 학습 데이터에서 자주 등장하는 문자 조합을 병합해 사전을 구축합니다.
  2. 입력 텍스트를 이 사전에 맞춰 가장 긴 일치 토큰으로 분할합니다.
  3. 자주 쓰이는 영어 단어는 한 토큰이 되지만, 희귀한 단어나 다른 언어는 여러 토큰으로 쪼개집니다.

영어 예시: "tokenization" → ["token", "ization"] (2 토큰) 한국어 예시: "토큰화" → ["토", "큰", "화"] 또는 UTF-8 바이트 단위로 더 작게 쪼개져 6~9 토큰

한국어 토큰화의 특수성

영어는 평균 1단어 ≈ 1.3토큰이지만, 한국어는 1글자 ≈ 1.5~2토큰을 소비합니다. 한국어 텍스트가 상대적으로 '비싼' 이유는 두 가지입니다.

학습 데이터 비중: 주요 LLM의 학습 코퍼스에서 한국어 비중이 1~3%에 불과해 한국어 전용 토큰이 사전에 적게 포함됩니다.

유니코드 분할: 사전에 없는 한글은 UTF-8 바이트 단위로 쪼개져 한 글자가 2~3토큰으로 소비됩니다.

결과적으로 같은 내용의 한국어 블로그 포스트는 영어 대비 약 50% 더 많은 토큰을 차지하며, 동일한 컨텍스트 윈도우에서 처리할 수 있는 분량이 줄어듭니다.

GEO 시사점

요약 밀도: 한국어 콘텐츠는 토큰 소모가 많으므로 군더더기 없는 문장, 명확한 헤딩, 압축적 표현이 AI 인용 효율을 높입니다.

중복 제거: 같은 의미를 반복하는 문장은 LLM이 처리할 때 귀중한 토큰 공간을 낭비합니다.

핵심 정보의 앞쪽 배치: 토큰 예산이 부족한 상황에서 LLM은 문서 앞부분을 우선 처리합니다. 결론을 먼저 쓰는 역피라미드 구조가 유리합니다.

영어 병기의 전략적 활용: 고유명사·전문 용어는 영어 병기(예: '토큰화(Tokenization)')를 넣어 두면 영어 쿼리에서도 매칭률이 올라갑니다.

Sources:

관련 인블로그 게시물

inblog에서 활용하기

한국어 블로그를 운영한다면 '토큰 효율성'을 글쓰기 원칙에 포함하는 것이 유리합니다. inblog 에디터에서 한 문장을 불필요한 수식 없이 짧게 쓰고, 동의어 반복을 줄이며, 고유명사에 영문 병기를 추가하면 같은 분량에서 AI 검색이 더 많은 정보를 추출해 인용할 수 있습니다.