GEO

청킹

청킹(Chunking)은 긴 문서를 LLM과 벡터 데이터베이스가 처리할 수 있는 작은 의미 단위(chunk)로 분할하는 기술입니다. RAG 파이프라인에서 웹 페이지·PDF·문서를 임베딩하기 전에 반드시 거치는 전처리 단계이며, 각 청크가 AI 응답에 인용되는 최소 단위가 됩니다.

청킹(Chunking)은 긴 문서를 LLM과 벡터 데이터베이스가 처리할 수 있는 작은 의미 단위(chunk)로 분할하는 기술입니다. RAG 파이프라인에서 웹 페이지·PDF·문서를 임베딩하기 전에 반드시 거치는 전처리 단계이며, 각 청크가 AI 응답에 인용되는 최소 단위가 됩니다.

왜 중요한가

AI 검색이 답변을 생성할 때 '페이지 전체'가 아니라 '가장 관련성 높은 청크'를 골라 인용합니다. 즉 동일한 블로그 포스트라도 청크 분할 방식에 따라 AI가 보는 내용과 인용하는 부분이 완전히 달라집니다. Anthropic과 OpenAI 엔지니어링 블로그에 따르면, 청크 설계를 최적화한 RAG 시스템은 그렇지 않은 시스템 대비 검색 정확도가 30~50% 향상됩니다. GEO 관점에서는 '콘텐츠를 청크 단위로 써야 한다'는 새로운 글쓰기 원칙이 여기서 나옵니다.

주요 청킹 전략

고정 크기 청킹(Fixed-Size): 500~1,000 토큰 같은 고정 크기로 잘라냅니다. 단순하지만 문장·문단이 끊겨 맥락이 손실될 수 있습니다.

문장·문단 단위(Recursive): 문단 → 문장 → 단어 순으로 재귀적으로 쪼개며 자연스러운 경계를 유지합니다. 대부분의 RAG 파이프라인에서 기본값입니다.

의미 기반 청킹(Semantic): 임베딩 유사도로 주제가 바뀌는 지점을 감지해 분할합니다. 품질은 가장 높지만 계산 비용이 큽니다.

헤딩 기반 청킹(Document-Aware): Markdown/HTML의 ### 헤딩을 경계로 분할합니다. 블로그 포스트처럼 구조화된 문서에 가장 효과적입니다.

오버랩(Overlap): 청크 사이에 10~20% 내용을 중복시켜 경계에서 맥락이 끊기는 것을 방지합니다.

GEO 글쓰기에 대한 시사점

각 섹션이 독립적이어야 한다: 청크는 대개 ### 섹션 단위로 분할됩니다. 한 섹션이 이전 섹션을 전제로 해야만 이해되면, 독립적으로 인용될 때 맥락이 끊깁니다.

섹션 내부에 주어와 맥락을 포함: "이 도구는~"이 아니라 "inblog는~"처럼 각 문단이 자기 완결적이어야 합니다.

적정 길이: 너무 짧은 섹션은 정보가 부족해 인용 가치가 떨어지고, 너무 긴 섹션은 임베딩에서 의미가 희석됩니다. 200500단어(한국어 4001,000자) 수준이 이상적입니다.

의미 전환 지점에 헤딩: 한 섹션 안에 여러 주제가 섞여 있으면 청킹이 엉뚱하게 끊깁니다. 주제가 바뀌는 지점마다 명확한 ### 헤딩을 넣습니다.

FAQ 블록: Q&A는 자연스럽게 독립적인 청크 단위가 되므로, 핵심 질문을 FAQ로 분리해 두면 AI 인용 확률이 크게 상승합니다.

Sources:

관련 인블로그 게시물

inblog에서 활용하기

inblog 에디터는 ### 헤딩 기반의 구조화된 블록 편집을 지원하므로 'AI가 청킹하기 좋은 글'을 자연스럽게 쓰게 됩니다. 각 섹션에 한줄 정의 + 근거 + 예시를 묶어서 완결적으로 작성하고, 주제가 바뀔 때마다 새 ### 헤딩을 추가하면, 블로그 포스트 전체가 AI가 인용하기 편한 청크 묶음이 되어 GEO 가시성이 상승합니다.