GEO

チャンキング

チャンキングとは、長いドキュメントを、LLMやベクトルデータベースが処理できる、より小さく意味を持つ単位(チャンク)に分割するプロセスです。ウェブページ、PDF、ドキュメントが埋め込みされる前のRAGパイプラインにおける必須の前処理ステップであり、各チャンクはAIが回答の中で引用できる最小単位となります。

チャンキングとは、長いドキュメントを、LLMやベクトルデータベースが処理できる、より小さく意味を持つ単位(チャンク)に分割するプロセスです。ウェブページ、PDF、ドキュメントが埋め込みされる前のRAGパイプラインにおける必須の前処理ステップであり、各チャンクはAIが回答の中で引用できる最小単位となります。

なぜ重要なのか

AI検索が回答を生成するとき、ページ全体ではなく、最も関連性の高いチャンクを引用します。同じブログ記事の2つのバージョンでも、どのようにチャンク化されるかによって、まったく異なるAIの引用が生まれることがあります。AnthropicとOpenAIのエンジニアリングブログによれば、適切に調整されたチャンキングはベースラインと比べてRAGの検索精度を30〜50%向上させます。これが「チャンク単位で書く」というGEOの原則の出どころです。

主要なチャンキング戦略

固定サイズのチャンキング: 500や1,000など、固定のトークン数で分割します。シンプルですが、文の途中で切れてコンテキストを失います。

再帰的(文/段落単位): 段落、次に文、次に単語へと分割し、自然な境界を保ちます。ほとんどのRAGパイプラインでのデフォルトです。

セマンティックチャンキング: 埋め込みの類似度を使ってトピックの変化を検出し、その箇所で分割します。最高品質ですが、計算コストが高くなります。

ドキュメント対応のチャンキング: MarkdownやHTMLの###見出しを境界として使います。ブログ記事のような構造化されたコンテンツに最も効果的です。

オーバーラップ: 隣接するチャンク間でコンテンツの10〜20%を重複させ、継ぎ目でコンテキストが失われないようにします。

GEOライティングへの示唆

セクションは単独で成立しなければならない: チャンクは通常###セクションに対応します。あるセクションが意味を成すために前のセクションに依存していると、単独で引用されたときに崩れてしまいます。

各セクションの中に主語と文脈を含める: 「このツールは…を扱う」ではなく「inblogは…を扱う」と書きましょう。各段落は自己完結している必要があります。

適切な長さ: 非常に短いセクションは引用に値するだけの情報が足りず、非常に長いセクションは埋め込みの意味を薄めてしまいます。200〜500語が最適な範囲です。

トピックの変化点に見出しを置く: 1つのセクションが複数のトピックを混在させていると、チャンク化が不自然な箇所で行われます。トピックが変わるたびに明確な###見出しを追加しましょう。

FAQブロック: Q&Aのペアは自然に自己完結したチャンクを形成するため、重要な質問をFAQセクションに分けると、引用される確率が劇的に高まります。

Sources: