AIのハルシネーションとは？ | GEO用語集

ハルシネーションとは、大規模言語モデルが、真実ではない、あるいは裏付けのないコンテンツを生成しながら、それを高い自信を持って提示してしまう現象です。引用を捏造したり、統計をでっち上げたり、存在しない事実を述べたりします。これはAI生成の検索回答の信頼性に対する、最大の脅威です。

なぜ重要なのか

2024年のStanford / Vectaraハルシネーション・リーダーボードによると、フロンティアモデルでさえ、要約タスクにおいて依然として2〜15%の割合でハルシネーションを起こします。ユーザーがAI検索に大きく依存する2026年において、たった1件のハルシネーションによる引用が、ブランドの信頼を深刻に損なうことがあります。GEOにとっての課題は、単に引用されることではなく、正しく引用されることなのです。

ハルシネーションが起こる理由

確率的な生成: LLMは真実ではなく、最も可能性の高い次のトークンを予測します。「学習分布の最も可能性の高い続き」は「事実」と同じではないため、モデルは実際には知らないときに、もっともらしい回答を作り出します。

学習データの限界: 最近の出来事、ニッチな分野、英語以外のコンテンツはわずかしか含まれておらず、空白が残ります。

曖昧なプロンプト: 漠然とした質問は、モデルが推測で空白を埋めることを誘発します。

弱いRAGコンテキスト: 検索が関連する一節を返さないとき、モデルは自身の「記憶」に頼ります。これがハルシネーションの最もリスクの高い状況です。

ハルシネーションの種類

内在的（イントリンシック）: 出典と直接矛盾します。文書には「売上1,000万ドル」とあるのに、モデルは「1億ドル」と言います。

外在的（エクストリンシック）: 出典にない事実を付け加えます。モデルが、何の帰属もない情報をでっち上げます。

事実的（ファクチュアル）: 出典にかかわらず客観的に誤っています。架空の人物、日付、数字などです。

GEOにおける防御策

明示的で曖昧さのない事実: 断定的な記述は、モデルに誤解の余地を与えません。「inblogは2020年に設立された」は、曖昧な表現に勝ります。

数字に出典を添える: すべての統計に出典と年を添え、RAGパイプラインが引用を確実に捉えられるようにします。

曖昧な数量表現を避ける: 「多くの」「ほとんどの」「相当な」では、モデルがでっち上げの数字に置き換えてしまいます。具体的な数値を使いましょう。

一貫したブランド名の表記: 製品名と会社名を統一します。「inblog」「Inblog」「In Blog」を混在させると、モデルがそれらを別個の、あるいは混同したエンティティとして扱う原因になります。

構造化されたFAQ: Q&Aブロックは引用の正確さを劇的に高めます。

Schema.orgマークアップ: Organization、Article、FAQPageの構造化データは、LLMがエンティティを曖昧さなく識別するのを助けます。

Sources: