Что такое галлюцинация ИИ? | Глоссарий GEO

Галлюцинация - это когда большая языковая модель генерирует контент, который не соответствует действительности или ничем не подкреплен, но при этом подает его с высокой уверенностью: придумывает ссылки на источники, фабрикует статистику или утверждает несуществующие факты. Это главная угроза для доверия к ответам ИИ-поиска.

Почему это важно

Рейтинг галлюцинаций Stanford / Vectara за 2024 год показывает, что даже передовые модели по-прежнему галлюцинируют в 2-15% случаев при задачах суммаризации. В 2026 году, когда пользователи активно полагаются на ИИ-поиск, одна галлюцинированная ссылка может серьезно подорвать доверие к бренду. Для GEO задача не просто быть процитированным, а быть процитированным правильно.

Почему возникают галлюцинации

Вероятностная генерация: LLM предсказывают наиболее вероятный следующий токен, а не истину. "Наиболее вероятное продолжение обучающего распределения" - это не то же самое, что "факт", поэтому модели придумывают правдоподобные ответы, когда на самом деле не знают.

Ограничения обучающих данных: Недавние события, узкоспециализированные области и неанглоязычный контент представлены слабо, оставляя пробелы.

Неоднозначные промпты: Расплывчатые вопросы провоцируют модель заполнять пробелы догадками.

Слабый контекст RAG: Когда извлечение не возвращает релевантные фрагменты, модель опирается на собственную "память" - условие с наивысшим риском галлюцинаций.

Типы галлюцинаций

Внутренние (intrinsic): Прямо противоречат источнику. В документе сказано "выручка 10 млн долларов", а модель говорит "100 млн".

Внешние (extrinsic): Добавляют факты, которых нет в источнике. Модель выдумывает информацию без указания источника.

Фактологические (factual): Объективно неверны независимо от источника - выдуманные люди, даты или числа.

Защита в GEO

Явные, однозначные факты: Утвердительные формулировки не оставляют модели места для неправильной интерпретации. "inblog был основан в 2020 году" лучше расплывчатых формулировок.

Привязывайте источники к числам: Каждая статистика должна сопровождаться источником и годом, чтобы конвейеры RAG могли зафиксироваться на ссылке.

Избегайте расплывчатых количественных слов: "Многие", "большинство", "значительный" - модель подставит выдуманное число. Используйте конкретные цифры.

Единообразное наименование бренда: Унифицируйте названия продукта и компании. Смешивание "inblog", "Inblog" и "In Blog" заставляет модели воспринимать их как отдельные или путать сущности.

Структурированные FAQ: Блоки вопросов и ответов резко повышают точность цитирования.

Разметка Schema.org: Структурированные данные Organization, Article и FAQPage помогают LLM однозначно идентифицировать сущности.

Источники: