Галлюцинация
Галлюцинация - это когда большая языковая модель генерирует контент, который не соответствует действительности или ничем не подкреплен, но при этом подает его с высокой уверенностью: придумывает ссылки на источники, фабрикует статистику или утверждает несуществующие факты. Это главная угроза для доверия к ответам ИИ-поиска.
Галлюцинация - это когда большая языковая модель генерирует контент, который не соответствует действительности или ничем не подкреплен, но при этом подает его с высокой уверенностью: придумывает ссылки на источники, фабрикует статистику или утверждает несуществующие факты. Это главная угроза для доверия к ответам ИИ-поиска.
Почему это важно
Рейтинг галлюцинаций Stanford / Vectara за 2024 год показывает, что даже передовые модели по-прежнему галлюцинируют в 2-15% случаев при задачах суммаризации. В 2026 году, когда пользователи активно полагаются на ИИ-поиск, одна галлюцинированная ссылка может серьезно подорвать доверие к бренду. Для GEO задача не просто быть процитированным, а быть процитированным правильно.
Почему возникают галлюцинации
Вероятностная генерация: LLM предсказывают наиболее вероятный следующий токен, а не истину. "Наиболее вероятное продолжение обучающего распределения" - это не то же самое, что "факт", поэтому модели придумывают правдоподобные ответы, когда на самом деле не знают.
Ограничения обучающих данных: Недавние события, узкоспециализированные области и неанглоязычный контент представлены слабо, оставляя пробелы.
Неоднозначные промпты: Расплывчатые вопросы провоцируют модель заполнять пробелы догадками.
Слабый контекст RAG: Когда извлечение не возвращает релевантные фрагменты, модель опирается на собственную "память" - условие с наивысшим риском галлюцинаций.
Типы галлюцинаций
Внутренние (intrinsic): Прямо противоречат источнику. В документе сказано "выручка 10 млн долларов", а модель говорит "100 млн".
Внешние (extrinsic): Добавляют факты, которых нет в источнике. Модель выдумывает информацию без указания источника.
Фактологические (factual): Объективно неверны независимо от источника - выдуманные люди, даты или числа.
Защита в GEO
Явные, однозначные факты: Утвердительные формулировки не оставляют модели места для неправильной интерпретации. "inblog был основан в 2020 году" лучше расплывчатых формулировок.
Привязывайте источники к числам: Каждая статистика должна сопровождаться источником и годом, чтобы конвейеры RAG могли зафиксироваться на ссылке.
Избегайте расплывчатых количественных слов: "Многие", "большинство", "значительный" - модель подставит выдуманное число. Используйте конкретные цифры.
Единообразное наименование бренда: Унифицируйте названия продукта и компании. Смешивание "inblog", "Inblog" и "In Blog" заставляет модели воспринимать их как отдельные или путать сущности.
Структурированные FAQ: Блоки вопросов и ответов резко повышают точность цитирования.
Разметка Schema.org: Структурированные данные Organization, Article и FAQPage помогают LLM однозначно идентифицировать сущности.
Источники: