Qu'est-ce que l'hallucination de l'IA ? | Glossaire GEO

L'hallucination, c'est lorsqu'un grand modèle de langage génère un contenu faux ou non étayé tout en le présentant avec une grande assurance : inventer des citations, fabriquer des statistiques ou énoncer des faits qui n'existent pas. C'est la principale menace pour la crédibilité des réponses de recherche générées par l'IA.

Pourquoi c'est important

Le 2024 Stanford / Vectara Hallucination Leaderboard montre que même les modèles de pointe hallucinent encore 2 à 15 % du temps sur les tâches de résumé. En 2026, alors que les utilisateurs s'appuient fortement sur l'AI search, une seule citation hallucinée peut gravement nuire à la confiance dans une marque. Pour le GEO, le défi n'est pas seulement d'être cité, mais d'être cité correctement.

Pourquoi les hallucinations se produisent

Génération probabiliste : les LLM prédisent le token suivant le plus probable, pas la vérité. La « continuation la plus probable de la distribution d'entraînement » n'est pas la même chose qu'« un fait », si bien que les modèles inventent des réponses plausibles lorsqu'ils ne savent pas réellement.

Limites des données d'entraînement : les événements récents, les domaines de niche et le contenu non anglophone sont peu représentés, laissant des lacunes.

Prompts ambigus : des questions vagues invitent le modèle à combler les vides en devinant.

Contexte RAG faible : lorsque la récupération ne renvoie pas de passages pertinents, le modèle se rabat sur sa propre « mémoire », la condition la plus à risque d'hallucination.

Types d'hallucination

Intrinsèque : contredit directement la source. Le document dit « 10 M$ de chiffre d'affaires », le modèle dit « 100 M$ ».

Extrinsèque : ajoute des faits absents de la source. Le modèle invente des informations sans aucune attribution.

Factuelle : objectivement fausse quelle que soit la source : personnes, dates ou chiffres inventés.

Défenses GEO

Faits explicites et sans ambiguïté : les énoncés déclaratifs ne laissent au modèle aucune marge de mauvaise interprétation. « inblog a été fondée en 2020 » vaut mieux qu'une formulation vague.

Associer des sources aux chiffres : chaque statistique doit comporter sa source et son année afin que les pipelines RAG puissent se verrouiller sur la citation.

Éviter les quantificateurs vagues : « Beaucoup », « la plupart », « significatif », le modèle y substituera un chiffre inventé. Utilisez des données concrètes.

Nommage de marque cohérent : unifiez les noms de produit et d'entreprise. Mélanger « inblog », « Inblog » et « In Blog » amène les modèles à les traiter comme des entités distinctes ou confuses.

FAQ structurées : les blocs questions-réponses augmentent considérablement l'exactitude des citations.

Balisage Schema.org : les données structurées Organization, Article et FAQPage aident les LLM à identifier les entités sans ambiguïté.

Sources: