¿Qué es la alucinación de la IA? | Glosario GEO

La alucinación se produce cuando un gran modelo de lenguaje genera contenido que no es cierto o que carece de respaldo, pero lo presenta con gran seguridad: inventa citas, fabrica estadísticas o afirma hechos que no existen. Es la mayor amenaza para la credibilidad de las respuestas de búsqueda generadas por IA.

Por qué importa

La tabla de clasificación de alucinaciones de Stanford / Vectara de 2024 muestra que incluso los modelos de vanguardia todavía alucinan entre un 2 % y un 15 % de las veces en tareas de resumen. En 2026, cuando los usuarios se apoyan en gran medida en la búsqueda con IA, una sola cita alucinada puede dañar gravemente la confianza en la marca. Para el GEO, el reto no es solo ser citado, sino ser citado correctamente.

Por qué ocurren las alucinaciones

Generación probabilística: Los LLM predicen el siguiente token más probable, no la verdad. La "continuación más probable de la distribución de entrenamiento" no es lo mismo que "un hecho", por lo que los modelos inventan respuestas plausibles cuando en realidad no saben.

Límites de los datos de entrenamiento: Los eventos recientes, los ámbitos especializados y el contenido en idiomas distintos del inglés están escasamente representados, lo que deja vacíos.

Prompts ambiguos: Las preguntas vagas invitan al modelo a rellenar los huecos adivinando.

Contexto débil de RAG: Cuando la recuperación no devuelve pasajes relevantes, el modelo recurre a su propia "memoria", la condición de mayor riesgo de alucinación.

Tipos de alucinación

Intrínseca: Contradice directamente la fuente. El documento dice "10 millones de dólares de ingresos", el modelo dice "100 millones de dólares".

Extrínseca: Añade hechos que no están en la fuente. El modelo inventa información sin ninguna atribución.

Factual: Objetivamente errónea independientemente de la fuente: personas, fechas o cifras inventadas.

Defensas para el GEO

Hechos explícitos e inequívocos: Las afirmaciones declarativas no dejan al modelo margen para malinterpretar. "inblog se fundó en 2020" supera a un lenguaje vago.

Adjunta fuentes a las cifras: Cada estadística debería llevar su fuente y su año para que las canalizaciones de RAG puedan fijar la cita.

Evita los cuantificadores vagos: "Muchos", "la mayoría", "significativo": el modelo sustituirá esto por una cifra inventada. Usa cifras concretas.

Nomenclatura de marca coherente: Unifica los nombres de producto y de empresa. Mezclar "inblog", "Inblog" e "In Blog" hace que los modelos los traten como entidades separadas o confusas.

Preguntas frecuentes estructuradas: Los bloques de preguntas y respuestas aumentan drásticamente la exactitud de las citas.

Marcado de Schema.org: Los datos estructurados de Organization, Article y FAQPage ayudan a los LLM a identificar entidades de forma inequívoca.

Sources:

Alucinación

Por qué importa

Por qué ocurren las alucinaciones

Tipos de alucinación

Defensas para el GEO