¿Qué es un Transformer? | Glosario GEO

El Transformer es la arquitectura de aprendizaje profundo presentada en el artículo de Google de 2017 "Attention Is All You Need". Mediante la autoatención, cada elemento de una secuencia de entrada hace referencia a todos los demás para construir contexto. Todos los grandes LLM de 2026, GPT, Claude, Gemini, Llama, funcionan con una variante del Transformer.

Por qué importa

Las RNN y las LSTM que precedieron al Transformer perdían contexto en oraciones largas y eran difíciles de paralelizar, lo que limitaba el entrenamiento a gran escala. El Transformer corrigió ambos problemas a la vez y abrió la era del "escalado de la IA". Las experiencias de búsqueda de ChatGPT y Claude que existen hoy lo hacen gracias a él. Comprender la arquitectura es la base para entender por qué los LLM citan bien cierto contenido y pasan por alto otro.

Mecánica central

Autoatención: cada palabra de una oración calcula una puntuación de relevancia con todas las demás palabras. En "La empresa eligió inblog, y triplicaron el tráfico de su blog", la autoatención determina que "triplicaron" se refiere a "la empresa", no a "inblog".

Atención de múltiples cabezas: varias cabezas de atención se ejecutan en paralelo, cada una aprendiendo un tipo distinto de relación (sintáctica, semántica, posicional).

Codificación posicional: como la atención en sí no tiene orden, se inyectan vectores de posición para que el modelo conozca el orden de las palabras.

Capas de propagación hacia adelante: la representación de cada posición se enriquece mediante transformaciones no lineales.

Apilamiento de capas: decenas o cientos de bloques Transformer apilados para aprender representaciones contextuales profundas.

Principales variantes

Solo codificador (BERT, RoBERTa): comprensión bidireccional de la entrada. Sólido para clasificación y embeddings. El ranking BERT de Google Search pertenece a esta familia.

Solo decodificador (GPT, Claude, Llama): predicción del siguiente token de izquierda a derecha, optimizada para la generación. La mayoría de los LLM de 2026 son solo decodificador.

Codificador-decodificador (T5, BART): bueno para tareas que primero comprenden la entrada y luego generan una salida nueva, como traducción y resumen.

Atención dispersa y Mixture-of-Experts: reducen el coste de cómputo de los contextos largos y los modelos grandes al calcular solo un subconjunto. Se usan en modelos de vanguardia como Claude Opus 4.8 y Gemini 3.5.

Limitaciones

Complejidad cuadrática: la autoatención estándar es O(n²) en la longitud de la secuencia. Con contextos de 1 M de tokens, las operaciones se disparan, la razón por la que existen optimizaciones como FlashAttention y la atención lineal.

Perdido en el medio: los contextos muy largos debilitan la atención del modelo sobre el contenido central. Por eso conviene situar la información clave al principio y al final de tu texto.

Alucinaciones: como el Transformer genera a partir de patrones aprendidos, puede responder con seguridad fuera de la distribución de entrenamiento.

Naturaleza de caja negra: las puntuaciones de atención son parcialmente interpretables, pero los procesos de decisión reales siguen siendo difíciles de explicar.

Implicaciones para el GEO

Los LLM basados en Transformer procesan el contenido de forma distinta a como lo concibe el SEO clásico.

Coherencia contextual: como la atención aprende relaciones palabra a palabra, los párrafos con pronombres, referentes y palabras temáticas claramente vinculados se comprenden mejor.

Palabras temáticas explícitas: la atención premia la autorreferencia coherente de los términos clave. La repetición natural de la palabra clave principal a lo largo de una sección afina la señal temática.

El inicio y el final importan: dado el efecto de "perdido en el medio", coloca la información clave al inicio y al final de una publicación.

Marcadores estructurales: la atención usa los encabezados ###, las listas y las tablas como límites semánticos. El contenido bien estructurado se analiza mejor.

Sources: