O que e um Transformer? | Glossario GEO

O Transformer e a arquitetura de deep learning apresentada no artigo de 2017 da Google "Attention Is All You Need". Por meio da self-attention, cada elemento de uma sequencia de entrada faz referencia a todos os outros para construir contexto. Todo LLM relevante em 2026 - GPT, Claude, Gemini, Llama - roda sobre uma variante do Transformer.

Por Que Importa

As RNNs e LSTMs que precederam o Transformer perdiam contexto ao longo de frases longas e eram dificeis de paralelizar, o que limitava o treinamento em larga escala. O Transformer resolveu os dois problemas de uma vez e abriu a era do "AI scaling". As experiencias de busca do ChatGPT e do Claude de hoje so existem por causa dele. Entender a arquitetura e a base para compreender por que os LLMs citam bem alguns conteudos e ignoram outros.

Mecanica Central

Self-attention: cada palavra de uma frase calcula uma pontuacao de relevancia com todas as outras palavras. Em "A empresa escolheu o inblog, e eles triplicaram o trafego do blog", a self-attention descobre que "eles" se refere a "a empresa", e nao ao "inblog".

Multi-head attention: varias cabecas de atencao rodam em paralelo, cada uma aprendendo um tipo diferente de relacao (sintatica, semantica, posicional).

Positional encoding: como a propria atencao nao tem ordenacao, vetores de posicao sao injetados para que o modelo saiba a ordem das palavras.

Camadas feed-forward: a representacao de cada posicao e enriquecida por meio de transformacoes nao lineares.

Empilhamento de camadas: dezenas a centenas de blocos Transformer empilhados para aprender representacoes contextuais profundas.

Principais Variantes

Apenas encoder (BERT, RoBERTa): compreensao bidirecional da entrada. Forte para classificacao e embeddings. O ranqueamento BERT da Busca da Google esta nessa familia.

Apenas decoder (GPT, Claude, Llama): previsao do proximo token da esquerda para a direita, otimizada para geracao. A maioria dos LLMs de 2026 e apenas decoder.

Encoder-decoder (T5, BART): bom para tarefas que primeiro entendem a entrada e depois geram uma nova saida - traducao, resumo.

Sparse attention e Mixture-of-Experts: reduzem o custo de computacao de contextos longos e modelos grandes ao computar apenas um subconjunto. Usado em modelos de fronteira como o Claude Opus 4.8 e o Gemini 3.5.

Limitacoes

Complexidade quadratica: a self-attention padrao e O(n²) no comprimento da sequencia. Em contextos de 1 milhao de tokens, a conta explode - o motivo pelo qual existem otimizacoes como FlashAttention e atencao linear.

Lost in the middle: contextos muito longos enfraquecem a atencao do modelo sobre o conteudo do meio. E por isso que voce coloca informacoes-chave no inicio e no fim da sua escrita.

Alucinacoes: como o Transformer gera a partir de padroes aprendidos, ele pode responder com confianca fora da distribuicao de treinamento.

Natureza de caixa-preta: as pontuacoes de atencao sao parcialmente interpretaveis, mas os processos reais de decisao continuam dificeis de explicar.

Implicacoes para o GEO

Os LLMs baseados em Transformer processam o conteudo de forma diferente da maneira como o SEO classico pensa sobre ele.

Consistencia contextual: como a atencao aprende relacoes palavra a palavra, paragrafos com pronomes, referentes e palavras de topico claramente ligados sao melhor compreendidos.

Palavras de topico explicitas: a atencao recompensa a autorreferencia consistente de termos-chave. A repeticao natural da palavra-chave principal ao longo de uma secao aguca o sinal de topico.

Inicio e fim importam: dado o efeito "lost in the middle", coloque as informacoes-chave no inicio e no fim de um post.

Marcadores estruturais: a atencao usa titulos ###, listas e tabelas como fronteiras semanticas. Conteudo bem estruturado e analisado melhor.

Fontes: