Engenharia de Contexto
Engenharia de contexto é a prática de projetar deliberadamente qual informação, em qual ordem, em qual formato um LLM enxerga quando gera uma resposta. Ela engloba a engenharia de prompt - que aprimora um único prompt - e se estende a tudo que entra na janela de contexto: system prompts, documentos recuperados, histórico da conversa, metadados do usuário, schemas de ferramentas e mais. Simon Willison, Tobi Lütke e Andrej Karpathy começaram a usar o termo publicamente em 2025 e, em 2026, ele se tornou vocabulário padrão na engenharia de produtos com LLM.
Engenharia de contexto é a prática de projetar deliberadamente qual informação, em qual ordem, em qual formato um LLM enxerga quando gera uma resposta. Ela engloba a engenharia de prompt - que aprimora um único prompt - e se estende a tudo que entra na janela de contexto: system prompts, documentos recuperados, histórico da conversa, metadados do usuário, schemas de ferramentas e mais. Simon Willison, Tobi Lütke e Andrej Karpathy começaram a usar o termo publicamente em 2025 e, em 2026, ele se tornou vocabulário padrão na engenharia de produtos com LLM.
Por que isso importa
A maioria das falhas de produtos com LLM em produção vem de "demos o contexto errado ao modelo", e não de "o modelo é ruim". Mesmo com janelas de contexto de 1M de tokens, despejar informação aleatoriamente prejudica o desempenho - o bem documentado efeito "Lost in the Middle". A engenharia de contexto trata a entrada composta (RAG, memória, ferramentas, histórico) como uma variável de projeto, e o mesmo modelo pode ter desempenho de 2 a 10 vezes melhor com uma construção de contexto melhor.
O que compõe o contexto
System prompt: instruções fixas - papel, restrições, tom, objetivos.
User prompt: a entrada do usuário neste turno.
Histórico da conversa: turnos anteriores.
Resultados de RAG: documentos e chunks relevantes vindos de um banco de dados vetorial.
Definições de ferramentas: nomes, descrições e schemas das funções chamáveis.
Resultados de chamadas de ferramentas: dados retornados de invocações anteriores de ferramentas.
Metadados do usuário: idioma, fuso horário, plano de assinatura, histórico de comportamento.
Constituição / guardrails: regras de segurança, tópicos proibidos, filtros de saída.
Tudo isso se funde em uma única janela de contexto que vai para o LLM.
Engenharia de contexto vs. engenharia de prompt
| Aspecto | Engenharia de prompt | Engenharia de contexto |
|---|---|---|
| Unidade | Uma única frase de prompt | A janela de contexto inteira |
| Preocupação | "Como eu pergunto?" | "O que eu devo mostrar?" |
| Nível | Tático (nível de frase) | Sistêmico (nível de pipeline) |
| Exemplo | Adicionar "pense passo a passo" | Decidir contagem, ordem e sumarização dos chunks de RAG |
A engenharia de prompt é o ofício de escrever boas frases; a engenharia de contexto é o ofício de projetar toda a estrutura de entrada em que essas frases vivem.
Princípios centrais
Inclua apenas o necessário: contexto mais longo significa mais "lost in the middle" e mais custo. Corte sem dó a informação irrelevante.
Ordene de forma deliberada: os LLMs pesam mais o início e o fim. Coloque as instruções e os dados mais importantes nas extremidades.
Marcação estruturada: envolva documentos externos em <source>…</source> e exemplos em <example>…</example>, para que o modelo saiba o papel de cada parte.
Seleção dinâmica: tipos diferentes de requisição merecem listas de ferramentas, resultados de RAG e system prompts diferentes. Uma solução única para tudo desperdiça tokens.
Sumarize e comprima: sumarize históricos longos para economizar tokens. Recursos como os artifacts do Claude são um exemplo canônico.
Gerencie os laços do agente: para raciocínio de múltiplas etapas, limpe e reconstrua o contexto entre as etapas.
Desafios práticos
Orçamento de tokens: janelas de contexto não são gratuitas. Preencher 1M de tokens explode o custo e a latência.
Classificação por relevância: decida quantos chunks de RAG trazer e quanto reordenar.
Estratégia de memória: memória de longo prazo em um banco de dados vetorial, memória de curto prazo via sumarização.
Depuração: quando a qualidade da saída cai, descubra qual parte do contexto é a culpada. Logging e reprodutibilidade são essenciais.
Implicações para GEO
Os mecanismos de busca por IA são, eles próprios, pipelines de engenharia de contexto. Conteúdo estruturado para "se encaixar bem no contexto" é citado mais. Especificamente: ① cada seção deve ser sumarizável de forma independente, ② a primeira frase deve carregar a resposta central, ③ os metadados e as fontes devem ser explícitos. Isso é "escrita amigável à engenharia de contexto" para blogueiros.
Fontes: