O que e Prompt Caching? | Glossario GEO

Prompt caching e o recurso pelo qual um provedor de LLM armazena e reutiliza o prefixo repetido de um prompt (system prompt, historico da conversa, documento longo) ao longo de varias requisicoes. Em vez de reprocessar os mesmos tokens toda vez, o modelo os carrega do cache - reduzindo drasticamente custo e latencia. A Anthropic introduziu o recurso no Claude em 2024, seguida por OpenAI e Google, e ele se tornou um recurso padrao das APIs de LLM ate 2026.

Por que importa

Pipelines de RAG e agentes injetam system prompts longos, historico de conversa e documentos recuperados em cada requisicao. Dez repeticoes significam dez computacoes pagas pelo preco cheio. A documentacao da Anthropic relata reducao de ate 90% no custo e 85% na latencia da parte armazenada em cache. Aplicativos de IA em producao reestruturaram fundamentalmente sua economia em torno do prompt caching.

Como funciona

Marque secoes cacheaveis: O desenvolvedor marca explicitamente quais partes do prompt sao seguras para o cache (a Anthropic usa blocos cache_control; a OpenAI faz cache automaticamente).
Primeira requisicao (gravacao no cache): O modelo processa o prompt completo e armazena a secao marcada no cache. Essa requisicao, na verdade, custa um pouco mais por conta da sobrecarga de gravacao no cache.
Requisicoes subsequentes (leitura do cache): Quando chega uma requisicao com o mesmo prefixo, o modelo carrega o estado interno a partir do cache. Esses tokens sao cobrados a cerca de 10% do preco de entrada.
TTL do cache: Os caches normalmente duram ~5 minutos (Anthropic) ou mais e sao removidos automaticamente quando nao usados.

Quando usar

System prompts de chatbot: Fazer cache de milhares de tokens de papel, restricoes e exemplos em vez de reprocessa-los a cada turno.

QA de documentos longos: Enfiar um livro, PDF ou manual no contexto e fazer muitas perguntas. O documento fica em cache; so a pergunta muda.

Definicoes de ferramentas de agente: Faca cache de milhares de tokens de schemas de ferramentas para que cada chamada de ferramenta tenha menos latencia.

Assistentes de codigo: Carregar todo o codigo de um projeto no contexto para muitas perguntas de acompanhamento.

Pipelines de RAG: Faca cache dos documentos fixos frequentemente recuperados para economizar custo em consultas repetidas.

Ressalvas

Correspondencia exata: O prefixo em cache precisa corresponder token a token. Injetar dados variaveis como datas ou IDs de usuario no system prompt quebra o cache. Mova as partes variaveis para depois da regiao em cache.

Tamanho minimo de cache: A Anthropic exige pelo menos 1.024 tokens (Sonnet/Opus) para fazer cache. Prompts curtos nao ganham nada.

Gerenciamento de TTL: Uma requisicao precisa chegar dentro da janela de TTL para um acerto de cache. Servicos de baixo trafego precisam "manter o cache quente" por meio de requisicoes de heartbeat periodicas.

Sobrecarga de gravacao: A primeira requisicao custa um pouco mais. Sem reutilizacao, voce perde dinheiro.

Evolucao em 2026

Caches mais longos: Alguns provedores agora oferecem TTLs de horas a dias, uteis para agentes empresariais e chatbots sempre ativos.

Cache por usuario: System prompts personalizados em cache por usuario.

RAG hibrido: Cache de chunks frequentemente recuperados para pular a busca vetorial em consultas repetidas.

Implicacoes para o GEO

Para que um mecanismo de busca por IA reutilize o conteudo de um blog em muitas consultas, o conteudo precisa estar em uma "forma estavel e amigavel ao cache". Mudancas frequentes de URL ou personalizacao dinamica dentro da pagina quebram o cache. Blogs que entregam Markdown estruturado, URLs estaveis e geracao estatica tem mais chance de serem reutilizados como fontes de baixo custo pela infraestrutura de busca por IA.

Fontes: