Prompt Caching
Prompt caching e o recurso pelo qual um provedor de LLM armazena e reutiliza o prefixo repetido de um prompt (system prompt, historico da conversa, documento longo) ao longo de varias requisicoes. Em vez de reprocessar os mesmos tokens toda vez, o modelo os carrega do cache - reduzindo drasticamente custo e latencia. A Anthropic introduziu o recurso no Claude em 2024, seguida por OpenAI e Google, e ele se tornou um recurso padrao das APIs de LLM ate 2026.
Prompt caching e o recurso pelo qual um provedor de LLM armazena e reutiliza o prefixo repetido de um prompt (system prompt, historico da conversa, documento longo) ao longo de varias requisicoes. Em vez de reprocessar os mesmos tokens toda vez, o modelo os carrega do cache - reduzindo drasticamente custo e latencia. A Anthropic introduziu o recurso no Claude em 2024, seguida por OpenAI e Google, e ele se tornou um recurso padrao das APIs de LLM ate 2026.
Por que importa
Pipelines de RAG e agentes injetam system prompts longos, historico de conversa e documentos recuperados em cada requisicao. Dez repeticoes significam dez computacoes pagas pelo preco cheio. A documentacao da Anthropic relata reducao de ate 90% no custo e 85% na latencia da parte armazenada em cache. Aplicativos de IA em producao reestruturaram fundamentalmente sua economia em torno do prompt caching.
Como funciona
- Marque secoes cacheaveis: O desenvolvedor marca explicitamente quais partes do prompt sao seguras para o cache (a Anthropic usa blocos
cache_control; a OpenAI faz cache automaticamente). - Primeira requisicao (gravacao no cache): O modelo processa o prompt completo e armazena a secao marcada no cache. Essa requisicao, na verdade, custa um pouco mais por conta da sobrecarga de gravacao no cache.
- Requisicoes subsequentes (leitura do cache): Quando chega uma requisicao com o mesmo prefixo, o modelo carrega o estado interno a partir do cache. Esses tokens sao cobrados a cerca de 10% do preco de entrada.
- TTL do cache: Os caches normalmente duram ~5 minutos (Anthropic) ou mais e sao removidos automaticamente quando nao usados.
Quando usar
System prompts de chatbot: Fazer cache de milhares de tokens de papel, restricoes e exemplos em vez de reprocessa-los a cada turno.
QA de documentos longos: Enfiar um livro, PDF ou manual no contexto e fazer muitas perguntas. O documento fica em cache; so a pergunta muda.
Definicoes de ferramentas de agente: Faca cache de milhares de tokens de schemas de ferramentas para que cada chamada de ferramenta tenha menos latencia.
Assistentes de codigo: Carregar todo o codigo de um projeto no contexto para muitas perguntas de acompanhamento.
Pipelines de RAG: Faca cache dos documentos fixos frequentemente recuperados para economizar custo em consultas repetidas.
Ressalvas
Correspondencia exata: O prefixo em cache precisa corresponder token a token. Injetar dados variaveis como datas ou IDs de usuario no system prompt quebra o cache. Mova as partes variaveis para depois da regiao em cache.
Tamanho minimo de cache: A Anthropic exige pelo menos 1.024 tokens (Sonnet/Opus) para fazer cache. Prompts curtos nao ganham nada.
Gerenciamento de TTL: Uma requisicao precisa chegar dentro da janela de TTL para um acerto de cache. Servicos de baixo trafego precisam "manter o cache quente" por meio de requisicoes de heartbeat periodicas.
Sobrecarga de gravacao: A primeira requisicao custa um pouco mais. Sem reutilizacao, voce perde dinheiro.
Evolucao em 2026
Caches mais longos: Alguns provedores agora oferecem TTLs de horas a dias, uteis para agentes empresariais e chatbots sempre ativos.
Cache por usuario: System prompts personalizados em cache por usuario.
RAG hibrido: Cache de chunks frequentemente recuperados para pular a busca vetorial em consultas repetidas.
Implicacoes para o GEO
Para que um mecanismo de busca por IA reutilize o conteudo de um blog em muitas consultas, o conteudo precisa estar em uma "forma estavel e amigavel ao cache". Mudancas frequentes de URL ou personalizacao dinamica dentro da pagina quebram o cache. Blogs que entregam Markdown estruturado, URLs estaveis e geracao estatica tem mais chance de serem reutilizados como fontes de baixo custo pela infraestrutura de busca por IA.
Fontes: