SEO

Robots.txt

O robots.txt é um arquivo de texto de acesso público localizado no diretório raiz de um site (/robots.txt) que funciona como um protocolo padrão (Robots Exclusion Protocol) para orientar os crawlers dos mecanismos de busca sobre quais URLs eles podem acessar no site.

O robots.txt é um arquivo de texto de acesso público localizado no diretório raiz de um site (/robots.txt) que funciona como um protocolo padrão (Robots Exclusion Protocol) para orientar os crawlers dos mecanismos de busca sobre quais URLs eles podem acessar no site.

Por Que Importa

Os mecanismos de busca são limitados quanto ao número de páginas que visitam por dia, com base no orçamento de rastreamento (crawl budget) alocado para cada site. Um robots.txt bem configurado bloqueia caminhos desnecessários - como páginas de administração, endpoints de API e conteúdo duplicado - de serem rastreados, permitindo que o orçamento de rastreamento se concentre no conteúdo principal. Para sites de grande escala com milhares de páginas ou mais, essa configuração impacta diretamente a velocidade de indexação e o desempenho geral de SEO.

Desde 2025, o surgimento de crawlers de IA como GPTBot, CCBot, PerplexityBot e Google-Extended ampliou ainda mais o papel do robots.txt. O padrão mais seguro para conteúdo de marketing público é permitir o acesso dos crawlers e controlar apenas os caminhos que desperdiçam orçamento de rastreamento ou expõem áreas não públicas. Bloqueie crawlers de treinamento de IA somente quando isso estiver alinhado à sua estratégia de licenciamento de conteúdo e de visibilidade em IA.

Diretivas Principais

DiretivaDescriçãoExemplo
User-agentEspecifica a qual crawler as regras se aplicam. * significa todos os crawlers.User-agent: Googlebot
DisallowEspecifica os caminhos a serem bloqueados do rastreamento.Disallow: /admin/
AllowPermite subcaminhos específicos dentro de um caminho pai bloqueado por Disallow.Allow: /admin/public/
SitemapEspecifica a URL do sitemap XML. Por convenção, é colocada no final do arquivo.Sitemap: https://example.com/sitemap.xml
Crawl-delayDefine o tempo de espera em segundos entre as requisições do crawler. O Googlebot ignora essa diretiva.Crawl-delay: 10

Guia de Configuração

Para um blog público, a configuração básica deve ser simples:

User-agent: *
Allow: /

Sitemap: https://example.com/sitemap.xml

Adicione regras Disallow apenas para áreas que não devem ser rastreadas, como busca interna, rotas de administração, URLs de filtro duplicadas ou endpoints de API. Se você precisar bloquear crawlers específicos de treinamento de IA mantendo os crawlers de busca liberados, isole esses user agents:

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /*?*utm_

# Block AI crawlers
User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

# Sitemap
Sitemap: https://example.com/sitemap.xml

Considerações importantes:

  1. Localização do arquivo: O arquivo precisa estar na raiz do domínio (https://example.com/robots.txt). Colocá-lo em um subdiretório fará com que os crawlers não o reconheçam.
  2. Diferenciação de maiúsculas e minúsculas: Os caminhos de URL diferenciam maiúsculas de minúsculas. Disallow: /Private/ não bloqueia /private/.
  3. Correspondência de regras: O Google usa a regra correspondente mais específica. Se as regras Allow e Disallow corresponderem à mesma URL, o caminho correspondente mais longo prevalece.
  4. Tratamento de status HTTP: Um robots.txt com 404 ou 410 é tratado como se não houvesse restrições. Uma resposta 5xx pode interromper temporariamente o rastreamento, porque o Google não consegue distinguir se as regras estão indisponíveis ou intencionalmente restritivas.
  5. Testar é obrigatório: Use o relatório de robots.txt do Search Console e a ferramenta de Inspeção de URL para verificar se o Googlebot consegue acessar o arquivo e se URLs importantes não estão bloqueadas.
  6. Integração com o sitemap: Embora o recomendado seja enviar o sitemap diretamente ao Google Search Console e ao Bing Webmaster Tools, também é uma boa prática especificá-lo no robots.txt.

Erros Comuns

  • Tratá-lo como ferramenta de segurança: O robots.txt é apenas uma solicitação aos crawlers - ele não bloqueia o acesso fisicamente. Páginas sensíveis exigem medidas de segurança separadas, como autenticação no servidor ou bloqueio por IP.
  • Confundir Disallow com noindex: O Disallow bloqueia apenas o rastreamento, não a indexação. Páginas com links externos ainda podem aparecer nos resultados de busca mesmo sem serem rastreadas. Para remover completamente uma página dos resultados de busca, use a meta tag noindex.
  • Bloquear uma página antes que o Google consiga ver o noindex: Se você adicionar Disallow e noindex juntos, o Google pode nunca rastrear a página e, portanto, nunca ver a diretiva noindex.
  • Bloquear todo o site por acidente: Definir Disallow: / em User-agent: * bloqueia o acesso de todos os crawlers ao site inteiro. Um erro frequente é usar essa configuração durante uma reformulação do site ou em um ambiente de staging e esquecer de revertê-la na publicação em produção.
  • Bloquear arquivos CSS e JS: O Googlebot renderiza as páginas para avaliar o conteúdo. Bloquear o rastreamento de arquivos CSS ou JavaScript resulta em renderização incompleta e pode reduzir as pontuações de SEO.
  • Expor caminhos sensíveis no robots.txt: O robots.txt é um arquivo de acesso público que qualquer pessoa pode ver. Listar um caminho privado como /secret-admin-panel/ em Disallow, na prática, revela a existência desse caminho para o mundo externo.

Fontes:

Posts Relacionados do inblog

Como o inblog Ajuda

O inblog permite o acesso dos crawlers dos mecanismos de busca por padrão e oferece o gerenciamento de crawlers de IA (GPTBot, etc.) através do dashboard.