Crawl Budget
Crawl budget e o numero de URLs de um site que mecanismos de busca como o Google vao rastrear (descobrir) dentro de um determinado periodo. Como os mecanismos de busca tem recursos finitos distribuidos entre bilhoes de sites, eles alocam uma quantidade limitada de capacidade de rastreamento a cada site.
Crawl budget e o numero de URLs de um site que mecanismos de busca como o Google vao rastrear (descobrir) dentro de um determinado periodo. Como os mecanismos de busca tem recursos finitos distribuidos entre bilhoes de sites, eles alocam uma quantidade limitada de capacidade de rastreamento a cada site.
Por Que Importa
Os mecanismos de busca precisam rastrear e indexar uma pagina antes que ela possa aparecer nos resultados de busca. Um crawl budget insuficiente significa que paginas importantes podem ficar sem ser descobertas ou que conteudo atualizado pode nao se refletir nos resultados de busca prontamente.
A maioria dos sites pequenos nao precisa se preocupar com o crawl budget - o Google lida com o rastreamento de forma eficiente em sites menores. No entanto, a gestao do crawl budget se torna critica para:
- Sites grandes: Sites com mais de 10.000 paginas, em que os rastreadores podem nao visitar todas as paginas. Segundo a analise da Botify de 6,2 bilhoes de requisicoes do Googlebot em 413 milhoes de paginas, 77% das paginas de sites grandes recebem zero trafego de busca.
- Conteudo que muda com frequencia: Sites de noticias, plataformas de e-commerce ou qualquer site em que o conteudo se atualiza regularmente.
- Sites com problemas tecnicos de rastreamento: Aqueles com cadeias de redirecionamento, links quebrados ou conteudo duplicado em excesso.
Componentes
O crawl budget e determinado por dois fatores: Demanda de Rastreamento (Crawl Demand) e Limite de Capacidade de Rastreamento (Crawl Capacity Limit).
A Demanda de Rastreamento reflete o quanto o Google quer rastrear um site, sendo influenciada por:
- Inventario percebido: O Google tenta rastrear todas as paginas conhecidas, a menos que sejam bloqueadas via robots.txt ou codigos de status HTTP.
- Popularidade: Sites com backlinks de qualidade e maior trafego sao rastreados com mais frequencia.
- Frescor de conteudo: Sites atualizados regularmente (como veiculos de noticias) sao rastreados com mais frequencia do que paginas estaticas.
O Limite de Capacidade de Rastreamento e o teto que o Google estabelece para evitar sobrecarregar um servidor. Tempos de resposta mais rapidos do site permitem mais rastreamento, enquanto erros frequentes do servidor reduzem a frequencia de rastreamento.
Como Otimizar
- Melhore a velocidade do site: Tempos de resposta do servidor mais rapidos permitem que os rastreadores processem mais paginas no mesmo intervalo de tempo.
- Fortaleca os links internos: Direcione os rastreadores para paginas importantes por meio de um posicionamento estrategico de links internos.
- Mantenha os sitemaps XML: Exclua URLs duplicadas ou sem importancia e mantenha os sitemaps atualizados.
- Use o robots.txt de forma eficaz: Bloqueie paginas desnecessarias (paginas de admin, paginas de filtro) para evitar o desperdicio de crawl budget.
- Elimine cadeias de redirecionamento: Redirecionamentos em varios passos consomem crawl budget desnecessariamente. Aponte os redirecionamentos diretamente para os destinos finais.
- Corrija links internos quebrados: Links que retornam erros 404 desperdicam recursos do rastreador.
- Resolva o conteudo duplicado: Muitas paginas identicas ou quase identicas podem esgotar todo o crawl budget. Use tags canonicas para consolidar.
Monitoramento
O relatorio Estatisticas de Rastreamento do Google Search Console mostra o total de requisicoes de rastreamento, os tamanhos de download e os tempos de resposta ao longo de periodos de 90 dias. Uma queda repentina na frequencia de rastreamento ou um pico nas taxas de erro do servidor sinaliza problemas de crawl budget.
Fontes: