SEO

Indexability

Indexability (индексируемость) - это состояние, при котором поисковая система может проанализировать просканированную страницу, сохранить её в индексе (базе данных поиска) и показать в результатах поиска. Если crawlability (сканируемость) спрашивает "может ли поисковая система получить доступ к этой странице", то индексируемость спрашивает "достойна ли страница, к которой получен доступ, попасть в индекс".

Indexability (индексируемость) - это состояние, при котором поисковая система может проанализировать просканированную страницу, сохранить её в индексе (базе данных поиска) и показать в результатах поиска. Если crawlability (сканируемость) спрашивает "может ли поисковая система получить доступ к этой странице", то индексируемость спрашивает "достойна ли страница, к которой получен доступ, попасть в индекс".

Почему это важно

То, что страница просканирована, не гарантирует её индексацию. Официальная документация Google прямо указывает, что индексация не гарантируется и что не каждая обработанная Google страница попадёт в индекс. Страница, которая так и не попала в индекс, не может ранжироваться ни по чему, каким бы хорошим ни был её контент, - индексируемость является необходимым условием любой видимости в поиске.

Чем крупнее становится сайт, тем легче страницам застрять в состоянии "Просканировано - в настоящее время не проиндексировано". Проблемы сканируемости заметить относительно легко, потому что боты блокируются напрямую, а вот проблемы индексируемости коварнее: страница нормально открывается для посетителей и просто невидима в поиске, поэтому их часто не замечают месяцами.

Отличие от сканируемости

АспектCrawlability (сканируемость)Indexability (индексируемость)
ВопросМожет ли поисковая система получить доступ к странице и прочитать её?Может ли страница быть сохранена в индексе и показана в результатах?
Блокирующие факторыблокировка robots.txt, ошибки сервера, битые ссылкиnoindex, canonical, коды статуса 4xx/5xx, низкокачественный контент
СвязьПредварительное условиеОценивается после успешного сканирования

Эти два понятия последовательны. Страница, которая не была просканирована, даже не оценивается на индексацию; только страницы, успешно прошедшие сканирование, переходят на этап индексируемости.

Что определяет индексируемость

  1. Директивы noindex: если на странице есть мета-тег noindex или заголовок X-Robots-Tag, поисковые системы исключают её из индекса.
  2. Сигналы canonical: если canonical URL указывает на другую страницу, эта страница классифицируется как "альтернативная" и исключается из индексации. Google группирует похожие страницы и индексирует только одну репрезентативную страницу на кластер.
  3. Коды статуса HTTP: индексироваться могут только страницы, возвращающие ответ 200. Ошибки 404/410, ошибки 5xx, soft 404 и перенаправляемые URL исключаются.
  4. Связь с robots.txt: блокировка в robots.txt останавливает сканирование, а не индексацию. Хуже того, у заблокированной страницы нельзя прочитать тег noindex, поэтому URL всё равно может попасть в индекс за счёт одних только внешних ссылок.
  5. Качество контента: даже технически индексируемая страница может быть пропущена, если её контент тонкий или дублирующий - частая причина за статусом "Просканировано - в настоящее время не проиндексировано".

Как проверить

Отчёт об индексировании страниц (Page Indexing) в Google Search Console группирует все непроиндексированные страницы по причинам - "Исключено тегом noindex", "Альтернативная страница с правильным тегом canonical", "Просканировано - в настоящее время не проиндексировано" и так далее, - что показывает, является ли каждое исключение намеренным или это проблема, которую нужно исправить. Для отдельных URL инструмент проверки URL показывает статус индексации и canonical, который Google выбрал на самом деле.

Источники:

Чем помогает inblog

inblog автоматически обрабатывает основы индексируемости для каждого опубликованного материала: чистые ответы 200, тег canonical для каждого поста и автоматически генерируемую карту сайта. Посты, которые вы хотите держать вне поиска, можно исключить с помощью настройки noindex для конкретного поста. После публикации возьмите за привычку проверять отчёт об индексировании страниц в Search Console, чтобы убедиться, что ваши посты действительно попали в индекс.