Indexability
Indexability (индексируемость) - это состояние, при котором поисковая система может проанализировать просканированную страницу, сохранить её в индексе (базе данных поиска) и показать в результатах поиска. Если crawlability (сканируемость) спрашивает "может ли поисковая система получить доступ к этой странице", то индексируемость спрашивает "достойна ли страница, к которой получен доступ, попасть в индекс".
Indexability (индексируемость) - это состояние, при котором поисковая система может проанализировать просканированную страницу, сохранить её в индексе (базе данных поиска) и показать в результатах поиска. Если crawlability (сканируемость) спрашивает "может ли поисковая система получить доступ к этой странице", то индексируемость спрашивает "достойна ли страница, к которой получен доступ, попасть в индекс".
Почему это важно
То, что страница просканирована, не гарантирует её индексацию. Официальная документация Google прямо указывает, что индексация не гарантируется и что не каждая обработанная Google страница попадёт в индекс. Страница, которая так и не попала в индекс, не может ранжироваться ни по чему, каким бы хорошим ни был её контент, - индексируемость является необходимым условием любой видимости в поиске.
Чем крупнее становится сайт, тем легче страницам застрять в состоянии "Просканировано - в настоящее время не проиндексировано". Проблемы сканируемости заметить относительно легко, потому что боты блокируются напрямую, а вот проблемы индексируемости коварнее: страница нормально открывается для посетителей и просто невидима в поиске, поэтому их часто не замечают месяцами.
Отличие от сканируемости
| Аспект | Crawlability (сканируемость) | Indexability (индексируемость) |
|---|---|---|
| Вопрос | Может ли поисковая система получить доступ к странице и прочитать её? | Может ли страница быть сохранена в индексе и показана в результатах? |
| Блокирующие факторы | блокировка robots.txt, ошибки сервера, битые ссылки | noindex, canonical, коды статуса 4xx/5xx, низкокачественный контент |
| Связь | Предварительное условие | Оценивается после успешного сканирования |
Эти два понятия последовательны. Страница, которая не была просканирована, даже не оценивается на индексацию; только страницы, успешно прошедшие сканирование, переходят на этап индексируемости.
Что определяет индексируемость
- Директивы noindex: если на странице есть мета-тег noindex или заголовок X-Robots-Tag, поисковые системы исключают её из индекса.
- Сигналы canonical: если canonical URL указывает на другую страницу, эта страница классифицируется как "альтернативная" и исключается из индексации. Google группирует похожие страницы и индексирует только одну репрезентативную страницу на кластер.
- Коды статуса HTTP: индексироваться могут только страницы, возвращающие ответ 200. Ошибки 404/410, ошибки 5xx, soft 404 и перенаправляемые URL исключаются.
- Связь с robots.txt: блокировка в robots.txt останавливает сканирование, а не индексацию. Хуже того, у заблокированной страницы нельзя прочитать тег noindex, поэтому URL всё равно может попасть в индекс за счёт одних только внешних ссылок.
- Качество контента: даже технически индексируемая страница может быть пропущена, если её контент тонкий или дублирующий - частая причина за статусом "Просканировано - в настоящее время не проиндексировано".
Как проверить
Отчёт об индексировании страниц (Page Indexing) в Google Search Console группирует все непроиндексированные страницы по причинам - "Исключено тегом noindex", "Альтернативная страница с правильным тегом canonical", "Просканировано - в настоящее время не проиндексировано" и так далее, - что показывает, является ли каждое исключение намеренным или это проблема, которую нужно исправить. Для отдельных URL инструмент проверки URL показывает статус индексации и canonical, который Google выбрал на самом деле.
Источники:
- In-depth guide to how Google Search works - Google Search Central
- Page Indexing report - Search Console Help
- Indexability: Make sure search engines can actually find and rank you - Search Engine Land
Чем помогает inblog
inblog автоматически обрабатывает основы индексируемости для каждого опубликованного материала: чистые ответы 200, тег canonical для каждого поста и автоматически генерируемую карту сайта. Посты, которые вы хотите держать вне поиска, можно исключить с помощью настройки noindex для конкретного поста. После публикации возьмите за привычку проверять отчёт об индексировании страниц в Search Console, чтобы убедиться, что ваши посты действительно попали в индекс.