Что такое noindex? | SEO-глоссарий

Noindex - это директива мета-тега robots, которая указывает поисковым системам не включать конкретную страницу в результаты поиска. Её можно задать через HTML-тег <meta> или заголовок HTTP-ответа (X-Robots-Tag), предотвращая появление страницы на страницах результатов поиска (SERP), таких как Google и Bing.

Почему это важно

Поисковые системы стремятся просканировать и проиндексировать каждую страницу сайта. Однако не всем страницам стоит появляться в результатах поиска. Если такие страницы, как страницы входа, страницы внутренних результатов поиска, страницы благодарности или страницы тестового окружения, попадают в индекс, краулинговый бюджет растрачивается, возникают проблемы с дублированным контентом, а общая оценка качества сайта поисковыми системами может ухудшиться. Правильное использование noindex позволяет направить поисковые системы на то, чтобы они сосредоточили краулинговые ресурсы на страницах, которые действительно приносят пользу.

Как настроить

Способ с HTML-мета-тегом

Добавьте следующий тег в секцию <head> страницы:

<meta name="robots" content="noindex">

Вы также можете нацелиться на конкретные поисковые системы. Например, чтобы применить noindex только к Google, измените атрибут name на googlebot:

<meta name="googlebot" content="noindex">

Чтобы также заблокировать сканирование ссылок, используйте nofollow вместе:

<meta name="robots" content="noindex, nofollow">

Способ с HTTP-заголовком (X-Robots-Tag)

Для не-HTML-ресурсов (PDF, изображения и т. д.), куда нельзя вставить мета-теги, задайте директиву в заголовке ответа сервера:

X-Robots-Tag: noindex

В таких фреймворках, как Next.js, вы можете задавать заголовки ответа напрямую внутри API-маршрутов или getServerSideProps.

Когда использовать

Применение noindex рекомендуется для следующих типов страниц:

Страницы внутренних результатов поиска: динамические страницы, генерируемые функцией поиска по сайту, могут восприниматься поисковыми системами как дублированный контент.
Страницы входа, регистрации и профиля: страницы с персональными данными, которые не нужно показывать в результатах поиска.
Страницы благодарности: страницы подтверждения, отображаемые после отправки формы, не имеют ценности с точки зрения поискового трафика.
Тестовые и временные окружения: предотвращает случайное индексирование разрабатываемых сайтов. Однако убедитесь, что noindex удалён при развёртывании в продакшен.
Страницы с дублированным контентом: при этом, если связь между канонической страницей и дубликатом ясна, более подходящим решением может быть тег canonical.
Страницы только для администраторов: дашборды, админ-панели и подобные страницы не нуждаются в показе в поиске.

Различия между noindex и Disallow

Noindex и директиву Disallow в robots.txt часто путают, но их поведение принципиально различается.

Атрибут	noindex (мета-тег)	Disallow (robots.txt)
Функция	Исключает страницу из результатов поиска	Полностью блокирует доступ краулера к странице
Индексирование	Разрешает сканирование, но блокирует индексирование	Блокирует сканирование, но страница всё ещё может попасть в индекс по внешним ссылкам
Ссылочный вес	Ссылочная ценность (link equity) со страницы всё ещё может передаваться	Краулеры не могут прочитать страницу, поэтому ссылочная ценность не передаётся
Область применения	Точное управление на уровне отдельной страницы	Пакетное управление на уровне каталога или шаблона URL

Самое важное предостережение: нельзя использовать оба одновременно. Если сканирование заблокировано через robots.txt, поисковая система не может прочитать тег noindex на странице, из-за чего директива noindex игнорируется, и страница может остаться в результатах поиска. Чтобы надёжно исключить страницу из результатов поиска, разрешите сканирование и используйте мета-тег noindex.

Источники:

Связанные материалы inblog

Чем помогает inblog

inblog позволяет задавать noindex для отдельных постов или страниц тегов, чтобы нежелательные страницы не попадали в индекс.