Robots мета-тег: что это и как управлять индексацией

Meta robots — HTML-тег для управления индексацией и краулингом конкретной страницы. Директивы noindex, nofollow, nosnippet дают точный контроль над поведением ботов.

robots-metanoindexnofollowиндексацияseo

Что такое Meta Robots

Meta robots — HTML-тег в секции <head>, управляющий поведением поисковых роботов в отношении конкретной страницы. В отличие от robots.txt (который управляет краулингом всего сайта), meta robots действует на уровне отдельной страницы.

<meta name="robots" content="noindex, nofollow">

Основные директивы Meta Robots

| Директива | Значение | |-----------|---------| | index | Страницу можно индексировать (по умолчанию) | | noindex | Не добавлять страницу в индекс | | follow | Следовать по ссылкам на странице (по умолчанию) | | nofollow | Не переходить по ссылкам страницы | | noarchive | Не сохранять кешированную копию | | nosnippet | Не показывать сниппет в поиске | | noimageindex | Не индексировать изображения страницы | | none | Эквивалент noindex, nofollow | | all | Эквивалент index, follow |

Комбинирование директив

<!-- Не индексировать, но следовать ссылкам -->
<meta name="robots" content="noindex, follow">

<!-- Индексировать, но не следовать ссылкам -->
<meta name="robots" content="index, nofollow">

<!-- Не индексировать, не следовать, не кешировать -->
<meta name="robots" content="noindex, nofollow, noarchive">

Директивы для конкретных роботов

<!-- Только для Googlebot -->
<meta name="googlebot" content="noindex">

<!-- Только для Yandex -->
<meta name="yandex" content="noindex">

<!-- Для всех роботов -->
<meta name="robots" content="noindex">

HTTP заголовок X-Robots-Tag

Для файлов без HTML (PDF, изображения) используйте HTTP заголовок:

# Nginx: noindex для PDF файлов
location ~* \.pdf$ {
    add_header X-Robots-Tag "noindex, nofollow";
}
HTTP/1.1 200 OK
X-Robots-Tag: noindex
Content-Type: application/pdf

Когда использовать noindex

Добавьте noindex для страниц которые не должны быть в поиске:

Страницы входа и регистрации     → /login, /register
Административные панели          → /admin/*
Страницы корзины/оформления      → /cart, /checkout
Страницы «Спасибо»               → /thank-you
Технические страницы             → /api-test, /debug
Дублированные URL с параметрами  → /?sort=price&color=red
Предварительные версии           → /staging/*

Robots.txt vs Meta Robots: что выбрать

| Аспект | robots.txt | meta robots | |--------|-----------|-------------| | Действие | Запрет краулинга | Запрет индексации | | Уровень | Весь сайт/раздел | Одна страница | | Краулинг | Блокирует | Не блокирует | | Точность | URL-паттерны | Конкретная страница |

Для запрета индексации — meta robots. Для экономии crawl budget — robots.txt Disallow.

Проверка на reChecker

Используйте Анализатор robots.txt для проверки настроек индексации вашего сайта. Инструмент анализирует robots.txt и покажет заблокированные разделы.

FAQ

Если страница в robots.txt Disallow и meta noindex — что главнее? robots.txt Disallow блокирует краулинг — робот не зайдёт на страницу и не прочитает meta noindex. Если хотите чтобы Google увидел noindex — уберите Disallow из robots.txt. Краулинг для noindex-страниц должен быть разрешён.

Noindex удаляет страницу из индекса моментально? Нет. Google должен сначала снова посетить страницу и прочитать noindex. Страница останется в индексе до следующего краулинга (дни или недели). Принудительно: Google Search Console → URL Inspection → Request Indexing (парадоксально, но это ускоряет и деиндексацию).

Нужен ли noindex для дублей если есть canonical? Canonical — «подсказка» Google. Noindex — директива. Для надёжности при важных дублях можно использовать оба, но canonical обычно достаточно.

Попробуйте инструмент

Проверьте robots мета-тег на вашем сайте с помощью бесплатного инструмента.

Анализатор robots.txt

Техническая поддержка

Нашли баг, сбой или ошибку в работе сервиса? Есть предложение по улучшению? Напишите нам — мы читаем каждое сообщение и стараемся быстро исправлять проблемы.