Что такое Meta Robots
Meta robots — HTML-тег в секции <head>, управляющий поведением поисковых роботов в отношении конкретной страницы. В отличие от robots.txt (который управляет краулингом всего сайта), meta robots действует на уровне отдельной страницы.
<meta name="robots" content="noindex, nofollow">
Основные директивы Meta Robots
| Директива | Значение |
|---|---|
index | Страницу можно индексировать (по умолчанию) |
noindex | Не добавлять страницу в индекс |
follow | Следовать по ссылкам на странице (по умолчанию) |
nofollow | Не переходить по ссылкам страницы |
noarchive | Не сохранять кешированную копию |
nosnippet | Не показывать сниппет в поиске |
noimageindex | Не индексировать изображения страницы |
none | Эквивалент noindex, nofollow |
all | Эквивалент index, follow |
Комбинирование директив
<!-- Не индексировать, но следовать ссылкам -->
<meta name="robots" content="noindex, follow">
<!-- Индексировать, но не следовать ссылкам -->
<meta name="robots" content="index, nofollow">
<!-- Не индексировать, не следовать, не кешировать -->
<meta name="robots" content="noindex, nofollow, noarchive">
Директивы для конкретных роботов
<!-- Только для Googlebot -->
<meta name="googlebot" content="noindex">
<!-- Только для Yandex -->
<meta name="yandex" content="noindex">
<!-- Для всех роботов -->
<meta name="robots" content="noindex">
HTTP заголовок X-Robots-Tag
Для файлов без HTML (PDF, изображения) используйте HTTP заголовок:
# Nginx: noindex для PDF файлов
location ~* \.pdf$ {
add_header X-Robots-Tag "noindex, nofollow";
}
HTTP/1.1 200 OK
X-Robots-Tag: noindex
Content-Type: application/pdf
Когда использовать noindex
Добавьте noindex для страниц которые не должны быть в поиске:
Страницы входа и регистрации → /login, /register
Административные панели → /admin/*
Страницы корзины/оформления → /cart, /checkout
Страницы «Спасибо» → /thank-you
Технические страницы → /api-test, /debug
Дублированные URL с параметрами → /?sort=price&color=red
Предварительные версии → /staging/*
Robots.txt vs Meta Robots: что выбрать
| Аспект | robots.txt | meta robots |
|---|---|---|
| Действие | Запрет краулинга | Запрет индексации |
| Уровень | Весь сайт/раздел | Одна страница |
| Краулинг | Блокирует | Не блокирует |
| Точность | URL-паттерны | Конкретная страница |
Для запрета индексации — meta robots. Для экономии crawl budget — robots.txt Disallow.
Проверка на reChecker
Используйте Анализатор robots.txt для проверки настроек индексации вашего сайта. Инструмент анализирует robots.txt и покажет заблокированные разделы.
FAQ
Если страница в robots.txt Disallow и meta noindex — что главнее? robots.txt Disallow блокирует краулинг — робот не зайдёт на страницу и не прочитает meta noindex. Если хотите чтобы Google увидел noindex — уберите Disallow из robots.txt. Краулинг для noindex-страниц должен быть разрешён.
Noindex удаляет страницу из индекса моментально? Нет. Google должен сначала снова посетить страницу и прочитать noindex. Страница останется в индексе до следующего краулинга (дни или недели). Принудительно: Google Search Console → URL Inspection → Request Indexing (парадоксально, но это ускоряет и деиндексацию).
Нужен ли noindex для дублей если есть canonical? Canonical — «подсказка» Google. Noindex — директива. Для надёжности при важных дублях можно использовать оба, но canonical обычно достаточно.