Индексируемость: что это и как проверить
Индексируемость (indexability) — способность страниц сайта попадать в поисковый индекс Google и Яндекс. Без индексации страница не появится в поиске.
Что такое индексируемость
Индексируемость (indexability) — возможность поисковых роботов не только обойти страницу, но и добавить её в поисковый индекс. Страница должна быть краулируемой И индексируемой чтобы появиться в результатах поиска.
Различие между краулингом и индексацией:
- Краулинг — робот посещает страницу
- Индексация — страница добавляется в базу данных поисковика
Что препятствует индексации
1. Meta robots noindex
<!-- Страница не попадёт в индекс -->
<meta name="robots" content="noindex">
<!-- noindex только для Google -->
<meta name="googlebot" content="noindex">
2. HTTP заголовок X-Robots-Tag
X-Robots-Tag: noindex
X-Robots-Tag: noindex, nofollow
Работает как meta robots, но на уровне HTTP — подходит для PDF и других нетекстовых файлов.
3. Canonical на другую страницу
<!-- Эта страница отдаёт «вес» другой — может не индексироваться самостоятельно -->
<link rel="canonical" href="https://example.com/main-page" />
4. Блокировка в robots.txt
Робот не может обойти страницу → не индексирует.
5. Ошибки сервера (5xx)
Если сервер постоянно возвращает 500/503, Google через время удаляет страницу из индекса.
6. Дублированный контент
Google может выбрать «лучшую» версию страницы для индексации, деиндексировав остальные.
Как проверить индексацию
Google Search Console
Введите URL в поле «Проверка URL» — инструмент покажет:
- Индексирована ли страница
- Когда последний раз посещал Googlebot
- Статус canonical
- Директивы robots
Оператор поиска site:
site:example.com/page → проверить конкретную страницу
site:example.com → общее количество страниц в индексе
Контроль индексации через директивы robots
<!-- Полный контроль через meta robots -->
<meta name="robots" content="index, follow"> <!-- по умолчанию -->
<meta name="robots" content="noindex, follow"> <!-- не индексировать, но краулить ссылки -->
<meta name="robots" content="index, nofollow"> <!-- индексировать, не следовать ссылкам -->
<meta name="robots" content="noindex, nofollow"> <!-- ничего -->
Страницы которые не нужно индексировать
- Страницы авторизации (/login, /register)
- Административные панели (/admin)
- Страницы поиска с параметрами (?q=...)
- Технические страницы (thank you pages)
- Страницы тестирования и разработки
Проверка на reChecker
Используйте Анализатор robots.txt для проверки настроек индексации вашего сайта. Инструмент покажет:
- Содержимое robots.txt и закрытые разделы
- Директивы noindex на странице
- Наличие sitemap
FAQ
Можно ли проиндексировать страницу из robots.txt Disallow? Нет. Если страница заблокирована в robots.txt, Google её не обойдёт и не проиндексирует. Снимите блокировку в robots.txt если нужна индексация.
Страница была в индексе, но исчезла — что произошло? Возможные причины: добавлена директива noindex, сервер возвращает ошибки, контент стал дублированным, страница получила manual action. Проверьте через Google Search Console.
Как быстро Google индексирует новые страницы? Для авторитетных сайтов — часы или дни. Для новых сайтов — недели. Ускорьте через sitemap и Google URL Inspection Tool → «Запросить индексацию».
Попробуйте инструмент
Проверьте индексируемость на вашем сайте с помощью бесплатного инструмента.
Анализатор robots.txt →