Краулинг сайта: что это и как улучшить
Краулинг (crawlability) — способность поисковых роботов обходить страницы сайта. Проблемы с краулингом приводят к тому что страницы не попадают в индекс.
Что такое краулинг
Краулинг (crawling) — процесс автоматического обхода веб-страниц поисковыми роботами (краулерами). Googlebot, YandexBot и другие роботы систематически переходят по ссылкам и сохраняют содержимое страниц для дальнейшей индексации.
Краулабельность (crawlability) — степень доступности страниц сайта для обхода роботами.
Процесс краулинга и индексации
1. Краулинг → 2. Парсинг → 3. Индексация → 4. Ранжирование
(обход) (анализ HTML) (добавление (позиции
в базу) в поиске)
Страница должна пройти все четыре этапа чтобы появиться в результатах поиска.
Причины проблем с краулингом
1. Блокировка в robots.txt
# Запрет на обход всего сайта
User-agent: *
Disallow: /
# Запрет конкретных разделов
User-agent: Googlebot
Disallow: /admin/
Disallow: /private/
2. Директива noindex
<!-- Страница не будет индексирована -->
<meta name="robots" content="noindex">
3. Закрытые ссылки (JavaScript)
Ссылки, добавляемые JavaScript после загрузки, менее доступны для краулеров. Googlebot выполняет JavaScript, но с задержкой.
4. Медленная загрузка
Crawl budget — бюджет краулинга. Медленные страницы расходуют его неэффективно.
5. Много редиректов
Длинные цепочки редиректов замедляют краулинг.
6. Дублированный контент
Много дублей «разбавляют» crawl budget на нецелевые страницы.
Crawl Budget
Crawl budget — количество страниц, которое Googlebot готов обойти за определённый период. Зависит от авторитетности сайта и скорости сервера.
Для сайтов с тысячами страниц важно:
- Закрыть ненужные URL (параметры, дубли) через robots.txt или canonical
- Улучшить скорость сервера (TTFB)
- Обновлять sitemap актуальными URL
Как улучшить краулинг
robots.txt:
- Открыть важные разделы
- Закрыть дубли, технические страницы
sitemap.xml:
- Добавить все важные URL
- Актуальный lastmod
Структура сайта:
- Плоская иерархия (не глубже 3-4 кликов)
- Внутренние ссылки на важные страницы
- Нет orphan pages (страниц без ссылок)
Сервер:
- Быстрый TTFB (< 200 мс)
- HTTP 200 для существующих страниц
- HTTP 404 для удалённых
Проверка robots.txt на reChecker
Используйте Анализатор robots.txt для проверки вашего файла robots.txt. Инструмент покажет:
- Содержимое и доступность robots.txt
- Заблокированные и разрешённые пути
- Ссылку на sitemap в robots.txt
- Директивы для конкретных ботов
FAQ
Как узнать какие страницы обошёл Googlebot? Google Search Console → Покрытие → «Действительные» и «С ошибками». Также можно анализировать логи сервера на наличие User-Agent: Googlebot.
Можно ли ускорить краулинг нового сайта? Да: отправьте sitemap в Google Search Console, используйте Google URL Inspection Tool для приоритетных страниц, убедитесь что robots.txt не блокирует важные разделы.
Если страница заблокирована в robots.txt, Google её проиндексирует? Нет. robots.txt Disallow запрещает краулинг — без обхода нет индексации. Но Google может знать об URL из ссылок других сайтов и показать «пустой» результат без содержимого.
Попробуйте инструмент
Проверьте краулинг сайта на вашем сайте с помощью бесплатного инструмента.
Анализатор robots.txt →