Robots.txt: что это и зачем нужен

Robots.txt — текстовый файл в корне сайта, управляющий доступом поисковых роботов к страницам. Узнайте как правильно настроить robots.txt для SEO.

seorobots-txtкраулингиндексация

Что такое Robots.txt

Robots.txt — это текстовый файл, размещённый в корне сайта (https://example.com/robots.txt), который содержит инструкции для поисковых роботов о том, какие страницы можно сканировать, а какие нельзя.

Файл работает по протоколу Robots Exclusion Protocol (REP), принятому в 1994 году. Сегодня его поддерживают все крупные поисковые системы: Google, Yandex, Bing, DuckDuckGo.

Важно понимать: robots.txt — это рекомендация, а не приказ. Добросовестные боты соблюдают его, но злоумышленники могут игнорировать.

Зачем нужен Robots.txt

Правильно настроенный robots.txt решает несколько задач:

  • Экономия краулингового бюджета — не тратить лимит сканирования на технические страницы
  • Защита приватных разделов — не показывать admin-панели, API-эндпоинты в Google
  • Предотвращение дублирования — блокировка параметрических URL (?sort=, ?page=)
  • Ускорение индексации — роботы сосредоточатся на важных страницах

Как настроить Robots.txt

Базовая структура файла:

User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /public/
Sitemap: https://example.com/sitemap.xml

Основные директивы

User-agent — указывает, для какого робота правило:

User-agent: *          # все роботы
User-agent: Googlebot  # только Google
User-agent: YandexBot  # только Яндекс

Disallow — запрещает сканирование:

Disallow: /          # закрыть весь сайт
Disallow: /admin/    # закрыть раздел admin
Disallow: /*.pdf$    # закрыть все PDF файлы

Allow — разрешает исключения из запрета:

User-agent: *
Disallow: /private/
Allow: /private/public-page  # разрешить одну страницу

Crawl-delay — задержка между запросами (поддерживает Яндекс, не Google):

User-agent: YandexBot
Crawl-delay: 1

Sitemap — ссылка на карту сайта:

Sitemap: https://example.com/sitemap.xml

Типичные ошибки

  1. Блокировка CSS и JS файлов — мешает Googlebot отрендерить страницы
  2. Блокировка /api/ — если эти URL нужны для работы сайта
  3. Использование Disallow: / для скрытия контента вместо noindex
  4. Опечатки в путях — /Admin/ и /admin/ это разные пути

Проверка Robots.txt на reChecker

Используйте Анализатор robots.txt для проверки вашего файла. Инструмент покажет:

  • Синтаксические ошибки в файле
  • Заблокированные важные страницы
  • Наличие ссылки на Sitemap
  • Предупреждения о потенциальных проблемах

FAQ

Нужен ли robots.txt если нечего скрывать? Да, даже пустой robots.txt полезен — он позволяет указать Sitemap и показывает роботам что файл существует. Минимальная конфигурация: User-agent: *, Allow: /, Sitemap: URL.

Robots.txt скрывает страницы от Google? Нет. Robots.txt запрещает сканирование, но Google может всё равно проиндексировать URL если на него есть ссылки с других сайтов. Для полного исключения из индекса используйте meta robots noindex.

Как часто Google перечитывает robots.txt? Google кэширует robots.txt на 24 часа. После изменений можно ускорить обновление через Google Search Console → Проверка URL → Запросить индексирование.

Попробуйте инструмент

Проверьте robots.txt на вашем сайте с помощью бесплатного инструмента.

Анализатор robots.txt

Техническая поддержка

Нашли баг, сбой или ошибку в работе сервиса? Есть предложение по улучшению? Напишите нам — мы читаем каждое сообщение и стараемся быстро исправлять проблемы.