Robots.txt: что это и зачем нужен

Robots.txt — текстовый файл в корне сайта, управляющий доступом поисковых роботов к страницам. Узнайте как правильно настроить robots.txt для SEO.

Что такое Robots.txt

Robots.txt — это текстовый файл, размещённый в корне сайта (https://example.com/robots.txt), который содержит инструкции для поисковых роботов о том, какие страницы можно сканировать, а какие нельзя.

Файл работает по протоколу Robots Exclusion Protocol (REP), принятому в 1994 году. Сегодня его поддерживают все крупные поисковые системы: Google, Yandex, Bing, DuckDuckGo.

Важно понимать: robots.txt — это рекомендация, а не приказ. Добросовестные боты соблюдают его, но злоумышленники могут игнорировать.

Зачем нужен Robots.txt

Правильно настроенный robots.txt решает несколько задач:

Экономия краулингового бюджета — не тратить лимит сканирования на технические страницы
Защита приватных разделов — не показывать admin-панели, API-эндпоинты в Google
Предотвращение дублирования — блокировка параметрических URL (?sort=, ?page=)
Ускорение индексации — роботы сосредоточатся на важных страницах

Как настроить Robots.txt

Базовая структура файла:

User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /public/
Sitemap: https://example.com/sitemap.xml

Основные директивы

User-agent — указывает, для какого робота правило:

User-agent: *          # все роботы
User-agent: Googlebot  # только Google
User-agent: YandexBot  # только Яндекс

Disallow — запрещает сканирование:

Disallow: /          # закрыть весь сайт
Disallow: /admin/    # закрыть раздел admin
Disallow: /*.pdf$    # закрыть все PDF файлы

Allow — разрешает исключения из запрета:

User-agent: *
Disallow: /private/
Allow: /private/public-page  # разрешить одну страницу

Crawl-delay — задержка между запросами (поддерживает Яндекс, не Google):

User-agent: YandexBot
Crawl-delay: 1

Sitemap — ссылка на карту сайта:

Sitemap: https://example.com/sitemap.xml

Типичные ошибки

Блокировка CSS и JS файлов — мешает Googlebot отрендерить страницы
Блокировка /api/ — если эти URL нужны для работы сайта
Использование Disallow: / для скрытия контента вместо noindex
Опечатки в путях — /Admin/ и /admin/ это разные пути

Проверка Robots.txt на reChecker

Используйте Анализатор robots.txt для проверки вашего файла. Инструмент покажет:

Синтаксические ошибки в файле
Заблокированные важные страницы
Наличие ссылки на Sitemap
Предупреждения о потенциальных проблемах

FAQ

Нужен ли robots.txt если нечего скрывать? Да, даже пустой robots.txt полезен — он позволяет указать Sitemap и показывает роботам что файл существует. Минимальная конфигурация: User-agent: *, Allow: /, Sitemap: URL.

Robots.txt скрывает страницы от Google? Нет. Robots.txt запрещает сканирование, но Google может всё равно проиндексировать URL если на него есть ссылки с других сайтов. Для полного исключения из индекса используйте meta robots noindex.

Как часто Google перечитывает robots.txt? Google кэширует robots.txt на 24 часа. После изменений можно ускорить обновление через Google Search Console → Проверка URL → Запросить индексирование.

Что такое Robots.txt

Зачем нужен Robots.txt

Как настроить Robots.txt

Основные директивы

Типичные ошибки

Проверка Robots.txt на reChecker

FAQ

Попробуйте инструмент

Статьи по теме

Примеры robots.txt для разных CMS: WordPress, Bitrix, Joomla

Robots.txt: полное руководство по настройке для SEO и веб-разработки

7 ошибок в robots.txt, которые убивают индексацию

Чек-лист технического SEO на 2026 год

Поддержка reChecker