Настройка robots.txt
- Как настроить robots.txt
- Указать временной интервал посещения сайта поисковыми роботами
- Закрыть индексацию для конкретных папок или URL
- Закрыть весь сайт от индексации
Чтобы выставить для сайта настройки индексирования поисковыми роботами, используйте файл «robots.txt». Обратите внимание: если файла «robots.txt» ещё нет в каталоге вашего сайта, просто создайте его.
Какие настройки можно указать с помощью robots.txt:
- интервал, с которым поисковые роботы будут посещать ваш сайт;
- запретить индексацию конкретными работами и скрыть от индексации конкретные страницы сайта;
- скрыть от индексации весь сайт.
Как настроить robots.txt
Обратите внимание! Для некоторых браузеров настройки индексации нужно выставлять индивидуально. Например:
- в Google: не все поисковые роботы браузера следуют правилам в «robots.txt». Так робот «Googlebot» следует запрещающим правилам («Disallow»), но не следует директиве «Crawl-delay». Поэтому «Googlebot» нужно донастроить через инструменты для веб-мастеров Google. Подробнее в справке Google;
- в Yandex: для робота «Yandex Bot» максимально возможное ограничение через «robots.txt» составляет 2 секунды. Чтобы указать нужную частоту, с которой робот будет индексировать ваш сайт, используйте Яндекс.Вебмастер. Подробнее в справке Яндекс.
Указать временной интервал посещения сайта поисковыми роботами
Чтобы задать временной интервал обращения, авторизуйтесь в Яндекс.Вебмастер. Подробнее в справке Яндекса.
Обратите внимание:
— снижение скорости обхода сайта нужно, только если создается избыточная нагрузка на сервер;
— снижение скорости обхода сайта не влияет на позиции в поисковой выдаче браузера Яндекс.
Закрыть индексацию для конкретных папок или URL
За это отвечает директива User-agent — она определяет, для каких роботов будут применяться правила. С её помощью можно как задать отдельные правила для конкретных роботов, так и указать общие правила для всех роботов сразу.
# закрываем индексацию страницы vip.html для Googlebot:
User-agent: Googlebot
Disallow: /vip.html
# закрываем индексацию папки private всеми роботами:
User-agent: *
Disallow: /private/
# разрешаем доступ только к страницам, начинающимся с '/shared' для Yandexbot
User-agent: Yandex
Disallow: /
Allow: /shared
Закрыть весь сайт от индексации
Чтобы запретить индексацию сайта для всех поисковых роботов, добавьте в «robots.txt» следующие строки:
User-agent: *
Disallow: /