Загадочный robots.txt


Файл с названием robots.txt не случайно назван
загадочным в заголовке статьи. Маленький, неприметный с виду файл
играет огромную роль в продвижении ресурсов. Создаётся он для роботов
поисковых систем и содержит инструкцию для них, в которой прописано,
что им делать, куда следует смотреть, а куда смотреть запрещено.

Поэтому важно хорошо запомнить следующее:

  1. robots.txt обязательно должен быть, даже если вы не будете ничего закрывать от индексации, и ничего не будете сообщать роботам;
  2. в robots.txt обязательно следует прописывать директивы по умолчанию;
  3. все страницы сайта, продвигаемые в поисковиках, в robots.txt должны быть обязательно открыты для индексации.

Что следует прописывать в robots.txt (правильный пример robots.txt)

1) Директива определяющая главное зеркало — Host
Формально «www.имя домена.ru» и «имя_домена.ru» — два разных ресурса. И
для того, чтобы поисковая система воспринимала оба адреса как
принадлежащие одному сайту ей необходимо об этом сообщить. Делается это с
помощью директивы Host, прописываемой в robots.txt. После этой
операции, роботы поисковиков, заходя на страницу без www, будут знать,
что это зеркальная копия домена, находящегося по адресу
www.имя_домена.ru. В результате, в индексе поисковиков будут появляться
только страницы с www, а зеркал без www там не будет.
При выборе варианта адреса, который будет главным зеркалом домена следует учитывать следующие важные моменты.
Во-первых. Если блог молодой, то выбирать можно любой из вариантов. Нет
абсолютно ни какой разницы, есть www в названии блога или нет.
Во-вторых. Если проект с возрастом и уже находиться в выдаче
поисковиков, то выбирать следует адрес находящийся выше по ключевым
запросам. Если выбрать другой адрес, то следует учитывать, что склейка
адресов требует времени и на этот интервал сайт может значительно
просесть или совсем выпасть из выдачи.

2) Директива закрытия страниц от индексации — Disallow
В переводе с английского слово «disallow» означает — «запретить».
В robots.txt следует обязательно запрещать индексацию повторяющихся
страниц, которые нельзя удалить с сервера физически. Такие страницы
могут появляться при использовании движка, автоматически присваивающего
адреса и назначении новых адресов вручную. При этом автоматически
назначенные адреса не заменяются новыми и не удаляются с сайта, а
создаются зеркала страниц по новым адресам.
Если на веб-ресурсе работает внутренний поиск, то результаты этого поиска лучше закрыть от индексации.
Если на сайте находятся неуникальные документы Excel, Word или PDF, то
их, также следует закрывать от индексации. Запомните, чем уникальнее
контент на сайте, тем лучше.
Можно закрыть административные
разделы движка(CMS). Однако с точки зрения безопасности делать этого не
следует. Дело в том, что Robots.txt является открытым файлом,
доступным любому пользователю для просмотра. Если прописать в нем
раздел администрирования, то злоумышленники смогут через него получить
доступ к управлению сайтом.

3) Директива указывающая путь к карте сайта — Sitemap
Данная директива обязательно прописывается по умолчанию и указывает адрес нахождения карты сайта.