Файл robots.txt

Стандарт исключения для роботов (robots.txt) – файл ограничения доступа к содержимому роботам на http-сервере. Это обычный текстовый файл содержащий инструкции понятные поисковым роботам.

По сути инструкции описанные в файле robots.txt сводится в основном лишь к тому, чтобы сказать поисковику какие файлы и каталоги сайта не индексировать.  Любой сайт содержит файлы и каталоги, которые не содержат полезной информации. Их индексирование может вызвать дополнительную нагрузку на сервер.

Так же надо помнить, что инструкции имеют рекомендательный характер, т.е если роботу поручено обследовать все каталоги, он может проигнорировать все инструкции файла.

Назначение robots.txt

  1. Помощ при индексации сайта поисковиками
  2. Избавить сервер от ненужной нагрузки

Формат  файла robots.txt

  1. Файл не обязателен т.е можно и не создавать такой файл. Но рекомендуется.
  2. Файл должен находиться в корневом каталоге http://ваш_домен/robots.txt
  3. При наличии нескольких поддоменов файл должен быть в корне каждого из них.
  4. Имя файла должно быть robots.txt, в нижнем регистре, только так и не иначе.

Синтаксис

Чтобы рекомендовать поисковому роботу не индексировать тот или иной каталог используется одна или несколько записей, оканчивающихся служебным символом в конце строки (CR, CR+LF, LF). Каждая запись содержит непустые строки следующего вида:

<поле>:<необязательный пробле><значение><необязательный пробел>

Если не учитывать пробелы, проще синтаксис можно описать так:

field >:< value>

Где field >  предназначено для директив. Их не много: User-agent, Disallow, Host, Sitemap

value> - значение принимаемое директивой.

Файл robots.txt может содержать комментарии. Комментарии начинаются со знака “#”.

User-agent

Запись должна начинаться с одной или нескольких строк со значением «User-agent». Значением этого поля является имя поискового робота или символ «*», что означает для всех поисковых роботов.

Disallow

Значением будет частичный или полный URL файла или каталога, которые мы не хотим индексировать.

Примеры

Пример 1:

#тут можно писать комментарии
User-agent: *
Disallow: /

В примере 1 любому роботу запрещается индексировать весь сайт.

Пример 2:

User-agent: Yandex
Disallow: /cgi-bin/script/
Disallow: /tmp/

В примере 2 роботу Yandex запрещается индексировать содержимое директорий /cgi-bin/script/ и /tmp/

Пример 3:

User-agent: *
Disallow: /tmp/

User-agent: Google
Disallow:

В примере 3 для всех роботов кроме Google индексировать каталог /tmp/ запрещено.

Host

Директива «Host» используется только в случае с роботом Яндекса. Остальные роботы игнорируют эту директиву. Введите в Ваш файл robots.txt эту строку, где Вы должны указать имя Вашего сайта, которое будет указывать на его основное зеркало. Вещь полезная, поможет избежать проблем со склеиванием-расклеиванием зеркал. В записи должна быть хоть одна строка с директивой «Disallow».

User-Agent: Yandex
Disallow:
Host: www.yoursite.ru

Sitemap

Эта директива укажет поисковым роботам явное местонахождение карты сайта. Карта сайта полезна когда ваш сайт содержит тысячи страниц. Это помогает поисковику более быстро его индексировать. Если это необходимо, добавьте следующую строку в Вашфайл robots.txt:

Sitemap: http://www.yoursite.ru/sitemap.xml

Мета-тег ROBOTS

Бывают случаи когда необходимо запретить индексацию к какой-либо странице. Делается это с помощью мета-тега «ROBOTS».

Где разместить мета тег robots показана ниже. Запрещается роботу индексировать документ и анализировать ссылки в документе.

<html>
<head>
<meta name="robots" content="noindex,nofollow">
<meta name="description" content="Контент">
<title>Страница</title>
</head>
<body>

Ссылки

Стандарт robots.txt на английском
Стандарт robots.txt на русском
Робот Яндекса

комментарии (0)