Файл robots.txt, хранящийся в корневом каталоге вашего сайта, скажет веб-роботам, таким как пауки поисковых систем, о том, какие каталоги и файлы им разрешено сканировать. Легко использовать файл robots.txt, но есть некоторые вещи, которые вы должны запомнить:
- Веб-роботы Blackhat будут игнорировать ваш файл robots.txt. Наиболее распространенными типами являются вредоносные боты и роботы, которые ищут адреса электронной почты для сбора урожая.
- Некоторые новые программисты будут писать роботы, которые игнорируют файл robots.txt. Обычно это делается по ошибке.
- Любой может видеть ваш файл robots.txt. Они всегда называются robots.txt и всегда хранятся в корне сайта.
- Наконец, если кто-то ссылается на файл или каталог, который исключается вашим файлом robots.txt со страницы, которая не исключена их файлом robots.txt, поисковые системы могут найти его в любом случае.
Не используйте файлы robots.txt, чтобы скрыть что-либо важное. Вместо этого вы должны поместить важную информацию в защищенные пароли или полностью отключить ее от сети.
Как использовать эти примеры файлов
Скопируйте текст из образца, который наиболее близок к тому, что вы хотите сделать, и вставьте его в файл robots.txt. Измените имена роботов, каталогов и файлов в соответствии с вашей предпочтительной конфигурацией.
Два основных файла Robots.txt
Пользовательский агент: *Запретить: / В этом файле говорится, что любой робот ( Пользовательский агент: *), который обращается к нему, следует игнорировать каждую страницу сайта ( Запретить: /). Пользовательский агент: *Disallow: В этом файле говорится, что любой робот ( Пользовательский агент: *), доступ к которому разрешен для просмотра каждой страницы сайта ( Disallow:). Вы также можете сделать это, оставив файл robots.txt пустым или не имея его на своем сайте. Пользовательский агент: *Disallow: / cgi-bin /Disallow: / temp / В этом файле говорится, что любой робот ( Пользовательский агент: *), который обращается к нему, следует игнорировать каталоги / cgi-bin / и / temp / ( Disallow: / cgi-bin / Disallow: / temp /). Пользовательский агент: *Запретить: /jenns-stuff.htmDisallow: /private.php В этом файле говорится, что любой робот ( Пользовательский агент: *), который обращается к нему, следует игнорировать файлы /jenns-stuff.htm и /private.php ( Disallow: /jenns-stuff.htm Запретить: /private.php). Пользователь-агент: Lycos / x.xЗапретить: / В этом файле говорится, что босс Lycos ( Пользователь-агент: Lycos / x.x) не разрешен доступ в любом месте сайта ( Пользовательский агент: *Запретить: /Пользователь-агент: GooglebotDisallow: Этот файл сначала запрещает всех роботов, как мы делали выше, а затем явно разрешает роботу Googlebot ( Пользователь-агент: Googlebot) имеют доступ ко всему ( Хотя лучше использовать очень инклюзивную строку User-agent, такую как User-agent: *, вы можете быть как можно более конкретным. Помните, что роботы читают файл по порядку. Поэтому, если первые строки говорят, что все роботы заблокированы от всего, а затем в файле говорится, что всем роботам разрешен доступ ко всему, роботы будут иметь доступ ко всему. Если вы не уверены, правильно ли вы написали файл robots.txt, вы можете использовать Инструменты Google для веб-мастеров, чтобы проверить файл robots.txt или написать новый. Защита конкретных каталогов от роботов
Защита конкретных страниц от роботов
Предотвращение доступа конкретного робота к вашему сайту
Разрешить доступ только к одному конкретному роботу
Объедините несколько строк, чтобы точно получить исключения, которые вы хотите