Skip to main content

Примеры файлов robots.txt для вашего сайта

Как настроить файл robots.txt для сайта (Апрель 2025)

Как настроить файл robots.txt для сайта (Апрель 2025)
Anonim

Файл robots.txt, хранящийся в корневом каталоге вашего сайта, скажет веб-роботам, таким как пауки поисковых систем, о том, какие каталоги и файлы им разрешено сканировать. Легко использовать файл robots.txt, но есть некоторые вещи, которые вы должны запомнить:

  1. Веб-роботы Blackhat будут игнорировать ваш файл robots.txt. Наиболее распространенными типами являются вредоносные боты и роботы, которые ищут адреса электронной почты для сбора урожая.
  2. Некоторые новые программисты будут писать роботы, которые игнорируют файл robots.txt. Обычно это делается по ошибке.
  3. Любой может видеть ваш файл robots.txt. Они всегда называются robots.txt и всегда хранятся в корне сайта.
  4. Наконец, если кто-то ссылается на файл или каталог, который исключается вашим файлом robots.txt со страницы, которая не исключена их файлом robots.txt, поисковые системы могут найти его в любом случае.

Не используйте файлы robots.txt, чтобы скрыть что-либо важное. Вместо этого вы должны поместить важную информацию в защищенные пароли или полностью отключить ее от сети.

Как использовать эти примеры файлов

Скопируйте текст из образца, который наиболее близок к тому, что вы хотите сделать, и вставьте его в файл robots.txt. Измените имена роботов, каталогов и файлов в соответствии с вашей предпочтительной конфигурацией.

Два основных файла Robots.txt

Пользовательский агент: *Запретить: /

В этом файле говорится, что любой робот (

Пользовательский агент: *), который обращается к нему, следует игнорировать каждую страницу сайта (

Запретить: /).

Пользовательский агент: *Disallow:

В этом файле говорится, что любой робот (

Пользовательский агент: *), доступ к которому разрешен для просмотра каждой страницы сайта (

Disallow:).

Вы также можете сделать это, оставив файл robots.txt пустым или не имея его на своем сайте.

Защита конкретных каталогов от роботов

Пользовательский агент: *Disallow: / cgi-bin /Disallow: / temp /

В этом файле говорится, что любой робот (

Пользовательский агент: *), который обращается к нему, следует игнорировать каталоги / cgi-bin / и / temp / (

Disallow: / cgi-bin / Disallow: / temp /).

Защита конкретных страниц от роботов

Пользовательский агент: *Запретить: /jenns-stuff.htmDisallow: /private.php

В этом файле говорится, что любой робот (

Пользовательский агент: *), который обращается к нему, следует игнорировать файлы /jenns-stuff.htm и /private.php (

Disallow: /jenns-stuff.htm Запретить: /private.php).

Предотвращение доступа конкретного робота к вашему сайту

Пользователь-агент: Lycos / x.xЗапретить: /

В этом файле говорится, что босс Lycos (

Пользователь-агент: Lycos / x.x) не разрешен доступ в любом месте сайта (

Запретить: /).

Разрешить доступ только к одному конкретному роботу

Пользовательский агент: *Запретить: /Пользователь-агент: GooglebotDisallow:

Этот файл сначала запрещает всех роботов, как мы делали выше, а затем явно разрешает роботу Googlebot (

Пользователь-агент: Googlebot) имеют доступ ко всему (

Disallow:).

Объедините несколько строк, чтобы точно получить исключения, которые вы хотите

Хотя лучше использовать очень инклюзивную строку User-agent, такую ​​как User-agent: *, вы можете быть как можно более конкретным. Помните, что роботы читают файл по порядку. Поэтому, если первые строки говорят, что все роботы заблокированы от всего, а затем в файле говорится, что всем роботам разрешен доступ ко всему, роботы будут иметь доступ ко всему.

Если вы не уверены, правильно ли вы написали файл robots.txt, вы можете использовать Инструменты Google для веб-мастеров, чтобы проверить файл robots.txt или написать новый.