Генератор форм

Для веб-мастера

Реклама

Файл robots.txt. Что это такое и как его правильно составить

Рейтинг:
Дата: 16 августа 2011 Просмотры 12055 Комментарии 4

Файл robots.txt - это файл ограничения доступа к содержимому поисковыми роботам на http-сервере. Файл должен находиться в корне сайта (т.е. иметь путь относительно имени сайта /robots.txt). Данный файл не является обязательной составляющей сайта. Его может вообще и не быть. Но если Ваш сайт имеет какие-то скрытые страницы или файлы, которые Вы хотите закрыть их от индексации поисковыми системами, тогда файл robots.txt Вам просто необходим.

Именно этот файл поисковики ищут первым делом перед индексацией Вашего сайта для того, чтобы узнать, что нужно индексировать, а что нет. Делается это при помощи специальных команд. А именно:

User-agent: - после двоеточия Вы указываете название поискового робота определенной поисковой системы, для которой будут прописываться все последующие команды. Обычно после двоеточия прописывается просто звездочка: User-agent:*. Это обозначает, что последующие команды будут касаться всех поисковых систем. Например:

User-agent: googlebot

Ниже приведен список роботов самых популярных поисковиков:

  • Google http://www.google.com Googlebot
  • Yahoo! http://www.yahoo.com Slurp (или Yahoo! Slurp)
  • AOL http://www.aol.com Slurp
  • MSN http://www.msn.com MSNBot
  • Live http://www.live.com MSNBot
  • Ask http://www.ask.com Teoma
  • AltaVista http://www.altavista.com Scooter
  • Alexa http://www.alexa.com ia_archiver
  • Lycos http://www.lycos.com Lycos
  • Яндекс http://www.ya.ru Yandex
  • Рамблер http://www.rambler.ru StackRambler
  • Мэйл.ру http://mail.ru Mail.Ru
  • Aport http://www.aport.ru Aport
  • Вебальта http://www.webalta.ru WebAlta (WebAlta Crawler/2.0)

Disallow: - после двоеточия прописывается файл или папка, доступ к которой вы хотите запретить. Например, следующая директива запрещает паукам индексировать файл product_1.html

Disallow: product_1.html

Если директива Disallow будет пустой, это значит, что робот может индексировать все файлы. Как минимум одна директива Disallow должна присутствовать для каждого поля User-agent, чтобы robots.txt считался верным. Полностью пустой robots.txt означает то же самое, как если бы его не было вообще.

Стоит отметить, что нет команды разрешающей индексацию, поэтому если Вы хотите сделать доступной для поиска всего одну страницу сайта, а остальные запретить, то придется все их прописать.

Вот еще несколько примеров файла robots.txt

Следующая запись в файле robots.txt разрешает всем роботам индексировать все ресурсы сайта:

User-agent: *
Disallow:

А эта запись наоборот запрещает всем роботам это делать

User-agent: *
Disallow: /

А данная директива запрещает поисковому роботу Googlebot индексировать каталог images и products:

User-agent: googlebot
Disallow: /images/
Disallow: /products/

Можно также использовать команду allow, например:

Allow:/images/common/
Disallow:/images/

Такая запись будет означать, что в закрытой для индексации папке images будет доступна к индексации папка common. Следует заметить, что поле Allow всегда должно стоять раньше директивы Disallow.

Host: - используется для определения основного зеркала сайта. Вы на верное уже знаете, что URL одного и того же сайта можно прописать как с www так и без. Но это для нас он один и тот же, а для поисковых машин - это вполне может оказаться два разных ресурса.

Поэтому Яндекс без проблем может поделить тИЦ Вашего сайта на два: первая половина достанется домену без www, вторая с www. Это называется двуличность домена и для того, чтобы ее избежать и существует команда Host:, где после двоеточия прописывается желаемый Вами домен с www или без, например:

Host: biznesguide.ru

Следует отметить, что это все нужно прописывать до того, как Ваш сайт проиндексируют поисковые системы, иначе сайту можно навредить. Если же сайт уже проиндексировали поисковики, тогда посмотрите, как они это сделали с www или без и пропишите соответственно в команде Host:.

Также важно помнить, что если вы хотите, чтобы поисковая система "Яндекс" приняла во внимание директиву Host в вашей файле, то создайте одинаковые файлы robots.txt на всех "зеркалах" сайта. Только тогда зеркальщик "Яндекс" выделит главное зеркало, согласно данным в Host.

Sitemap: - данная директива позволяет поисковой системе указать, где находится специальным образом сгенерированная карта Sitemap для сайта, что помогает снять обязанность веб-мастеров каждый раз загружать новую карту Sitemap на сервер поисковой системе и позволить поисковой системе самой загружать Sitemap с сайта. Возможность использования директивы в настоящий момент поддерживается в Google, Yahoo, Ask, Bing и "Яндекс", например:

Sitemap: http://mysity.ru/sitemap.xml

Если файлов карты сайта несколько, то их нужно перечислить все:

Sitemap: http://mysity.ru/sitemap_1.xml
Sitemap: http://mysity.ru/sitemap_2.xml

Это основные директивы файла robots.txt, которые понимают практически все поисковые роботы. Но некоторые поисковые системы используют собственные "информационные" директивы. 

Например, в поисковой системе "Яндекс" введена директива Clean-param, при помощи которой веб-мастер может указать, как индексировать динамические параметры, которые не влияют на содержание страницы. Это могут быть различные идентификаторы сессий, пользователей и т. д., что увеличивает эффективность индексации страницы.  Более подробно читайте на сайте "Яндекс" здесь.

Ну вот пожалуй и все, что я хотел Вам рассказать о файле robots.txt. Если что-то упустил, пишите в комментариях!

Оцените эту статью:



Интересно почитать

    Получать новые материалы этого сайта на свой email адрес?

    Отправлять мне комментарии по эл. почте?

Простая CRM

Нашли ошибку в тексте

Система Orphus
https://biznesguide.ru/other/140.html
4,13 из 5 на основе 4 оценок.