robots.txt – это обычный текстовый файл, размещенный на сайте и предназначенный для роботов поисковых систем. В этом файле можно указать параметры индексирования своего сайта для всех роботов поисковых систем сразу или для каждой поисковой системы по отдельности.
Все поисковые роботы при заходе на сайт в первую очередь ищут файл robots.txt.
Как создать?
Сделать файл robots.txt очень просто – создаете обычный текстовый документ, называете его robots, не ошибитесь в регистре букв или в самих буквах, название должно быть именно такое. Если не планируете запрещать индексирование страниц сайта, можно созданный файл оставить пустым. Если планируете – просто заполняете документ в соответствии с принятыми в 1994 году общими стандартами. После этого необходимо загрузить файл в корневой каталог вашего сайта, чтобы файл открывался по ссылке http://www.site.ru/robots.txt . Всё.
Что закрывать от индексации?
Вообще от индексации рекомендуется закрыть все страницы с неуникальным контентом, страницы с результатами поиска по сайту, страницы авторизации и другие технические страницы, которые не должны участвовать в поисковой выдаче.
Правила заполнения файла robots.txt
Итак, в файле robots.txt каждая команда или директива должна прописываться отдельной строкой. Число команд не ограничено.
- Директива user-agent
Первое, с чего следует начать заполнение файла – указать, для какого робота будут команды, для этого пишем в первой строчке:
если ваши инструкции предназначены для роботов Яндекса:
User-agent: yandex
для роботов Google:
User-agent: googlebot
для всех роботов без исключения:
User-agent: *
- Директива Disallow и Allow
Команда Disallow запрещает роботу индексировать тот или иной файл или папку.
Например,
запрещает индексировать файлы данной папки:
Disallow: /cgi-bin/
запрещает индексировать данный файл:
Disallow: /company.html
запрет на индексацию всего сайта:
Disallow: /
Проверьте ваш сайт – это одна из частых причин неиндексирования сайта.
Важно! Неправильно указывать несколько директив в одной строчке:
Disallow: /cgi-bin/ /cell/ /bot/
Директива Allow наоборот – снимает запрет на индексацию некоторых файлов. Пример ее использования:
User-agent: Yandex
Allow: /cgi-binDisallow: /Такая запись в файле запрещает скачивать роботу Яндекса все, кроме страниц, начинающихся с '/cgi-bin'.
Важно! Если в файле указали директиву, но не указали параметры для нее, значения будут такие:
запрета на индексацию сайта нет:
Disallow:
весь сайт запрещен к индексации:
Allow:
- Директива sitemap
Если у вас есть карта сайта в формате sitemaps.xml, укажите путь к ней в специальной директиве Sitemap (если файлов несколько, укажите все):
Sitemap: http://site.ru/sitemaps1.xml
Sitemap: http://site.ru/sitemaps2.xml - Директива Host
Данная запись используется роботами Яндекса. Определите и укажите в директиве Host главное зеркало вашего сайта:
Host: www.site.ru
Часто начинающие вебмастера забывают, что сайт с www и без (www.site.ru и site.ru) являются зеркалами друг друга. Поэтому обязательно укажите, какой адрес является приоритетным с www или без.
Директива Host не гарантирует выбор указанного главного зеркала, но Яндекс учитывает ее с высоким приоритетом.
Пример заполнения robots.txt
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /language/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Host: sait.ru
Sitemap: http://site.ru/sitemaps.xml
Проверка файла robots.txt
Для проверки получившегося файла можно воспользоваться Яндекс.Вебмастером. Или закажите у нас полный SEO-аудит, и мы проверим не только этот файл, но и остальные важные параметры.
Сервис 1PS
Создаем и продвигаем сайты
© 1PS.RU, при полном или частичном копировании материала ссылка на первоисточник обязательна