17 августа

Статья прочитана 1758 раз

Что на сайте стоит спрятать от робота?

Файл robots.txt представляет из себя набор директив (набор правил для роботов), с помощью которых можно запретить или разрешить поисковым роботам индексирование определенных разделов и файлов вашего сайта, а также сообщить дополнительные сведения. Изначально с помощью robots.txt можно было только запретить индексирование разделов, возможность разрешать к индексации появилась позднее и была введена лидерами поиска Яндекс и Google.

Рассмотрим структуру файла. Сначала указывается директива User-agent, которая показывает к какому поисковому роботу относятся инструкции. Далее указываются директивы Disallow и Allow, которые запрещают или разрешают индексирование разделов, отдельных страниц сайта или файлов соответственно. Затем повторяем данные действия для следующего User-agent. После этого для User-agent'а Яндекса указывается директива Host, которая сообщает роботу какое зеркало считается главным. В конце файла указывается директива Sitemap, в которой задается адрес карты вашего сайта.

Указывая директивы Disallow и Allow, можно использовать специальные символы * и $. Здесь * означает «любой символ», а $ – «конец адреса». Например, Disallow: /admin/*.php означает, что следует запретить индексацию всех файлов, которые находятся в папке admin и заканчиваются на .php, Disallow: /admin$ запрещает адрес /admin, но не запрещает /admin.php, если таковой имеется.

При необходимости можно воспользоваться директивой Crawl-delay, которая позволяет задать интервал между загрузкой страниц (поддерживаются дробные значения) роботом, что позволяет снизить нагрузку на «слабый» сервер и актуально лишь для некоторых недорогих хостингов, т.к. большинство современных хостингов могут обеспечить высокую нагрузку на сервер. Но следует учитывать, что данная директива не воспринимается поисковым роботом от Google.

Пример robots.txt для сайта на MODx:

Для проверки правильности составления robots.txt можно воспользоваться Вебмастером от Google – необходимо перейти в раздел «Сканирование» и далее «Просмотреть как Googlebot», затем нажать кнопку «Получить и отобразить». В результате сканирования будут представлены два скриншота сайта, на которых видно, как сайт видят пользователи и как его видят поисковые роботы, а ниже будет представлен список файлов, запрет к индексации которых мешает корректному считыванию вашего сайта поисковыми роботами (их необходимо будет разрешить к индексации для робота Google).

Обычно это могут быть различные файлы стилей (css), JavaScript, а также изображения. После того как вы разрешите данные файлы к индексации, оба скриншота в Вебмастере должны быть идентичными. Исключениями являются файлы, которые расположены удаленно, например, скрипт Яндекс Метрики, кнопки социальных сетей и т.д., их вы не сможете запретить/разрешить к индексации. Более подробно о том, как устранить ошибку «Googlebot не может получить доступ к файлам CSS и JS на сайте», вы можете прочитать в нашем блоге.

Кроме этого для интернет-магазинов рекомендуется закрывать от индексации страницы авторизации, «забыли пароль», корзину, сравнение товаров, перенос в список «Избранное», поиск на сайте. Для остальных сайтов, включая интернет-магазины, рекомендуется закрывать папки, связанные с админ-панелью сайта, различные системные папки, страницы с конфиденциальной информацией (адреса доставки, контакты и т.д). Более подробно Вы можете почитать в советах интернет-магазинам по настройкам индексирования в блоге Яндекса. В большинстве современных CMS по умолчанию уже создан стандартный файл robots.txt, который содержит основной набор нужных директив, однако, в процессе разработки сайта может потребоваться его доработка, после чего нужно будет проверить результат с помощью Google Вебмастера.

Важно, чтобы в robots.txt были заданы:

Если вы не сможете самостоятельно создать и настроить файл robots.txt, то вы можете обратиться к нашим специалистам, и мы сделаем настройку роботса.

оптимизация сайта, техническая оптимизация, методы продвижения

Автор Александр Пасик
SEO-специалист сервиса 1PS

Понравилась статья?



Правила комментирования блога

Подпишитесь на рассылку и получайте свежие хаки об интернет-маркетинге и SEO

ДА!

1 письмо
в неделю

3 статьи
в письме

Бонус «для своих»
в каждом письме