Отраслевые решения
Темная
тема
Светлая
тема
50+ нейросетей и инструментов для маркетологов и бизнеса
Скачать бесплатно
Отраслевые решения

Настройка robots.txt: что на сайте стоит спрятать от робота?

13 июня 2019 (обновлено 20 ноября 2019)
32.9K
5 мин.

Файл robots.txt представляет собой набор директив (набор правил для роботов), с помощью которых можно запретить или разрешить поисковым роботам индексирование определенных разделов и файлов вашего сайта, а также сообщить дополнительные сведения. Изначально с помощью robots.txt реально было только запретить индексирование разделов, возможность разрешать к индексации появилась позднее, и была введена лидерами поиска Яндекс и Google.

Структура файла robots.txt

Сначала прописывается директива User-agent, которая показывает, к какому поисковому роботу относятся инструкции.

Небольшой список известных и частоиспользуемых User-agent:

  • User-agent:*
  • User-agent: Yandex
  • User-agent: Googlebot
  • User-agent: Bingbot
  • User-agent: YandexImages
  • User-agent: Mail.RU

Далее указываются директивы Disallow и Allow, которые запрещают или разрешают индексирование разделов, отдельных страниц сайта или файлов соответственно. Затем повторяем данные действия для следующего User-agent. В конце файла указывается директива Sitemap, где задается адрес карты вашего сайта.

Прописывая директивы Disallow и Allow, можно использовать специальные символы * и $. Здесь * означает «любой символ», а $ – «конец строки». Например, Disallow: /admin/*.php означает, что запрещается индексация индексацию всех файлов, которые находятся в папке admin и заканчиваются на .php, Disallow: /admin$ запрещает адрес /admin, но не запрещает /admin.php, или /admin/new/ , если таковой имеется.

Если для всех User-agent использует одинаковый набор директив, не нужно дублировать эту информацию для каждого из них, достаточно будет User-agent: *. В случае, когда необходимо дополнить информацию для какого-то из user-agent, следует продублировать информацию и добавить новую.

Пример robots.txt для WordPress:

robots.txt для WordPress

*Примечание для User agent: Yandex

  • Для того чтобы передать роботу Яндекса Url без Get параметров (например: ?id=, ?PAGEN_1=) и utm-меток (например: &utm_source=, &utm_campaign=), необходимо использовать директиву Clean-param.

    Clean-param

  • Ранее роботу Яндекса можно было сообщить адрес главного зеркала сайта с помощью директивы Host. Но от этого метода отказались весной 2018 года.

  • Также ранее можно было сообщить роботу Яндекса, как часто обращаться к сайту с помощью директивы Crawl-delay. Но как сообщается в блоге для вебмастеров Яндекса:

    • Проанализировав письма за последние два года в нашу поддержку по вопросам индексирования, мы выяснили, что одной из основных причин медленного скачивания документов является неправильно настроенная директива Crawl-delay.
    • Для того чтобы владельцам сайтов не пришлось больше об этом беспокоиться и чтобы все действительно нужные страницы сайтов появлялись и обновлялись в поиске быстро, мы решили отказаться от учёта директивы Crawl-delay.

    Вместо этой директивы в Яндекс. Вебмастер добавили новый раздел «Скорость обхода».

Проверка robots.txt

Старая версия Search console

Для проверки правильности составления robots.txt можно воспользоваться Вебмастером от Google – необходимо перейти в раздел «Сканирование» и далее «Просмотреть как Googlebot», затем нажать кнопку «Получить и отобразить». В результате сканирования будут представлены два скриншота сайта, где изображено, как сайт видят пользователи и как поисковые роботы. А ниже будет представлен список файлов, запрет к индексации которых мешает корректному считыванию вашего сайта поисковыми роботами (их необходимо будет разрешить к индексации для робота Google).

Проверка robots.txt в старой версии search console

Обычно это могут быть различные файлы стилей (css), JavaScript, а также изображения. После того, как вы разрешите данные файлы к индексации, оба скриншота в Вебмастере должны быть идентичными. Исключениями являются файлы, которые расположены удаленно, например, скрипт Яндекс.Метрики, кнопки социальных сетей и т.д. Их у вас не получится запретить/разрешить к индексации. Более подробно о том, как устранить ошибку «Googlebot не может получить доступ к файлам CSS и JS на сайте», вы читайте в нашем блоге.

Новая версия Search console

В новой версии нет отдельного пункта меню для проверки robots.txt. Теперь достаточно просто вставить адрес нужной страны в строку поиска.

Проверка robots.txt в старой новой search console

В следующем окне нажимаем «Изучить просканированную страницу».

Изучить просканированную страницу

Далее нажимаем ресурсы страницы

Ресурсы страницы

В появившемся окне видно ресурсы, которые по тем или иным причинам недоступны роботу google. В конкретном примере нет ресурсов, заблокированных файлом robots.txt.

Недоступные ресурсы страницы

Если же такие ресурсы будут, вы увидите сообщения следующего вида:

Ресурсы страницы заблокированные файлом robots.txt

Рекомендации, что закрыть в robots.txt

Каждый сайт имеет уникальный robots.txt, но некоторые общие черты можно выделить в такой список:

  • Закрывать от индексации страницы авторизации, регистрации, вспомнить пароль и другие технические страницы.
  • Админ панель ресурса.
  • Страницы сортировок, страницы вида отображения информации на сайте.
  • Для интернет-магазинов страницы корзины, избранное. Более подробно вы можете почитать в советах интернет-магазинам по настройкам индексирования в блоге Яндекса.
  • Страница поиска.

Это лишь примерный список того, что можно закрыть от индексации от роботов поисковых систем. В каждом случае нужно разбираться в индивидуальном порядке, в некоторых ситуациях могут быть исключения из правил.

Заключение

Файл robots.txt является важным инструментом регулирования отношений между сайтом и роботом поисковых систем, важно уделять время его настройке.

В статье большое количество информации посвящено роботам Яндекса и Google, но это не означает, что нужно составлять файл только для них. Есть и другие роботы – Bing, Mail.ru, и др. Можно дополнить robots.txt инструкциями для них.

Многие современные cms создают файл robots.txt автоматически, и в них могут присутствовать устаревшие директивы. Поэтому рекомендую после прочтения этой статьи проверить файл robots.txt на своем сайте, а если они там присутствуют, желательно их удалить. Если вы не знаете, как это сделать, обращайтесь к нам за помощью.

2
0
1
0
0

Дмитрий Ковалев

SEO-специалист

© 1PS.RU, при полном или частичном копировании материала ссылка на первоисточник обязательна

50+ нейросетей и инструментов для маркетологов и бизнеса

Забирайте 50 самых полезных сервисов на основе искусственного интеллекта для продвижения бизнеса.

Забрать список

Популярные статьи

3 марта 2025

Продвижение сайта в 2025: как раскрутить сайт быстро и бесплатно

Читать статью 507.7K 20 мин.
4 октября 2024

Яндекс.Вордстат: инструкция по применению

Читать статью 335.2K 8 мин.
20 октября 2025

Как проверить позиции своего сайта: обзор сервисов

Читать статью 111.3K 14 мин.
12 марта 2025

Яндекс Вебмастер: инструкция по применению

Читать статью 66.9K 16 мин.
3 февраля 2025

Что такое 301 редирект и как его правильно настроить

Читать статью 32.6K 12 мин.
21 мая 2025

152-ФЗ о персональных данных с изменениями на 2025 – полный гайд

Читать статью 18.2K 20 мин.
9 июня 2025

Нейросеть спешит на помощь: как работает генеративный поиск

Читать статью 4.6K 6 мин.
21 января 2025

Локальное SEO в Яндексе: стратегии эффективного продвижения в регионах в 2025 году

Читать статью 4.4K 9 мин.
5 августа 2024

Что такое семантическое ядро и как его правильно составить

Читать статью 42.4K 12 мин.
24 июля 2024

SEO оптимизация сайта бесплатно: полная пошаговая инструкция

Читать статью 42K 9 мин.
25 декабря 2024

Эффект от SEO-сопровождения: чего ждать и в какие сроки?

Читать статью 19.4K 7 мин.
6 февраля 2024

Инструкция, как добавить свою компанию в Яндекс.Карты

Читать статью 13.4K 4 мин.
25 октября 2024

Черное SEO, которое убивает, или какие ошибки в продвижении сайта вам мешают

Читать статью 13K 10 мин.
7 июня 2024

Как найти и устранить битые ссылки на сайте

Читать статью 11.8K 8 мин.
5 июля 2024

Ключевые методы исследования рынка: 10 способов изучить свою нишу

Читать статью 10.9K 5 мин.
28 августа 2024

SEO-сопровождение сайта: кому это выгодно?

Читать статью 10.9K 5 мин.
2 апреля 2024

20 расширений Google Chrome в помощь интернет-маркетологу, SEO-специалисту и дизайнеру

Читать статью 7.3K 5 мин.
4 мая 2023

Как установить удаленные банковские приложения на iPhone: 2 проверенных способа

Читать статью 79.8K 5 мин.
5 апреля 2024

Пошаговое руководство, как вывести сайт на Tilda в топ поисковых систем

Читать статью 6.6K 5 мин.
31 мая 2022

Обзор сервиса Яндекс.Услуги: что это такое и как он работает

Читать статью 87.3K 5 мин.
14 февраля 2024

24 способа увеличить посещаемость сайта

Читать статью 5.1K 7 мин.

Все популярные статьи

Закрытый клуб для маркетологов и владельцев бизнеса. Оставьте запрос на вступление!

Бизнес-завтраки онлайн, эксклюзивные материалы, доступ к Обучающему центру.
Специальные предложения для своих. Бесплатно навсегда

250 000 участников сообщества каждую неделю получают письма от нас

Еженедельные полезные советы по продвижению бизнеса и эксклюзивные предложения абсолютно бесплатно – подайте заявку на вступление!

Услуги, которые могут вас заинтересовать

Любые работы по оптимизации: составление сем. ядра, настройка вебмастеров, теги Title, Description, H1-H6, файлы robots.txt, sitemap и др.

Полный глубокий анализ сайта, аналогов которого нет на рынке. Проверим сайт по более 40 параметрам, ошибки разметим по степени критичности.

Стоимость:
от 22 000

Позволяет получить естественные ссылки на сайт, улучшает видимость сайта в поисковиках.

Стоимость:
от 10 500

Смотреть все услуги Попробовать бесплатно