7 распространенных ошибок при создании файла robots.txt

6 августа 2015 (обновлено 29 декабря 2021)
21.9K
4 мин.

Зачем нужен файл robots.txt?

Файл robots.txt – текстовый файл, который отвечает за индексирование сайта. Здесь вы можете указать поисковым роботам, что стоит индексировать, а что индексировать не нужно. Другими словами, с помощью этого файла вы как бы говорите поисковым системам, что вот эти страницы сайта должны попасть в поиск, а остальные – нет.

Часто при создании файла robots.txt допускаются ошибки, которые приводят к некорректной его работе или вообще делают функционирование невозможным. Давайте посмотрим на самые распространенные ошибки, к чему они приводят, а также как не допустить их у себя на сайте.

  1. Расположение файла. Файл robots.txt должен располагаться только в корневой директиве сайта. Другими словами, у него должен быть URL вот такого вида: http://site.ru/robots.txt, где site.ru – адрес вашего ресурса в сети. Если файл robots.txt располагается не в корне сайта (у него другой URL), то роботы поисковых систем его не увидят и, следовательно, будут индексировать ваш сайт полностью (включая файлы, которые индексировать нежелательно).
  2. Чувствительность к регистру. Имя файла всегда прописывается только с маленькой буквы. Правильно использовать только такой вариант «robots.txt». Неправильный вариант: http://site.ru/Robots.txt. При таком написании поисковый робот, заходя на сайт, получит 404 (страница ошибки) или 301 (переадресация) ответ сервера, а должен получить 200. Только при ответе сервера кодом 200 вы сможете управлять поисковым роботом. В остальных случаях индексация пойдет так, словно файла robots.txt нет на сайте.
  3. Открытие на странице браузера. Файл robots.txt всегда должен открываться на странице браузера. Только так роботы смогут его правильно прочитать и использовать. Здесь все зависит от настройки серверной части системы управления сайтом. В некоторых случаях по умолчанию будет предлагаться скачать файл данного типа. В такой ситуации необходимо сделать настройки на показ, или сайт будет индексироваться так, как этого захотят поисковые роботы.
  4. Ошибки запрета и разрешения. Чтобы запретить доступ робота к сайту или некоторым его разделам, правильно использовать только директиву «Disallow». Например, вы хотите запретить к индексированию все страницы с результатами поиска на сайте, прописать это в файле robots.txt надо следующим образом: «Disallow: /search/». Так вы говорите роботу: «Запрети все страницы, где будет встречаться слово поиск». Если надо запретить вообще все страницы к индексации, то прописываем директиву Disallow: /. Так вы говорите роботу: «Запретить все». Неправильно здесь ставить директиву «Allow» (разрешить). Часто пытаются прописать запрет директивы такого вида: «Allow:», как бы говоря роботам: «Разрешаю к индексации ничего». Это считается ошибкой. Если же вам надо разрешить все к индексированию, то используйте директиву вот такого вида: «Allow: /». Для роботов это означает :«Разрешить все». Если вы прописываете неверные директивы, это может привести к ошибкам в индексации и робот добавит в поиск страницы, которые там быть не должны.
  5. Совпадение директив. Часто так бывает, что при составлении файла robots.txt для одного раздела указывают сразу 2 противоположные директивы: разрешить и запретить к индексированию (Disallow: и Allow:). Так может случиться, например, если вы сначала разрешили раздел к индексированию, а спустя время добавили информацию и хотите закрыть ее от индекса. При этом просто добавляете в коде запрещающую директиву, а разрешающую не убираете. В таких ситуациях поисковые роботы отдают предпочтение директиве Allow:. Другими словами, закрытая от индекса информация все равно будет в индексе.
  6. Директива Host:. Директива Host (используется для определения главного зеркала) известна только роботу Яндекса. Проблема в том, что остальные поисковые роботы не воспринимают ее или видят как ошибочную или неизвестную. Если вы ее используете в файле, то лучше определить двух ботов: все и боты Яндекса. Для Яндекса уже прописать директиву Host:. Если задать такую директиву для всех, то во многих вебмастерах это будет восприниматься как ошибка. Вот как прописать правильно для бота Яндекса:

    User-Agent: Yandex
    Host: site.ru

  7. Директива Sitemap:. Файл Sitemap: показывает роботам, какие есть страницы на сайте. С его помощью поисковики узнают обо всех страницах вашего ресурса. Частая ошибка вебмастеров в том, что файл sitemap.xml располагают не в корне сайта, в то время как местоположение файла Sitemap очень важно. Оно определяет набор URL-адресов, которые можно включить в этот файл.

    Например, файл Sitemap, расположенный в каталоге (вот так выглядит URL в этом случае http://primer.ru/catalog/sitemap.xml), может включать любые URL-адреса, начинающиеся с http://primer.ru/catalog/..., но не должен включать URL-адреса, начинающиеся, скажем, с http://primer.ru/images/...

    Если вы располагаете неверно файл Sitemap:, то роботы неверно определят количество страниц вашего сайта, и они не попадут в индекс.

Итак, в качестве вывода запомните: файл robots.txt необходим для вашего сайта, если вы хотите, чтобы поисковые системы его индексировали и делали это так, как нужно вам. Но при этом он должен быть составлен грамотно, без ошибок. В противном случае вы рискуете получить неверную индексацию сайта.

Если возникли сложности с прописанием файла robots.txt, вы можете заказать его у наших специалистов.

0
0
0
0
0

Екатерина Иова

SMM-специалист

© 1PS.RU, при полном или частичном копировании материала ссылка на первоисточник обязательна

SEO-гайд: 25 способов выйти в ТОП выдачи

В этом гайде вы найдете распространенные ошибки при продвижении сайта в интернете и узнаете, как получить наибольший эффект от SEO.

Рассматриваются три ключевых аспекта: семантика, структура и техническое состояние сайта, а также дополнительные факторы, влияющие на результаты продвижения.

Получить бонус

Популярные статьи

26 февраля 2020

Алгоритм BERT – чем грозит вашему сайту и как с ним бороться

Читать статью 16.4K 5 мин.
18 апреля 2018

Что такое карта релевантности и как составить ее правильно

Читать статью 55.1K 3 мин.
20 января 2020

31 причина, почему у вас нет продаж

Читать статью 193.5K 19 мин.
29 декабря 2020

Яндекс YATI: о новом алгоритме ранжирования простыми словами

Читать статью 23.1K 5 мин.
6 мая 2020

Идеальное представление, или как Яндекс.Вебмастер радеет за красивый сниппет

Читать статью 16.6K 8 мин.
1 сентября 2018

150 советов, как продвинуть интернет-магазин
Самый полный гайд в Рунете

Читать статью 66K 20 мин.
19 января 2021

Новые факторы ранжирования Google: рассказываем, что будет важно в 2021 году

Читать статью 19.9K 10 мин.
18 января 2022

25 бизнес-моделей: что такое, зачем нужно и кому пригодится

Читать статью 34.4K 12 мин.
21 сентября 2018

Операторы поисковых систем Google и Яндекс

Читать статью 177.7K 4 мин.
13 июня 2019

Настройка robots.txt: что на сайте стоит спрятать от робота?

Читать статью 31.3K 5 мин.
8 июля 2020

Лид-магниты на сайте: как начать притягивать клиентов

Читать статью 13.2K 16 мин.
21 августа 2018

Метод AARRR, или 5 пиратских метрик для продвижения бизнеса

Читать статью 41.7K 9 мин.

Все популярные статьи

Закрытый клуб для маркетологов и владельцев бизнеса. Оставьте запрос на вступление!

Бизнес-завтраки онлайн, эксклюзивные материалы, доступ к Обучающему центру.
Специальные предложения для своих. Бесплатно навсегда

250 000 участников сообщества каждую неделю получают письма от нас

Еженедельные полезные советы по продвижению бизнеса и эксклюзивные предложения абсолютно бесплатно – подайте заявку на вступление!

Услуги, которые могут вас заинтересовать

Любые работы по оптимизации: составление сем. ядра, настройка вебмастеров, теги Title, Description, H1-H6, файлы robots.txt, sitemap и др.

Позволяет получить естественные ссылки на сайт, улучшает видимость сайта в поисковиках.

Стоимость:
от 9 900

Полный глубокий анализ сайта, аналогов которого нет на рынке. Проверим сайт по более 40 параметрам, ошибки разметим по степени критичности.

Стоимость:
от 20 000

Смотреть все услуги Попробовать бесплатно