Самые распространенные ошибки в файле robots.txt

7 распространенных ошибок при создании файла robots.txt

6 августа 2015 (обновлено 29 декабря 2021)

21.9K

4 мин.

Продвижение

Зачем нужен файл robots.txt?

Файл robots.txt – текстовый файл, который отвечает за индексирование сайта. Здесь вы можете указать поисковым роботам, что стоит индексировать, а что индексировать не нужно. Другими словами, с помощью этого файла вы как бы говорите поисковым системам, что вот эти страницы сайта должны попасть в поиск, а остальные – нет.

Часто при создании файла robots.txt допускаются ошибки, которые приводят к некорректной его работе или вообще делают функционирование невозможным. Давайте посмотрим на самые распространенные ошибки, к чему они приводят, а также как не допустить их у себя на сайте.

Расположение файла. Файл robots.txt должен располагаться только в корневой директиве сайта. Другими словами, у него должен быть URL вот такого вида: http://site.ru/robots.txt, где site.ru – адрес вашего ресурса в сети. Если файл robots.txt располагается не в корне сайта (у него другой URL), то роботы поисковых систем его не увидят и, следовательно, будут индексировать ваш сайт полностью (включая файлы, которые индексировать нежелательно).
Чувствительность к регистру. Имя файла всегда прописывается только с маленькой буквы. Правильно использовать только такой вариант «robots.txt». Неправильный вариант: http://site.ru/Robots.txt. При таком написании поисковый робот, заходя на сайт, получит 404 (страница ошибки) или 301 (переадресация) ответ сервера, а должен получить 200. Только при ответе сервера кодом 200 вы сможете управлять поисковым роботом. В остальных случаях индексация пойдет так, словно файла robots.txt нет на сайте.
Открытие на странице браузера. Файл robots.txt всегда должен открываться на странице браузера. Только так роботы смогут его правильно прочитать и использовать. Здесь все зависит от настройки серверной части системы управления сайтом. В некоторых случаях по умолчанию будет предлагаться скачать файл данного типа. В такой ситуации необходимо сделать настройки на показ, или сайт будет индексироваться так, как этого захотят поисковые роботы.
Ошибки запрета и разрешения. Чтобы запретить доступ робота к сайту или некоторым его разделам, правильно использовать только директиву «Disallow». Например, вы хотите запретить к индексированию все страницы с результатами поиска на сайте, прописать это в файле robots.txt надо следующим образом: «Disallow: /search/». Так вы говорите роботу: «Запрети все страницы, где будет встречаться слово поиск». Если надо запретить вообще все страницы к индексации, то прописываем директиву Disallow: /. Так вы говорите роботу: «Запретить все». Неправильно здесь ставить директиву «Allow» (разрешить). Часто пытаются прописать запрет директивы такого вида: «Allow:», как бы говоря роботам: «Разрешаю к индексации ничего». Это считается ошибкой. Если же вам надо разрешить все к индексированию, то используйте директиву вот такого вида: «Allow: /». Для роботов это означает :«Разрешить все». Если вы прописываете неверные директивы, это может привести к ошибкам в индексации и робот добавит в поиск страницы, которые там быть не должны.
Совпадение директив. Часто так бывает, что при составлении файла robots.txt для одного раздела указывают сразу 2 противоположные директивы: разрешить и запретить к индексированию (Disallow: и Allow:). Так может случиться, например, если вы сначала разрешили раздел к индексированию, а спустя время добавили информацию и хотите закрыть ее от индекса. При этом просто добавляете в коде запрещающую директиву, а разрешающую не убираете. В таких ситуациях поисковые роботы отдают предпочтение директиве Allow:. Другими словами, закрытая от индекса информация все равно будет в индексе.
Директива Host:. Директива Host (используется для определения главного зеркала) известна только роботу Яндекса. Проблема в том, что остальные поисковые роботы не воспринимают ее или видят как ошибочную или неизвестную. Если вы ее используете в файле, то лучше определить двух ботов: все и боты Яндекса. Для Яндекса уже прописать директиву Host:. Если задать такую директиву для всех, то во многих вебмастерах это будет восприниматься как ошибка. Вот как прописать правильно для бота Яндекса:
User-Agent: Yandex
Host: site.ru
Директива Sitemap:. Файл Sitemap: показывает роботам, какие есть страницы на сайте. С его помощью поисковики узнают обо всех страницах вашего ресурса. Частая ошибка вебмастеров в том, что файл sitemap.xml располагают не в корне сайта, в то время как местоположение файла Sitemap очень важно. Оно определяет набор URL-адресов, которые можно включить в этот файл.
Например, файл Sitemap, расположенный в каталоге (вот так выглядит URL в этом случае http://primer.ru/catalog/sitemap.xml), может включать любые URL-адреса, начинающиеся с http://primer.ru/catalog/..., но не должен включать URL-адреса, начинающиеся, скажем, с http://primer.ru/images/...
Если вы располагаете неверно файл Sitemap:, то роботы неверно определят количество страниц вашего сайта, и они не попадут в индекс.

Итак, в качестве вывода запомните: файл robots.txt необходим для вашего сайта, если вы хотите, чтобы поисковые системы его индексировали и делали это так, как нужно вам. Но при этом он должен быть составлен грамотно, без ошибок. В противном случае вы рискуете получить неверную индексацию сайта.

Если возникли сложности с прописанием файла robots.txt, вы можете заказать его у наших специалистов.

#продвижение сайта #создание сайта #robots.txt

Екатерина Иова

SMM-специалист

Закрытый клуб для маркетологов и владельцев бизнеса. Оставьте запрос на вступление!

Бизнес-завтраки онлайн, эксклюзивные материалы, доступ к Обучающему центру.
Специальные предложения для своих. Бесплатно навсегда

250 000 участников сообщества каждую неделю получают письма от нас

Еженедельные полезные советы по продвижению бизнеса и эксклюзивные предложения абсолютно бесплатно – подайте заявку на вступление!

Услуги, которые могут вас заинтересовать

Позволяет получить естественные ссылки на сайт, улучшает видимость сайта в поисковиках.

Стоимость:

от 9 900 ₽

Подробнее

Привлечем новых клиентов текстами! Напишем качественные статьи, промаркируем их, разместим на сторонних площадках – вы получите большие охваты, рост узнаваемости и трафика на сайт.

Стоимость:

от 32 500 ₽

Подробнее

Полный глубокий анализ сайта, аналогов которого нет на рынке. Проверим сайт по более 40 параметрам, ошибки разметим по степени критичности.

Стоимость:

от 20 000 ₽

Подробнее

7 распространенных ошибок при создании файла robots.txt

Зачем нужен файл robots.txt?

Популярные статьи

Закрытый клуб для маркетологов и владельцев бизнеса. Оставьте запрос на вступление!

250 000 участников сообщества каждую неделю получают письма от нас

Услуги, которые могут вас заинтересовать