Размещение и корректная настройка файла Robots.txt - Digital-агентство ADVEGITAL

Размещение и корректная настройка файла Robots.txt

Файл robots.txt содержит указания поисковым роботам по обработке страниц сайта. В нем указываются правила, каждое из которых запрещает или разрешает поисковику доступ к определенной странице, файлу или каталогу на сайте.

Файл robots.txt загружается в корневой каталога сайта. Путь к нему выглядит так: http://вашсайт/robots.txt

    Какие файлы запрещают к индексации
  • системные файлы и каталоги;
  • пользовательские страницы (личный кабинет, заказы и т.п.);
  • дубликаты страниц;
  • кнопки, контактные формы, формы поиска, сравнения товаров и т.п.;
  • рубрики ключевых слов;
  • любые другие пути, которые вы по тем или иным причинам не хотите показывать поисковику;
Правильная настройка robots txt — обязательный этап SEO оптимизации сайта. Отсутствие такого файла или его некорректная настройка может нарушить индексацию и как следствие понизит позиции сайта в поисковой выдаче. При заходе на сайт поисковый робот, прежде всего, ищет robots.txt, и если его нет или он составлен неправильно, то поисковик сканирует сайт по своим собственным алгоритмам и индексирует все подряд.

Этапы настройки файла robots txt

1Создать txt файл в любом текстовом редакторе в кодировке ASCII или UTF-8.

2В файле прописать правила доступа для поисковых роботов

3Загрузить файл в корневой каталог сайта

4Проверить файл

Как оформлять правила

Правило — это указание поисковику на доступ или отказ в доступе к определенному пути на сайте. В правиле содержится несколько директив и каждую из них нужно указывать на отдельной строке.

User-agent:

Указывает, для какого поискового робота предназначается правило. Это самая первая директива в любом правиле. У каждого поисковика свой робот. Узнать название робота можно узнать в специальном разделе на сайте поисковика. Как правило, они называются примерно как «Помощь вебмастеру». Например, Yandex , YandexBot, Googlebot, AdsBot-Google. В файле может быть указаны правила для нескольких роботов.

Если же правила в файле robots применяются для всех роботов, то нужно написать так:

User-agent: *

Disallow:

Директива, которая указывает, к каким каталогам или файлам у поисковика нет доступа (т.е. нельзя сканировать). К одному Disallow можно указывать только один файл или директорию. Если вы открываете для индексации весь сайт, то оставьте значение Disallow пустым. Disallow: Если вы хотите скрыть весь контент, то после Disallow: поставьте “/”. Disallow: /

Кстати!

Иногда в директивах используются специальные символы «*» и « /». Что они означают:

* – Под этим символом понимается «любой текст», т.е директива применяется ко всем элементам, которые подходят под указанный признак. То есть, например:

User-agent: * – директива предназначается для всех роботов

Disallow: *.doc – директива запрещает доступ ко всем doc файлам

Disallow: *?* – запретить доступ ко всем элементам, в названии которых есть «?»

Disallow: *? – закрыть все пути сайта, которые заканчиваются на вопр. знак

$ – Символ означает, что нельзя индексировать все страницы, в которых есть определенное сочетание букв. Например:

Disallow: /user$

Allow:

Эта директива указывает, к каким каталогам или файлам мы открываем доступ поисковому роботу. Если в файле robots.txt вы хотите разрешить доступ ко всем файлам, кроме указанных в правилах, то Allow можно не писать. Доступ будет открыт по умолчанию.

Если же вы вообще не хотите указывать никакие запреты, и просто открываете весь сайт для индексирования, то ни Allow, ни Disallow не прописываются, а пишется только директива User-agent, применяемая для всех поисковиков.

Если в одном правиле используется disallow и allow, то их надо сортировать по возрастанию длины пути. Например, у нас есть папка prices и внутри него страницы marketing, copyright и seo. Мы хотим запретить поисковому роботу Google индексировать данную папку, но разрешить доступ к странице seo. Поэтому мы пишем:

User-agent: Googlebot

Disallow: /prices/

Allow: prices/seo.html

Sitemap:

Эта директива указывает роботу путь к карте сайта. Например:

Sitemap: http://вашсайт/sitemap.xml

Как проверить robots txt

После того, как файл готов и загружен в корневую директорию сайта, надо его проверить. Правильно ли прошла настройка файла robots можно узнать с помощью Яндекса или Гугла в специальном разделе для вебмастеров.

В Яндексе нужно зайти в «Вебмастер» и выбрать «Настройка индексирования» — «Анализ robots.txt». В Google нужно зайти в Search Console, выбрать свой сайт, и перейти в пункт «Сканирование», а затем — в «Инструмент проверки файла robots.txt».

Также существуют и другие сервисы проверки файла роботс, их можно найти в поисковиках.

Общие рекомендации к настройке файла robots txt:

  • Нельзя использовать кириллицу
  • Размер файла не должен превышать 32 кб.
  • В директиве Disallow нужно указывать только один файл или директорию.
  • Пути к файлам или страницам нужно писать ровно так, как они выглядят в строке браузера. Если там использованы прописные буквы, то так и нужно их писать в robots.txt

Вы можете самостоятельно посмотреть, как выглядит настоящий robots.txt. Просто откройте любой сайт и добавьте в поисковой строке браузера к адресу «/robots.txt».

Нужен настоящий SEO-сайт и интернет-реклама? Пишите, звоните:

Наша почта:
Единая справочная (звонок по России бесплатный): 8-800-551-39-15
WhatsApp: +7 (960) 048 81 32
Оставить заявку

1 1 1 1 1 1 1 1 1 1 Рейтинг: 0.00 (Голосов: 0)