Размещение и корректная настройка файла Robots.txt
Файл robots.txt содержит указания поисковым роботам по обработке страниц сайта. В нем указываются правила, каждое из которых запрещает или разрешает поисковику доступ к определенной странице, файлу или каталогу на сайте.
Файл robots.txt загружается в корневой каталога сайта. Путь к нему выглядит так: http://вашсайт/robots.txt
- Какие файлы запрещают к индексации
- системные файлы и каталоги;
- пользовательские страницы (личный кабинет, заказы и т.п.);
- дубликаты страниц;
- кнопки, контактные формы, формы поиска, сравнения товаров и т.п.;
- рубрики ключевых слов;
- любые другие пути, которые вы по тем или иным причинам не хотите показывать поисковику;
Этапы настройки файла robots txt
1Создать txt файл в любом текстовом редакторе в кодировке ASCII или UTF-8.
2В файле прописать правила доступа для поисковых роботов
3Загрузить файл в корневой каталог сайта
4Проверить файл
Как оформлять правила
Правило — это указание поисковику на доступ или отказ в доступе к определенному пути на сайте. В правиле содержится несколько директив и каждую из них нужно указывать на отдельной строке.
User-agent:
Указывает, для какого поискового робота предназначается правило. Это самая первая директива в любом правиле. У каждого поисковика свой робот. Узнать название робота можно узнать в специальном разделе на сайте поисковика. Как правило, они называются примерно как «Помощь вебмастеру». Например, Yandex , YandexBot, Googlebot, AdsBot-Google. В файле может быть указаны правила для нескольких роботов.
User-agent: *
Disallow:
Директива, которая указывает, к каким каталогам или файлам у поисковика нет доступа (т.е. нельзя сканировать). К одному Disallow можно указывать только один файл или директорию. Если вы открываете для индексации весь сайт, то оставьте значение Disallow пустым. Disallow: Если вы хотите скрыть весь контент, то после Disallow: поставьте “/”. Disallow: /
Кстати!
Иногда в директивах используются специальные символы «*» и « /». Что они означают:
* – Под этим символом понимается «любой текст», т.е директива применяется ко всем элементам, которые подходят под указанный признак. То есть, например:
User-agent: * – директива предназначается для всех роботов
Disallow: *.doc – директива запрещает доступ ко всем doc файлам
Disallow: *?* – запретить доступ ко всем элементам, в названии которых есть «?»
Disallow: *? – закрыть все пути сайта, которые заканчиваются на вопр. знак
$ – Символ означает, что нельзя индексировать все страницы, в которых есть определенное сочетание букв. Например:
Disallow: /user$
Allow:
Эта директива указывает, к каким каталогам или файлам мы открываем доступ поисковому роботу. Если в файле robots.txt вы хотите разрешить доступ ко всем файлам, кроме указанных в правилах, то Allow можно не писать. Доступ будет открыт по умолчанию.
Если же вы вообще не хотите указывать никакие запреты, и просто открываете весь сайт для индексирования, то ни Allow, ни Disallow не прописываются, а пишется только директива User-agent, применяемая для всех поисковиков.
Если в одном правиле используется disallow и allow, то их надо сортировать по возрастанию длины пути. Например, у нас есть папка prices и внутри него страницы marketing, copyright и seo. Мы хотим запретить поисковому роботу Google индексировать данную папку, но разрешить доступ к странице seo. Поэтому мы пишем:
User-agent: Googlebot
Disallow: /prices/
Allow: prices/seo.html
Sitemap:
Эта директива указывает роботу путь к карте сайта. Например:
Как проверить robots txt
После того, как файл готов и загружен в корневую директорию сайта, надо его проверить. Правильно ли прошла настройка файла robots можно узнать с помощью Яндекса или Гугла в специальном разделе для вебмастеров.
В Яндексе нужно зайти в «Вебмастер» и выбрать «Настройка индексирования» — «Анализ robots.txt». В Google нужно зайти в Search Console, выбрать свой сайт, и перейти в пункт «Сканирование», а затем — в «Инструмент проверки файла robots.txt».
Также существуют и другие сервисы проверки файла роботс, их можно найти в поисковиках.
Разработка SEO-сайтов с пожизненной гарантиейСоздаем невероятные SEO-сайты, оптимизированные по 69 параметрам уже на этапе разработки
Общие рекомендации к настройке файла robots txt:
- Нельзя использовать кириллицу
- Размер файла не должен превышать 32 кб.
- В директиве Disallow нужно указывать только один файл или директорию.
- Пути к файлам или страницам нужно писать ровно так, как они выглядят в строке браузера. Если там использованы прописные буквы, то так и нужно их писать в robots.txt
Вы можете самостоятельно посмотреть, как выглядит настоящий robots.txt. Просто откройте любой сайт и добавьте в поисковой строке браузера к адресу «/robots.txt».