Поиск дубликатов страниц на сайте - Digital-агентство ADVEGITAL

Поиск дубликатов страниц на сайте

Иногда на сайте появляются страницы с идентичным или похожим содержанием. При этом адреса у этих страниц разные. Такие страницы называются дубликатами.

Дубликаты негативно влияют на индексацию сайта, поэтому важно вовремя их найти и устранить.

Чем плохи дубли и как они влияют на позиции сайта

  • Ошибочное определение релевантной страницы.
    Из двух страниц с одинаковым содержанием поисковик в результаты выдачи выбирает одну, которая, по его мнению, максимально соответствует запросу. Иногда такой страницей становится дубликат, то есть не та страница, продвижение которой планировалось. Как результат, релевантной становится дубликат, а оригинал, который создавался для продвижения, теряет в релевантности.
  • В результате этого ссылки, привязанные к оригиналу, теряют в позициях.
  • Потеря естественных ссылок.
    Когда пользователи ссылаются на дубликат страницы, это снижает эффективность продвижения.
  • Теряется уникальность текста на основной странице.
    Если текст, размещенный на странице, встречается где-то еще, он перестает быть уникальным. А за неуникальный текст поисковики снижают позиции сайта.
  • Ухудшение индексации.
    Если поисковый робот регулярно обнаруживает на сайте дубликаты, он занижает позиции сайта и увеличивает интервал сканирования.
В итоге из-за дубликатов снижаются позиции сайта, доверие к нему со стороны поисковиков падает.
    Виды дубликатов:
  • Полный. Возникает, когда одна страница размещена по нескольким адресам, т.е у двух или нескольких страниц полностью идентичный контент.
  • Частичный. Появляется, когда у двух или нескольких страниц дублируется только часть контента.
  • Полные дубликаты страниц

    Полные дубликаты страниц появляются по причинам, связанным с особенностями CMS, или из-за ошибок веб-разработчика. Самые распространенные причины появления полных дублей:

    1 Не выбрано главное зеркало сайта, вследствие чего главная страница становится доступна по адресу с www и без.

    2 Дубли страниц с разными протоколами http и https.
    Например, http://site.ru и https://site.ru

    3 К адресу страницы добавились index, index/, index.php, index.php/, index.html, index.html/.
    Например, http://site.ru/index.html — дубль страницы http://site.ru

    4 Нарушена иерархия url, изменена исходная структура сайта.
    Например, если страница товара создана сначала в одном отделе каталога, а потом перенесена в другой. Из-за этого на сайте появляется две страницы с одинаковым содержанием, но c разными url.

    5 Добавление слеша в url.
    Например, http://mysite.ru/page и http://mysite.ru/page/

    6 Реферальная ссылка.
    Рекламная ссылка на страницу использует параметр «?ref=…». По правилам с рекламного url должен быть настроен редирект на url без этого параметра, но иногда этого не делают, и появляется страница-дубль.

    7 Индексация страниц с utm-меткам и параметрами «gclid».
    Ссылки с такими метками не должны индексироваться, но иногда это случается, и дубликат с utm меткой попадает в индекс.

    Частичные дубликаты страниц

    Не так страшны для индексации, но с течением времени всё же негативно влияют на репутацию сайта. Такой тип дублей сложнее обнаружить.

      Самые распространенные причины возникновения:
    • Неправильная настройка фильтра в каталоге
    • Страницы пагинации. Когда переход на следующую страницу происходит не перезагрузкой существующей, а добавлением к ней нового контента. Например, переход со страницы на страницу в каталоге товаров.
    • Наличие у страницы версии для печати.
    • Анонсы публикаций. Когда часть текста публикации используется как анонс. В итоге и у публикации и у страницы с анонсом появляется блок идентичного текста.
    • Комментарии, отзывы, спецификация товара. Например, при выборе вкладки характеристик товара в интернет-магазине URL изменяется, но основной контент страницы остается прежним.
    • Недостаточное наполнение страницы. Когда у страницы настолько мало текста, что навигационного текста и служебных надписей больше, чем самого контента.

Как найти дубликаты

Существуют специальные сервисы для поиска дубликатов страниц на сайте, это и онлайн-инструменты и программы. Но можно ли найти дубли вручную?

Да, и вот несколько способов:

1. Поиск среди всех проиндексированных страниц в выдаче.

В поисковой строке браузера нужно перед url сайта добавить «site:». Поисковик выдаст список всех страниц в индексе.

2. Инструменты Search Console и Вебмастер.

В Search Console нужно зайти в раздел «Вид в поиске» и выбрать вкладку «Оптимизация HTML». Там можно увидеть мета-теги title и description у страниц и по ним выявить дубликаты.

В Вебмастере нужно зайти в раздел «Индексирование» и перейти во вкладку «Страницы в поиске». Затем выбрать пункт «Исключенные страницы». На этой странице будет отображаться список исключенных из поиска страниц. В столбе «Статус» будет указана причина исключения. Среди них нужно искать «Дубль».

3. Ручной поиск на сайте (способ для опытных вебмастеров).

Что делать с дублями страниц?

После того, как дублирующие страницы обнаружены, нужно от них избавиться. Есть несколько способов:

  • Удалить дублирующие страницы.
  • Прописать запрет на индексацию дублей в robots.txt.
  • Настроить редирект с дубля на оригинал.
  • В коде страниц-дублей прописать в специальном теге ссылку на канонический url оригинала.
  • В коде страниц дублей добавить мета-тег , чтобы запретить их индексацию.

Необходимо регулярно проводить мониторинг дубликатов, особенно если это большой сайт со множеством страниц. Например, форум или интернет-магазин. Даже частичные дубликаты негативно влияют на ранжирование сайта.

Нужен настоящий SEO-сайт и интернет-реклама? Пишите, звоните:

Наша почта:
Единая справочная: 8 (843) 2-588-132
WhatsApp: +7 (960) 048 81 32
Оставить заявку

0.75 1 1 1 1 1 1 1 1 1 1 Рейтинг: 0.75 (Голосов: 2)