Явные и неявные дубли страниц на сайте

Давно хотел поговорить на тему дублей страниц на сайтах. Что это? Полностью или частично совпадающий контент на страницах с разными адресами.

Для робота это как красная тряпка на быка, санкции бывают от понижения в выдаче, до АГС и бана.
Почему? Во-первых ПС (а особенно грешит этим Яндекс)  не может определить релевантную страницу, их же не одна – а 10.
Во-вторых – такие сайты любят запихивать в ту же сапу, страниц то куча, а информации – 100 статей. Это уже маркер для ПС. Ну и по другим причинам.

Откуда они берутся?

Отовсюду.
Например, в злосчастном ВП дубли возникают из-за повторения контента в анонсах (а некоторые еще и без читать дальше делают) – и точно такой же текст у нас будет в самой заметке – а кроме того, те же анонсы идут в рубрик, календари и теги (если они есть) В почти любом новостном движке анонсы новостей повторяют первые части самого текста новости.

Передача лишних параметров – грешат 90% движков без ЧПУ, да и с ЧПУ бывает не все так сладко. Как это выглядит?
Исходная страница
site.ru/doc/index.php?showid=290
Она и должна индексироваться
Однако ее содержимое частично или полностью совпадающее доступно по адресам
site.ru/doc/index.php?showid=290&pid=35881&st
site.ru/doc/index.php?showid=290&pid=35881&st=0&333
site.ru/doc/index.php?showid=290&pid=35881&st=0&333?SessionID=4557654235

И так до тысяч вариантов бывает, в зависимости от извращенности автора ЦМС (особенно, если есть  SessionID)
Все это богатство полностью или частично попадает в индекс ПС, и приводит к вышеописанным санкциям.

Как бороться с этими дублями.

Идеально – адрес должен быть у страницы один и точка. Все остальные варианты написания должны отдавать ошибку 404. Решается грамотно настроенным модрерайтом
Но что делать, если есть готовая ЦМС, и там уже не хочется менять адреса и сессии, за которые, по хорошему убивать надо.

Тут есть 2 пути

Не очень грамотный способ выпиливать дубли

– составление простыни в файле robots.txt, где мы запрещаем по маске все лишние параметры и все лишние каталоги
Пример такого – для дурацкой ОС комерсс
Почему плохо - robots.txt для поисковиков носит рекомендательный характер, и они все равно полезут. Ну некошерный этот путь и точка.

Правильный путь для удаления дублей

Есть страница канонического вида
site.ru/doc/index.php?showid=290
Она и должна индексироваться
Однако из за ЦМС у нее есть куча дублей
site.ru/doc/index.php?showid=290&pid=35881&st=0&333

site.ru/doc/index.php?showid=290&pid=35881&

Ну и так далее.
Так вот есть 3 волшебных метатега в шапке
Которые безусловно запретят к индексации котнтет
<meta name=”robots” content=”noindex,follow” />
или даже
<meta name=”robots” content=”noindex,nofollow” />
Который запретят к индексации и ссылки
Мы должны их посредством скрипта генерировать на всех страницах, которые имеют все вот эти дурацки довески (а равно и в рубриках и везде, где содержится частично неуникальный контент)
То есть та часть скрипта, которая отвечает за создание страницы с довескам – генерирует тег на странице с довеском.

3 волшебный тег
<link rel=”canonical” href=”http:// site.ru/doc/index.php?showid=290
” />
Он должен генерироваться в скрипте при создании самой страницы и сквозняком идти на все ее дубли. Таким образом, мы даем понять ПС, что истинный адрес страницы тут. От нечетких дублей в рубриках, новостях, он понятное дело не спасает.

Идеально это комбинировать
То есть станица
site.ru/doc/index.php?showid=290
имеет
<link rel=”canonical” href=”http:// site.ru/doc/index.php?showid=290
” />

site.ru/doc/index.php?showid=290&pid=35881&st=0&333
а ее дубль

<link rel=”canonical” href=”http:// site.ru/doc/index.php?showid=290
” />
<meta name=”robots” content=”noindex,follow” />

Вот так вот, а вы думали в сказку попали:)

Комментариев: 4

  1. Евгения пишет:

    Да, сталкивалась с “плюшками” от ПС за нечеткие дубли.
    Я в сапе/блогуне не торгую. Так что, такой “приз”, как большая разница (в 2-3 раза) в количестве проиндексированных страниц у Яндекса и Гугла - мне по барабану.
    Но вот пляска у Яндекса с определением релевантной страницы по запросу - это реальность. Причем, чем больше контента, тем ему справляться сложнее. У Гугля пока, слава Богу, с этим косяков нет - с определением релевантности (вернее - с совпадением моих замыслов и его мнением по их поводу).
    Но, опять же - оговорюсь, для меня важны только позиции и трафик.
    Еще по теме - вот кто бы расссказал, как в той самой ЦМС ВП это дело настроить….

  2. admin пишет:

    2 Евгения по дублям в ВП - ну плагин у нас же есть? Который seo- он часть уже генерирует , остальное стоит убить в robots.txt

  3. Джина пишет:

    Убиться, как все сложно. А что лучше убирает дубли на странице с параметрами - canonical или noindex

  4. admin пишет:

    для удаления дублей на страницах - лучше мета тег canonical

Оставьте свой отзыв!