Одной из серьезных проблем, на которые стоит обратить внимание при продвижении сайта — это дублированный контент. Он может стать причиной проблем с позициями, падения посещаемости и даже бана сайта.

Практически у всех, кто занимался по нашей программе самостоятельного продвижения были проблемы с дублированием. Это говорит о том, что проблема распространена как минимум среди тех, кто сам занимается своим сайтом сам, но по факту она встречается у большинства, кто специально ее не решал.

Что такое дубли и дублирование на сайте?

Для начала отделим ворованный контент от дублей. На самом деле, ворованный контент тоже можно считать дублем страницы, но страницы на чужом сайте. К счастью, если вы занимаетесь своим сайтом сами, то наверно знаете если копировали чужие тексты или их части, а это очень плохо, поэтому никогда этого не делайте (кроме случаев, когда вы понимаете зачем).

Дубли бывают:

Четкие дубли

Когда полностью одинаковая страница находится по разным адресам вашего сайта (а чаще всего, когда страница имеет несколько разных адресов).

Примеры:

  • http://site/category/post1
  • http://site/post1
  • http://www.site/post1

Нечеткие дубли

Когда часть текста повторяется на разных страницах. Например, если товары разные (разные адреса станиц, разные названия и т.п.), но поле с описанием у них всех одинаковое. Или какой-то текст повторяется на всех страницах сайта.

Как узнать, что у вас серьезные проблемы с дублированием страниц?

Самый просто способ, это сделать поиск по запросу «site:ваш сайт» в поисковых системах и посмотреть количество найденных страниц. Такой запрос выводит все страницы с вашего сайта, попавшие в индекс поисковика.

Если страниц заметно больше, чем есть на сайте, то скорей всего у вас проблема. (Но еще может оказаться, что проиндексировались страницы из служебных разделов, тогда проблема в правильной настройке robots.txt.)

Если страниц заметно меньше, то это тоже может свидетельствовать о проблеме с дублированием, но диагнозов намного больше (неправильная настройка сервера, ворованный контент, контент не несущий информации, переспам и т.п.)

Как находить дубли на сайте?

Самый надежный способ, зная распространенные виды дублей, проверить свой сайт, вручную подставляя адреса возможных дублей. Давайте проверим на практике. Заходим на какую-нибудь страницу своего сайта и начинаем экспериментировать:

http://site.ru/category/post1- исходный адрес, на который мы перешли в процессе навигации по сайту. Все остальные варианты должны либо исправиться автоматически на этот адрес, либо выдать, что страница не существует.

http://www.site.ru/category/post1

http://site.ru/category/post1.html 

http://site.ru/category/post1.php

http://site.ru/category/post1/index.php

http://site.ru/category/post1/index.html

http://site.ru/post1/ — часто страница доступна в нескольких категориях и без категории

http://site.ru/category/post1?param=234234

http://site.ru/category/post1/index.php

http://site.ru/category/post1— (добавляем и убираем косую черту в конце, это тоже считается разный адрес)

Обычно, если проблема есть, то этих проверок достаточно.

Еще есть хорошая программа Xenu, которой можно просканировать сайт, а потом отсортировать найденные страницы по заголовкам. Повторяющиеся заголовки — это потенциальные дубли. Но даже если это просто повторяющиеся заголовки — такого не должно быть. Title и H1 должны быть уникальны на всем сайте.

Чем грозит дублирование контента?

Самое страшное — ваш сайт может быть исключен из поиска. Особенно, если фактически страниц очень мало, а дублей десятки и сотни. Т.к. поисковик не понимает, что у вас проблема с настройками и думает, что вы пытаетесь наделать много страниц, которые не несут никакой пользы.

Кроме того, получается что в ответ на определенный запрос вместо одной страницы, на сайте есть несколько страниц, и грубо говоря, вся польза от одной страницы размывается на все ее дубли, вместо того, чтобы быть одной хорошей страницей и отвечать на конкретный запрос. Т.е. продвигать такую страницу очень сложно и требует усилий пропорциональных количеству дублей.

Как бороться с дублями?

  • С помощью robots.txt (ссылка в начале статьи)
  • C помощью 301 редиректа (будет отдельный материал)
  • С помощью rel=canonical (будет отдельный материал)