Одной из серьезных проблем, на которые стоит обратить внимание при продвижении сайта — это дублированный контент. Он может стать причиной проблем с позициями, падения посещаемости и даже бана сайта.
Практически у всех, кто занимался по нашей программе самостоятельного продвижения были проблемы с дублированием. Это говорит о том, что проблема распространена как минимум среди тех, кто сам занимается своим сайтом сам, но по факту она встречается у большинства, кто специально ее не решал.
Что такое дубли и дублирование на сайте?
Для начала отделим ворованный контент от дублей. На самом деле, ворованный контент тоже можно считать дублем страницы, но страницы на чужом сайте. К счастью, если вы занимаетесь своим сайтом сами, то наверно знаете если копировали чужие тексты или их части, а это очень плохо, поэтому никогда этого не делайте (кроме случаев, когда вы понимаете зачем).
Дубли бывают:
Четкие дубли
Когда полностью одинаковая страница находится по разным адресам вашего сайта (а чаще всего, когда страница имеет несколько разных адресов).
Примеры:
- http://site/category/post1
- http://site/post1
- http://www.site/post1
Нечеткие дубли
Когда часть текста повторяется на разных страницах. Например, если товары разные (разные адреса станиц, разные названия и т.п.), но поле с описанием у них всех одинаковое. Или какой-то текст повторяется на всех страницах сайта.
Как узнать, что у вас серьезные проблемы с дублированием страниц?
Самый просто способ, это сделать поиск по запросу «site:ваш сайт» в поисковых системах и посмотреть количество найденных страниц. Такой запрос выводит все страницы с вашего сайта, попавшие в индекс поисковика.
Если страниц заметно больше, чем есть на сайте, то скорей всего у вас проблема. (Но еще может оказаться, что проиндексировались страницы из служебных разделов, тогда проблема в правильной настройке robots.txt.)
Если страниц заметно меньше, то это тоже может свидетельствовать о проблеме с дублированием, но диагнозов намного больше (неправильная настройка сервера, ворованный контент, контент не несущий информации, переспам и т.п.)
Как находить дубли на сайте?
Самый надежный способ, зная распространенные виды дублей, проверить свой сайт, вручную подставляя адреса возможных дублей. Давайте проверим на практике. Заходим на какую-нибудь страницу своего сайта и начинаем экспериментировать:
http://site.ru/category/post1- исходный адрес, на который мы перешли в процессе навигации по сайту. Все остальные варианты должны либо исправиться автоматически на этот адрес, либо выдать, что страница не существует.
http://www.site.ru/category/post1
http://site.ru/category/post1.html
http://site.ru/category/post1.php
http://site.ru/category/post1/index.php
http://site.ru/category/post1/index.html
http://site.ru/post1/ — часто страница доступна в нескольких категориях и без категории
http://site.ru/category/post1?param=234234
http://site.ru/category/post1/index.php
http://site.ru/category/post1/ — (добавляем и убираем косую черту в конце, это тоже считается разный адрес)
Обычно, если проблема есть, то этих проверок достаточно.
Еще есть хорошая программа Xenu, которой можно просканировать сайт, а потом отсортировать найденные страницы по заголовкам. Повторяющиеся заголовки — это потенциальные дубли. Но даже если это просто повторяющиеся заголовки — такого не должно быть. Title и H1 должны быть уникальны на всем сайте.
Чем грозит дублирование контента?
Самое страшное — ваш сайт может быть исключен из поиска. Особенно, если фактически страниц очень мало, а дублей десятки и сотни. Т.к. поисковик не понимает, что у вас проблема с настройками и думает, что вы пытаетесь наделать много страниц, которые не несут никакой пользы.
Кроме того, получается что в ответ на определенный запрос вместо одной страницы, на сайте есть несколько страниц, и грубо говоря, вся польза от одной страницы размывается на все ее дубли, вместо того, чтобы быть одной хорошей страницей и отвечать на конкретный запрос. Т.е. продвигать такую страницу очень сложно и требует усилий пропорциональных количеству дублей.
Как бороться с дублями?
- С помощью robots.txt (ссылка в начале статьи)
- C помощью 301 редиректа (будет отдельный материал)
- С помощью rel=canonical (будет отдельный материал)
Сейчас очень проблематично не дублировать контент! Так как в интернете миллионы похожего контента и он отличается пару словами!! а так делать как написано в статье это супеР! А дубли это очень плохо для сайта!
даже не думал что дублирование играет такую важную роль в раскрутке сайта. огромное спасибо за полезную информацию.
Я воспользовался помощью этого сайта и понял, что много записей на моем сайте это недобросовестная работа. Сейчас я провожу зачистку, Спасибо вам большое.
Эта проблема встречается довольно часто, если нет защиты на сайте, то контент нещадно воруют, так что не пожалейте денег на его защиту!
Мне кажется риск потерять сайт слишком большой, чтобы заниматься этим.
Это ясно, лучше текст писать или самому или изменить его до неузнаваемости. Можно также на биржах контента заказать копирайтинг или рерайтинг.
Мне понравилась статья! Исчерпывающий ответ на проблему дублей на сайте! Делаем как описано и не будет никаких проблем! Это точно проверено уже не на одном сайте!!
Теперь поняла наконец, почему поисковик убирает сайт из поиска при дублировании. К сожалению, это довольно частая проблема, и бороться с ней приходится, не покладая рук.