Дублирование контента на сайте

28.01.2024

24 Просмотры

Буквально в первые дни жизни моего блога я позаботился о том, чтобы минимизировать дублирование контента на его страницах. И хотя мне еще есть, что улучшить в этом направлении, я спешу поделиться рекомендациями по поиску и устранению внутреннего дублирования информации. Думаю, что они будут полезны многим, поскольку информации по этой теме предостаточно, но подробного, конкретного описания всего комплекса мер по борьбе с дублированием информации на страницах сайта мне не удалось быстро найти.

Дубли страниц описание проблемы

Для людей сколько-нибудь опытных в теме seo понятно, что дублей информации, как и переоптимизации ключами желательно избегать. Для новичков укажу, что речь идет о дублировании информации в пределах самого сайта, а не использовании неуникального в пределах интернета контента (это отдельная тема). Так же приведу несколько аргументов в пользу борьбы с дублями:

дублирование информации может вызвать пессимизацию (понижение позиций в выдаче) со стороны ПС;
ссылочный вес (pr и тиц) «растекаются» по дублям;
целевая страница может быть заменена в поисковой выдаче на дубль с понижением позиций.

Виды дублирования контента внутри сайта

Можно выделить два основных типа дублирования контента на сайте:

нечеткие (частичные) дубли;
четкие (полные) дубли.

Четкие дубли — это полностью идентичные страницы, как правило, они возникают вследствие доступности одной и той же страницы по разным адресам. Также к этой категории я бы приписал практически полностью совпадающие страницы (полное повторение контента), которые могут возникать в таких категориях как архив и т.п.

Нечеткие дубли — это страницы со значительным пересечением информации. К таким страницам может относиться лента последних постов в блоге, результаты поиска, каталоги товаров, страницы, на которых преобладает сквозной контент в навигации, сайдбарах и футере.

Таким образом, большинство четких дублей является следствием особенностей кода, отвечающего за роутинг, тогда как нечеткие дубли являются следствием архитектуры сайта. Поэтому методы борьбы с четкими и нечеткими дублями различны.

Поиск дублей страниц

Перед тем, как устранять дубли страниц нужно их обнаружить, причем для сайта будет лучше, если дубли будут устранены до того, как они будут проиндексированы.

Для поиска дублирования контента, который еще не проиндексирован ПС, необходимо анализировать возможные пути возникновения дублей самостоятельно и проверять их вручную. После индексации можно воспользоваться помощью ПС для этих целей. Разберем каждый из случаев детальнее.

Ручной поиск дублей страниц

Ручной поиск позволяет относительно просто выявить большую часть возможных четких дублей. Для этого стоит проверить распространенные причины возникновения повторяющейся информации.

Доступность сайта по адресу с www и без.
Доступность по url со слешем и без слеша на конце (example.com/test и example.com/test/).
Доступность главной страницы или всех страниц через index.php (example.com/index.php или даже example.com/index.php/test).
Доступность к одной и той же странице по url с различными параметрами (example.com/page/1 , example.com?page=1, example.com?page=1?something=value и т.п.).
Доступность страницы по разным адресам, из разных категорий (example.com/statia-o-chemto example.com/blog/article/10).

Таким образом, в первую очередь нужно проверить:

Адреса с www и без.
Страницы с пагинацией.
Страницы с необязательными дополнительными параметрами.
Страницы с идентификаторами сессии или случайными значениями.
Доступность страниц из разных категорий (особенно из архива)

Поиск дублей контента с помощью Яндекса

Если сайт уже как следует проиндексирован, то для поиска дублей можно воспользоваться поиском от Яндекс. Для этого выбираем «расширенный поиск», вводим в кавычках длинную фразу с проверяемой страницы и в поле «на сайте» вводим адрес сайта.

Для примера я взял популярный блог shakin.ru и ввел следующий запрос: «»Итак, дорогие друзья, пришло время рассказать о том, как я увеличил «, которая является цитатой части старенькой статьи посвященной достижению цели в 1000 посетителей в сутки. Статья. На мой вопрос яндекс выплюнул 4 ссылки (введите запрос и увидите их). Как я и ожидал, блог известного сеошника не содержит четких дублей страниц, однако анонсы по тегам и категориям практически полностью пересекаются, что тоже не очень хорошо.

Поиск дублирования информации с помощью Google

Для поиска дублирования информации в Google можно применять ту же технику, что и с Яндексом. Вводим запрос в кавычках и определяем поиск в пределах сайта (вот так: «запрос» site:example.com).

Так же можно воспользоваться древним шаманским методом. Для этого окропите клавиатуру кровью голодного суслика и введите » site:example.com/& -site:example.com/*». Я не до конца понимаю суть данного метода, но порой он выдает дубли на сайте. Но это так, побаловаться. Буду рад увидеть комменты знающих людей по поводу данного подхода.

Устранение четких дублей страниц

Для устранения четких дублей страниц применяются 2 основных метода: создание 301го редиректа (перенаправление) на основную копию или запрет индексации лишних копий в robots.txt. Важно отметить, что редирект позволяет слить весь тиц и pr на основной дубль, даже если остальные копии уже проиндексированы и на них стоят ссылки. Запись в robots.txt позволяет лишь предупредить индексацию нежелательных страниц.

В случае, когда настройка редиректа или запрет к индексации по каким-то причинам невозможны или нежелательны, можно воспользоваться метатегом < link rel=»canonical» href=»%D0%BE%D1%81%D0%BD%D0%BE%D0%B2%D0%BD%D0%BE%D0%B9%20%D0%B4%D1%83%D0%B1%D0%BB%D1%8C»>, который укажет ПС, какой из дублей считать главным и использовать в выдаче. Вот каковы ограничения на применение данного метода в Яндексе:

Канонический url должен быть доступен для индексирования;
ПС не учитывает rel=»canonical» , если указывается url с другого хоста или поддомена хоста, на котором атрибут указан;
документ не может иметь несколько канонических url;
не рекомендуется создавать цепочки более чем из двух элементов (источник, цель).

Положительным моментом использования rel=»canonical» является то, что он передает весь ссылочный вес канонической странице.

Что делать с нечеткими дублями страниц

Зачастую страницы с нечеткими дублями информации несут важную функцию, и закрытие их от индексации представляется нежелательной мерой. В таком случае подход будет индивидуален в каждом случае. Общей рекомендацией является сокращение лишнего дублирующегося контента (как правило, сквозных блоков), уникализация дублирующихся частей (например, анонсы некоторых постов на главной странице в моем блоге отличаются от текста самого поста), разбавление дублирующейся информации уникальной (комментарии, отзывы, описания).

Если же нечеткие дубли возникают вследствие избыточности информации, то методы борьбы с ними похожи на устранение полных дублей (закрытие от индексирования, редирект, физическое устранение).

Практикуемся в обнаружении и устранении дублей страниц

Все, что было выше – это введение в этот краткий пункт. Итак, моделируем ситуацию: создан новый сайт или блог по адресу test.ru, добавлено несколько новостей, страниц с информацией. Как будем действовать, чтобы заранее предупредить проблемы с возникновением дублирующегося контента?

Правильно склеиваем адрес сайта с www и без

Регистрируемся в панелях вебмастера Яндекс webmaster.yandex.ru и инструментах вебмастера google google.com/webmasters/tools/.
Добавляем в панели вебмастера сайт test.ru и Важно! www.test.ru . Для добавления нужно будет подтвердить права на домен, самым быстрым методом является добавление в код главной страницы метатегов, которые предлагают панели.
В инструментах Google идем в закладку конфигурация сайта -> настройки и выбираем основной домен test.ru или www.test.ru (неважно какой, главное одинаковый для двух версий сайта).
Делаем то же самое в Яндексе, путь к настройке: настройка индексирования->главное зеркало.
После начала индексации сайта делаем 301 редирект на основное зеркало. В нашем случае редиректим страницы, начинающиеся на www.test.ru. Методы редиректа зависят от сервера, на котором работает сайт. Я рассмотрю наиболее популярные варианты:
- ApacheВ корневой директории находим или создаем файл .htaccess и прописываем в нем следующее правило:RewriteEngine On RewriteCond %{HTTP_HOST} ^www. test.ru [NC] RewriteRule ^(.*)$ http:// test.ru /$1 [L,R=301] Оно будет работать, если модуль RewriteEngine включен (на всех приличных хостингах это так).
- NginxНастройка редиректа производится в конфигурационном файле:server { listen 80; server_name www. test.ru; rewrite ^ http:// test.ru $request_uri? permanent; } server { listen 80; server_name . test.ru; ..... Остальная конфигурация .....
- IISДля настройки редиректа в IIS проще всего пинать техподдержку хостера, чтобы они сами настроили необходимые редиректы. Если же есть доступ в «Internet Services Manager» кликните правой кнопкой мыши по сайту и выберите создание редиректа, выберbте «Properties» и потом «Home Directory». Далее вводим настройки: «A redirection to a URL», в строке «Redirect to:» вводим http:// test.ru, выбираем «A permanent redirection for this source».Так же для настройки редиректа можно использовать файл web.config, но, честно говоря, я очень давно не работал с asp.net и уже забыл, как это делать правильно.
Если вы по какой-то причине не можете использовать данные методы, можно создать редирект программно, посылая соответствующие заголовки вручную при обращении к странице с www:HTTP/1.1 301 Moved Permanently Location: http://test.ru/остальная часть запроса Данный метод прост в реализации, если на вашем сайте есть централизованный роутинг адресов.

Ищем и побеждаем дубли страниц вручную

Проверяем все возможные пути возникновения дублей, которые обсуждались выше и другие, которые могут возникнуть в вашем случае. Настраиваем 301 редирект для совершенно идентичных страниц с разным написанием адреса (слеши, index.php и т.п.). Запрещаем индексацию разделов, которые нельзя редиректить, но которые выдают дублирующую информацию. Для запрета индексации используем файл robots.txt в корневой директории сайта. В конце используем теги с rel=”canonical” для ссылки на основной дубль с разделов, которые не хотим закрывать от индексации.

Как использовать robots.txt Для управления индексацией

Тема достаточно обширная, я лишь укажу несколько самых простых применений.

Запрещаем для индексации архивные материалы сайта:

User-agent: * 
Disallow: /arch/

User-agent — указывает имена роботов, которым предназначена директива

Disallow — инструкция для закрытия от индексирования, каждая новая инструкция должна располагаться на новой строке.

Разрешаем для индексации только раздел блог

User-agent: *
Allow: /blog
Disallow: /

Спецсимволы robots.txt

* — обозначает любую последовательность символов, включая пустую. Применяется по-умолчанию в конце всех команд, т.е. Disallow: /test на самом деле воспринимается, как Disallow: /test*

$ — отменяет использование * , примеры:

Disallow: /test$ запретит доступ только к /test
Disallow: /test/*.html$ запретит доступ ко всем страницам с html на конце, находящимся в разделе test.

Более подробно про применение robots.txt лучше всего почитать в хелпе Google и Яндекс

12 комментариев

Показать все Самые популярные Высокий рейтинг Низкий рейтинг Добавьте свой отзыв

Войдите, чтобы ответить
Andrew 28.01.2024 - 17:06

Я на одном из блогов для исключения дублирования просто убрал анонс статьи и оставил только ссылку на нее в категориях. Хуже не стало, а результат есть
Войдите, чтобы ответить
oroom 28.01.2024 - 17:07

Можно делать и так, но мне кажется, что сперва нужно сделать удобно для посетителей, а потом думать о ПС. Отсутствие анонсов постов на блоге все же выглядит непривычно, а вот от вывода полного текста можно и воздержаться.
Войдите, чтобы ответить
AdSensor 28.01.2024 - 17:07

Классно. Все очень подробно. Закину в закладки, и если что, буду на него ссылатьсяю
Войдите, чтобы ответить
oroom 28.01.2024 - 17:07

Я еще буду модифицировать пост, т.к. нашел очень удобные способы автоматизации поиска дублей. И вообще хочу постоянно обновлять такие вот длинные статьи, чтобы они не теряли актуальность.
Войдите, чтобы ответить
dlimonov 28.01.2024 - 17:07

Дубли на сайте удобно отлавливать программой Адвего плагиатиус, предварительно поправив в настройках «Порог совпадения для завершения» = 0
Войдите, чтобы ответить
oroom 28.01.2024 - 17:08

Кстати, спасибо за идею. Нужно будет попробовать подобный анализатор уникальности контента для поиска частичных дублей страниц.

Единственный минус — не автоматический режим работы. Для поиска полных и почти полных (более 70% совпадений) я уже нашел удобный автоматический способ, о котором писал в статье про анализ сайта.
Войдите, чтобы ответить
Виталий 28.01.2024 - 17:08

Здравствуйте, вы много и хорошо написали, но все я думаю, что начать стоило с того, что же считать дублями. Если у страниц в title есть различие в одном слове — это считать дублями?? Такая ситуация часто бывает с интернет-магазинами, когда у товаров различается всего один атрибут. Допустим, что есть товар с диаметром 52 и 58мм. У них все одинаковое, только одна характеристика отличается. Такой контент будет считаться дублями?
Войдите, чтобы ответить
Виталий 28.01.2024 - 17:08

И еще не в обиду сказано будет, но у вас на сайте нет обратной связи, контактов и я не могу на комментарии к статье подписаться. Это очень огорчает.
Войдите, чтобы ответить
oroom 28.01.2024 - 17:09

Про нечеткие (неполные) дубли страниц написано в подразделе «Виды дублирования контента на сайте». Именно интернет магазины являются типичным примером возникновения неполных дублей. Типовым решением такой проблемы является уникализация описаний для различных товаров или разбавление текста комментариями и отзывами покупателей.

А за критику спасибо, обязательно сделаю подписку на комментарии.
Войдите, чтобы ответить
Seouniver 28.01.2024 - 17:09

Поставьте нормальную капчу от спамм комеентариев
Войдите, чтобы ответить
oroom 28.01.2024 - 17:09

Не люблю капчу, я программно убил 70-80% спама, остальной вручную удаляю пару раз в неделю.
Войдите, чтобы ответить
Мария 28.01.2024 - 17:09

Не могу справиться с четкими дублями на юкозе. Может быть, вы знакомы с этой cms? Самое главное, не могу нигде найти точный ответ на этот вопрос применительно именно к юкозу…

Оставить ответ Отменить

Для отправки комментария вам необходимо авторизоваться.

Дублирование контента на сайте

Дубли страниц описание проблемы

Виды дублирования контента внутри сайта

Поиск дублей страниц

Ручной поиск дублей страниц

Поиск дублей контента с помощью Яндекса

Поиск дублирования информации с помощью Google

Устранение четких дублей страниц

Что делать с нечеткими дублями страниц

Практикуемся в обнаружении и устранении дублей страниц

Правильно склеиваем адрес сайта с www и без

Ищем и побеждаем дубли страниц вручную

Как использовать robots.txt Для управления индексацией

Спецсимволы robots.txt

Бесплатный прогон за 2 строчки текста

Переоптимизация, перелинковка, развитие

oroom

Как 16 компаний занимают верхние строчки в результатах поиска Google (издание 2024 года)

Аудит номер 2

Установка статистики от Google

Подключение к удаленному серверу

Оставить ответ Отменить