Дублированный контент: как его обнаружить и исправить

  1. Что такое дублированный контент?
  2. Обзор результатов поиска Google
  3. Повторный контент обнаружен ревизией
  4. Список товаров "Нет результатов"
  5. Инструменты для обнаружения дублированного контента
  6. Кричащая лягушка
  7. Зеркальные домены
  8. пейджер
  9. Указатель параметров
  10. Содержание дублированного дома
  11. Теги
  12. Внешние ссылки
  13. Рекомендации, чтобы избежать дублирования контента

Один из проблемы индексируемости чаще всего, когда я делаю SEO аудит сайта Это дублированный контент. Цель этой статьи - определить руководство с некоторыми пунктами для обзора, которые мы обнаружили на человеческом уровне благодаря опыту, приобретенному после многих лет проведения SEO консультаций.

Что такое дублированный контент?

Поисковые системы индексируют каждый контент уникальным идентификатором, который является URL-адресом страницы.

Очень важно, чтобы между контентом и URL-адресом было однозначное соответствие.

Отправка одного и того же контента под двумя разными URL-адресами может быть обнаружена как дублирующий контент поисковыми системами, которые рассматривают дублированный контент как попытку монополизировать больше позиций на странице результатов. Поэтому они выбирают URL (обычно самый старый или самый популярный) в качестве «оригинального» источника контента и позиционируют его лучше, в то время как другие, которые представляют тот же контент, размещаются на последних позициях. Примером может быть:

www.example.com/prueba

www.example.com/test2 -> То же содержание

Обзор результатов поиска Google

Дублированный контент обнаружен Google

Важный показатель предлагает Google в своих результатах поиска. Для этого необходимо ввести команду « site: », а затем URL-адрес домена, например: site: www.example.com . Этот поиск показывает все проиндексированные страницы введенного домена, и то, что нас интересует в этом отношении, находится на последней странице. Хитрость, чтобы добраться до последней страницы результатов поиска Google заключается в следующем. В URL-адресе мы видим параметр start , если мы находимся на странице 2, значение равно 10, если мы находимся на третьем, это 20 и так далее. Хорошо, если мы введем значение 990, это приведет нас к последней странице. Было бы так, начало = 990 .

В случае наличия дублированного контента появляется следующее сообщение, в котором указывается, что 490 страниц не были показаны в результатах поиска, поскольку Google считает их "очень похожими на те, которые уже показаны".

В случае наличия дублированного контента появляется следующее сообщение, в котором указывается, что 490 страниц не были показаны в результатах поиска, поскольку Google считает их очень похожими на те, которые уже показаны

Если мы нажмем на ссылку, чтобы повторить поиск, включая результаты, которые не отображаются, мы увидим те страницы, которые считаются дублирующимся контентом. К сожалению, они не отмечены ярким фоном или чем-то, что подсвечивает, надеюсь. Итак, здесь мы подошли к рассмотрению результатов поиска.

Повторный контент обнаружен ревизией

Вы также можете обнаружить дублирующийся контент, просматривая различные страницы результатов поиска, просматривая заголовки и фрагменты .

Заголовок является одним из наиболее важных элементов для расчета релевантности страницы на странице. Если мы посмотрим на результаты, возможно, что несколько равных названий привлекают внимание. Это может быть индикатором дублированного контента.

Если мы обнаружим несколько одинаковых заголовков, мы можем проверить это командой:

сайт: www.example.com intitle: текст заголовка

То же самое происходит с фрагментом , это фрагмент текста, который кратко описывает содержание страницы на страницах результатов поисковых систем (SERP). По умолчанию этот текст обычно соответствует содержимому метатега описания страницы. Этот момент очень важен, потому что если мы видим повторяющиеся фрагменты, вполне возможно, что мы сталкиваемся с дублированным контентом.

Список товаров "Нет результатов"

Просматривая веб-сайт, мы можем обнаружить страницы списков, которые не дают результатов. Если на этих страницах отображается сообщение типа «Нет результатов», мы вводим в Google команду:

сайт: www.example.com "Нет результатов"

И мы увидим проиндексированные страницы списков без результатов. Если на страницах нет контента, который их отличает, их можно рассматривать как дублирующий контент.

Инструменты для обнаружения дублированного контента

Google Search Console

В консоли поиска Google у нас есть опция улучшений HTML . В этом разделе мы видим заголовки и мета-описания, которые Google обнаружил как дубликаты.

Если мы щелкнем по дублирующим тегам заголовка, мы увидим страницы с дублирующимися тегами заголовка, и если мы отобразим заголовок, мы увидим, на каких страницах этот заголовок включен. То же самое происходит с опцией дублирования метаописаний.

Кричащая лягушка

Инструмент Кричащая лягушка это очень полезный SEO-ресурс, который, помимо многих других функций, имеет возможность показывать дублированный контент. Screaming Frog - это инструмент оплаты, но у него есть бесплатная версия, которая позволяет отслеживать до 500 URL-адресов домена. В этой бесплатной версии у нас есть возможность увидеть дублированный контент, который нас интересует.

Прежде всего мы должны захватить существующие URL на сайте. Для этого мы представляем домен нашего сайта.

Для этого мы представляем домен нашего сайта

После завершения сканирования на вкладке URI мы выбираем фильтр дубликатов и при этом видим список страниц с разными URL-адресами и дублирующимися элементами, такими как заголовок , мета-описание, H1 и т. Д.

Д

Зеркальные домены

Дублированный контент также может передаваться между доменами , когда контент точно такой же, они называются зеркальными доменами. Наиболее распространенный случай зеркальных доменов - это основной домен (example.com) и поддомен www.example.com. С помощью команды site: example.com -www вы увидите проиндексированные страницы поддоменов, если они у вас есть.

Мы также нашли опубликованные и проиндексированные среды разработки, которые генерируют дублированный контент . Эти среды могут находиться в поддоменах, таких как dev.example.com, pre.example.com, или в совершенно другом домене.

пейджер

Пейджеры - пушечное мясо для дублированного контента. Вот некоторые случаи, когда мы можем найти дублирующийся контент в пейджерах:

  • Первая страница: возможно, что содержимое первой страницы отображается с параметром страницы и без него = 1.

Я www.example.com/listado

www.example.com/listado?pagina=1

  • Последняя страница: я обнаружил случаи, когда значение параметра подкачки для последней страницы неправильно контролируется, и тот же результат возвращается для любого более высокого значения.

www.example.com/listing?page=4 -> Последняя страница

www.example.com/listado?pagina=10

www.example.com/listado?pagina=100

Что касается страниц листинга, то мы обнаружили общую ошибку, которая заключается в том, что они обычно имеют одинаковое название и мета-описание . Мы можем легко обнаружить это в обзоре результатов поиска и в разделе расширений HTML консоли поиска Google.

Вполне возможно, что мы можем достичь одного и того же контента с разных маршрутов навигации . Логично, что продукт, услуга или листинги сайта могут принадлежать к разным категориям. Приведу пример, чтобы понять этот случай: снять квартиру в Аликанте мы могли бы по следующим маршрутам навигации:

www.example.com ->

www.example.com/alquilar/ ->

www.example.com/alquilar/alicante/

или еще

www.example.com ->

www.example.com/alicante/ ->

www.example.com/alicante/alquilar/

В этом случае страницы www.example.com/alquilar/alicante/ и www.example.com/alicante/alquilar/ будут возвращать одно и то же содержимое, и оно будет дублированным.

Указатель параметров

Мы увидели этот момент особым образом, когда я говорил о пейджерах. Но это может случиться с любым параметром.

Возможно, что для URL с параметрами мы обнаружим, что для любого значения, которое мы добавляем в параметр, мы возвращаем тот же результат . Например, для сортировки списка существуют параметры order = ascending и order = порядке убывания, но если он не запрограммирован должным образом, может случиться так, что для значения order = blablabla вернет тот же результат, что и для любой из предыдущих опций. В этом случае это будет дублированный контент.

Содержание дублированного дома

Содержание дома легко отображаться в разных URL-адресах. Я привожу несколько примеров, которые мы обычно находим:

www.example.com

www.example.com/home.php

www.example.com/index.html

Эти страницы могут быть связаны из главного меню (дома, дома и т. Д.), По ссылке с логотипом, из нижней части страницы или с любой страницы. И да, как вы уже догадались, это также будет дублированный контент.

Теги

Неправильное использование тегов или тегов может привести к созданию страниц с одинаковым содержанием . Например, в блогах я обнаружил, что обычно для каждой статьи создаются новые ярлыки, и вполне возможно, что эти ярлыки не переназначаются другим статьям. Каждый из этих ярлыков создает страницу со списком с одной статьей. Эти страницы можно считать дублирующимся контентом.

Внешние ссылки

Вы можете подумать о нескольких случаях, которые я упомянул, таких как order = blablabla , но как этот URL будет проиндексирован, если на моем сайте нет ссылки на него? Ну, очень просто, вы можете просто по ошибке связать ссылку с другого сайта, и если этот URL вернет код сервера 200 OK, страница будет проиндексирована .

Рекомендации, чтобы избежать дублирования контента

Итак, что мне делать, если у меня есть дублированный контент? Ну, извините, нет единой формулы, но я поставил несколько возможных решений:

То, как вы увидели дублирующийся контент, является очень распространенной ошибкой на веб-сайтах, которую вы можете относительно легко обнаружить и решить с помощью рекомендаций, которые я вам дал. Теперь, когда вы прочитали статью, я приглашаю вас проверить свой веб-сайт и убедиться, что дублированный контент не является проблемой для вас.

Что такое дублированный контент?
Что такое дублированный контент?
Com/listado?
Com/listing?
Com/listado?
Com/listado?