Когда и как заблокировать контент от поисковых систем

  1. TL; DR Если вы планируете исключить контент из поисковых систем, сначала убедитесь, что вы делаете...
  2. Зачем вообще блокировать контент?
  3. Что заботится о том, почему, как насчет как?

TL; DR
  1. Если вы планируете исключить контент из поисковых систем, сначала убедитесь, что вы делаете это по правильным причинам.
  2. Не делайте ошибку, предполагая, что вы можете скрыть контент на языке или отформатировать, что боты не будут понимать; это недальновидная стратегия. Будьте честны с ними, используя файл robots.txt или тег Meta Robots.
  3. Не забывайте об этом только потому, что вы используете рекомендуемые методы для блокировки контента, который вы в безопасности. Поймите, как блокировка контента сделает ваш сайт доступным для ботов.

Когда и как исключить контент из индекса поисковой системы

Основным аспектом SEO является убеждение поисковых систем, что ваш сайт заслуживает уважения и обеспечивает реальную ценность для поисковиков. И для поисковых систем, чтобы определить ценность и релевантность вашего контента, они должны поставить себя на место пользователя.

Теперь у программного обеспечения, которое просматривает ваш сайт, есть определенные ограничения, которые SEO-специалисты традиционно используют, чтобы скрыть определенные ресурсы от поисковых систем. Однако боты продолжают развиваться и постоянно совершенствуют свои усилия, чтобы увидеть вашу веб-страницу так, как это сделал бы пользователь в браузере. Пришло время пересмотреть контент на вашем сайте, который недоступен поисковым роботам, а также причины, по которым он недоступен. У ботов все еще есть ограничения, и у веб-мастеров есть законные причины блокировать или выводить определенные части контента. Так как поисковые системы ищут сайты, которые предоставляют качественный контент пользователям, пусть пользовательский опыт направит ваши проекты, а все остальное встанет на свои места.

Зачем вообще блокировать контент?

фото Стивен Феррис (CC BY 2.0) , модифицированный

  1. Частный контент. Индексирование страниц означает, что они доступны для отображения в результатах поиска и, следовательно, являются видимыми для общественности. Если у вас есть личные страницы (информация об учетной записи клиента, контактная информация о физических лицах и т. Д.), Вы хотите, чтобы они не попадали в индекс. (Некоторые сайты типа whois отображают информацию о владельце регистрации в JavaScript, чтобы боты-скребки не могли украсть личную информацию.)
  2. Дублированный контент. Будь то фрагменты текста (информация о товарных знаках, слоганы или описания) или целые страницы (например, пользовательские результаты поиска на вашем сайте), если у вас есть контент, который отображается по нескольким URL-адресам на вашем сайте, пауки поисковых систем могут посчитать это некачественным , Вы можете использовать один из доступных вариантов, чтобы заблокировать индексацию этих страниц (или отдельных ресурсов на странице). Вы можете оставить их видимыми для пользователей, но заблокировать их из результатов поиска, что не повлияет на ваш рейтинг контента, который вы хотите показывать в поиске.
  3. Контент из других источников. Контент, например реклама, который создается сторонними источниками и дублируется в нескольких местах в Интернете, не является частью основного содержимого страницы. Если этот рекламный контент многократно дублируется в Интернете, веб-мастер может захотеть не показывать рекламу как часть страницы.

Что заботится о том, почему, как насчет как?

Я так рад, что ты спросил. Один из методов, который использовался для сохранения содержимого вне индекса, - это загрузка содержимого из заблокированного внешнего источника с использованием языка, который боты не могут анализировать или выполнять; это как когда вы произносите слова другому взрослому, потому что вы не хотите, чтобы малыш в комнате знал, о чем вы говорите. Проблема в том, что малыш в этой ситуации становится умнее. В течение долгого времени, если вы хотите что-то скрыть от поисковых систем, вы можете использовать JavaScript для загрузки этого контента, то есть пользователи получают его, а боты - нет.

Но Google вовсе не стесняется их желания разбирать JavaScript со своими ботами , И они начинают это делать; Выбрать как инструмент Google в Инструментах для веб-мастеров позволяет просматривать отдельные страницы так, как их видят боты Google.

Но Google вовсе не стесняется их желания   разбирать JavaScript со своими ботами   ,  И они начинают это делать;    Выбрать как инструмент Google   в Инструментах для веб-мастеров позволяет просматривать отдельные страницы так, как их видят боты Google

Если вы используете JavaScript для блокировки контента на вашем сайте, вам следует проверить некоторые страницы в этом инструменте; Скорее всего, Google видит это.

Имейте в виду, однако, что тот факт, что Google может отображать контент в JavaScript, не означает, что контент кэшируется. Инструмент «Извлечение и визуализация» показывает, что видит бот; чтобы узнать, что индексируется, вы все равно должны проверить кэшированную версию страницы.

Есть много других методов экстернализации контента, которые обсуждают люди: iframes, AJAX, jQuery. Но еще в 2012 году эксперименты показали, что Google может сканировать ссылки в фреймах ; так что идет эта техника. Фактически, дни говорения на языке, который боты не могли понять, подходят к концу.

Но что, если вы вежливо попросите ботов не смотреть на определенные вещи? Блокировка или запрещение элементов в вашем robots.txt или Meta Robots tag является единственным определенным способом (если не считать защищающие паролем серверные каталоги ) сохранения элементов или страниц от индексации.

Джон Мюллер недавно прокомментировал что контент, сгенерированный с помощью фидов AJAX / JSON, будет «невидимым для [Google], если вы запретите сканирование своего JavaScript». Далее он поясняет, что простая блокировка CSS или JavaScript не обязательно повредит вашему рейтингу: «Определенно нет простого» CSS или JavaScript запрещены для сканирования, поэтому качественные алгоритмы считают сайт негативным «отношением». Поэтому лучший способ не допустить содержания в индекс - просто попросить поисковые системы не индексировать ваш контент. Это могут быть отдельные URL-адреса, каталоги или внешние файлы.

Это возвращает нас к началу: почему. Прежде чем принять решение о блокировании любого вашего контента, убедитесь, что вы знаете, почему вы это делаете, а также риски. Во-первых, блокировать ваши файлы CSS или JavaScript (особенно те, которые вносят существенный вклад в макет вашего сайта) рискованно; это может, помимо прочего, помешать поисковым системам видеть, являются ли ваши страницы оптимизирован для мобильных устройств , Не только это, но и после развертывания Panda 4.0, некоторые сайты, которые сильно пострадали, смогли отскочить разблокировка их CSS и JavaScript что указывало бы на то, что они были специально нацелены на алгоритм Google для блокировки этих элементов от ботов.

Еще один риск, который вы запускаете при блокировке контента: пауки поисковых систем могут не видеть, что блокируется, но они знают, что что- то блокируется, поэтому они могут быть вынуждены делать предположения о том, что это за контент. Они знают, что реклама, например, часто скрыта в iframes или даже CSS; так что если у вас слишком много заблокированного контента в верхней части страницы, вы рискуете получить удар по « Top Heavy »Алгоритм макета страницы , Любой веб-мастер, читающий это, который рассматривает возможность использования iframes, должен в первую очередь обратиться за консультацией к уважаемому SEO. (Вставить бесстыдный BCI промо здесь .)

Написал Джон Александр 18 августа 2014 года в 15:08

Зачем вообще блокировать контент?
Что заботится о том, почему, как насчет как?
Зачем вообще блокировать контент?
Что заботится о том, почему, как насчет как?
Но что, если вы вежливо попросите ботов не смотреть на определенные вещи?