Недорогой способ создать и настроить идеальный файл robots.txt [окончательное руководство]

  1. Что такое файл robots.txt?
  2. Основной синтаксис:
  3. Поиск вашего файла robots.txt
  4. Примеры файла Robots.txt
  5. Разрешить всем доступ ко всему:
  6. Запретить все-не доступ ничего:
  7. Блокировка конкретного бота из определенной папки:
  8. Блокировка конкретного бота с определенной веб-страницы:
  9. Как создать файл robots.txt
  10. Как работает файл robots.txt?
  11. Лучшие практики для файла robots.txt
  12. Как оптимизировать robots.txt для SEO?
  13. Дублированный контент
  14. Спасибо, страницы
  15. Зарегистрироваться / Призыв к действию
  16. Страницы комментариев
  17. Плюсы и минусы файла robots.txt
  18. Con: не может удалить страницы из индексации
  19. Против: значение ссылки теряется
  20. Robots.txt для WordPress
  21. Тестер Robots.txt, тестирующий все
  22. Последние мысли на robots.txt

Время чтения: 17 минут

Поисковые системы - крепкий орешек, особенно для начинающих. И когда дело доходит до выполнения самые важные вещи после создания сайта большинство начинающих пропускает создание / обновление файла robots.txt . Когда речь идет об использовании возможностей Интернета для увеличения трафика из поисковых систем, одним из самых мощных арсеналов является файл robots.txt.

Это техника ниндзя, которую вы можете использовать сразу и легко. Это техника, которая может помочь вам воспользоваться естественным потоком поискового робота. Крошечный файл .txt, который есть на каждом веб-сайте в Интернете, но не многие используют его в полной мере.

В этой статье я расскажу о некоторых недорогих способах создания идеального файла robot.txt и о лучших методах использования файла robots.txt для вашего веб-сайта / блога.

В рамках этого поста вы узнаете следующее:

  • Что такое файл robots.txt?

    • Поиск вашего файла robots.txt

  • Примеры Robots.txt

  • Как создать файл robots.txt?

  • Как работает robots.txt?

  • Оптимизировать robots.txt для SEO

  • Плюсы и минусы файла robots.txt

  • Robots.txt для WordPress

  • Тестер Robots.txt, тестирование все работает нормально.

Без дальнейших церемоний, давайте начнем 😉

Это очень длинный пост, расслабьтесь и отдыхайте, пока вы все узнаете о файле robots.txt ☕


Время чтения: 17 минут   Поисковые системы - крепкий орешек, особенно для начинающих

Robots.txt - это текстовый файл, который есть на каждом веб-сайте в Интернете с инструкциями для поисковых роботов поисковой системы о том, как сканировать страницы вашего веб-сайта / блога.

Кроме того, файл robots.txt является подмножеством протокола исключения роботов (REP). REP - это общепринятый интернет-стандарт, который определяет, как роботы поисковых систем сканируют ваши веб-страницы, получают доступ к содержимому, индексируют его и предоставляют этот контент пользователям.

Проще говоря, файл robots.txt указывает ваши предпочтения, какие части вашего веб-сайта должны и не должны сканироваться веб-сканерами.

В файле есть два поведения, которые инструктируют сканеры: «следовать» и «nofollow», которые «разрешают» и «не разрешают» соответственно. Разрешить или запретить веб-сканерам сканировать-индексировать-обслуживать определенные страницы вашего веб-сайта / блога - полностью ваше дело. Не существует стандартов, регулирующих предпочтения в этом.

Основной синтаксис:

User-agent: * [имя сканера / бота]
Запретить / Разрешить: [URL]

Эти строки кода могут включать / исключать любой URL на вашем сайте / блоге из любого поискового робота. Кроме того, вы можете включить любое количество пользовательских агентов и производных (например, разрешает, запрещает, задерживает сканирование и т. Д.).

Вот пример файла robots.txt:

txt:

Источник: Моз

В приведенном выше примере msnbot, discobot и slurp имеют свой собственный набор инструкций. Для остальных пользовательских агентов инструкция была дана под user-agent: * group.

Поиск вашего файла robots.txt

Создание файла robots.txt так же важно, как создание вашего сайта / блога является. С большой вероятностью у вас может не быть файла robots.txt для вашего сайта / блога. В отличие от файла карты сайта, этот файл не является файлом по умолчанию, так как настройки полностью зависят от вас. Следовательно, вы должны создать файл robots.txt с нуля.

Если вы не уверены, есть ли у вас файл robots.txt или нет, вы можете просто добавить «/robots.txt» в конце URL вашего веб-сайта / блога. Таким образом, вы даже можете получить максимальную оценку в других файлах и узнать, что они делают в рамках своей стратегии SEO.

Один из трех результатов появится

1] Вы найдете файл

2] Вы найдете пустую страницу, как Дисней

3] Вы попадете на страницу 404.

Если вы получите страницу 404, самое время создать собственный файл с нуля.

Чтобы создать файл robots.txt, используйте простой редактор (не используйте MS Word, так как он добавляет скрытый код к содержимому), например Блокнот или TextEdit.

Теперь давайте рассмотрим несколько примеров, чтобы создать идеальный файл для вашего сайта / блога.

Примеры файла Robots.txt

Рассмотрим веб-сайт www.domain.com и обратите внимание, что вот несколько примеров его файла включения / исключения:

Предполагая, что текстовый файл доступен, URL для доступа к нему будет: www.domain.com/robots.txt

Разрешить всем доступ ко всему:

Пользователь-агент: *

Разрешать: /

Этот код позволит всем веб-сканерам / ботам / пользователям-агентам сканировать-индексировать-обслуживать весь контент конечным пользователям на www.domain.com. Если вы только начинаете, не позволяйте веб-сканерам сканировать все на вашем сайте / блоге. Просто чтобы быть на более безопасной стороне, блокировка определенных чувствительных страниц помогла бы.

Если вы решили, что все боты будут сканировать все, убедитесь, что у вас есть качественный контент. Вы не можете позволить себе создать плохое впечатление на первый взгляд новых пользователей.

Запретить все-не доступ ничего:

Пользователь-агент: *

Disallow: /

Этот код в файле скажет ботам не сканировать ни один URL на веб-сайте, и это применимо ко всем сканерам. С этим кодом в файле боты не будут сканировать даже домашняя страница ,

Блокировка конкретного бота из определенной папки:

Пользователь-агент: Googlebot

Disallow: / пример-папка /

Этот код блокирует бот Google (с именем пользовательского агента Googlebot) от сканирования любого URL с помощью «/ example-folder».

Блокировка конкретного бота с определенной веб-страницы:

user-agent: Googlebot

Disallow: /example/folder/this-page-is-blocked.html

Этот код в файле robots.txt скажет роботу Google не сканировать определенную страницу по адресу www.domain.com/ example / folder / this-page-is-заблокирован.html

Примечание: точно так же, как блокировка ботов в вышеупомянутых примерах, вы можете даже позволить ботам делать то же самое. Просто замените «Disallow» на «Allow», и файл robots.txt будет готов.

Теперь, когда вы знаете, как создать файл robots.txt, вы можете разрешить / запретить поисковым системам доступ / отсутствие доступа к чему-либо / всему на вашем сайте / блоге. Проверить полный список имен пользовательских агентов лучших поисковых роботов перед созданием файла.

Если вы используете WordPress , тогда вы можете увидеть файл, если перейдете на www.yoursite.com/robots.txt, потому что WordPress создает временный файл если вы не можете редактировать или использовать, убедитесь, что вы удалили его из базы данных (вы найдете файл в корневой папке вашего сайта). В этом случае вам может понадобиться создать новый файл с нуля. Я буду обсуждать это в следующем разделе, читайте дальше.



Как создать файл robots.txt

С примерами, которые мы видели в предыдущем разделе, давайте создадим файл включения / исключения для вашего сайта / блога. Простейший файл robots.txt содержит минимум две строки и два имени переменных, user-agent и Allow / Disallow.

Имея это в виду, позвольте мне показать вам, как шаг за шагом настроить простой файл robots.txt:

1] Откройте текстовый редактор на вашем компьютере

2] Введите user-agent: * (это сделает файл применимым для всех поисковых роботов)

3] Введите Disallow и оставьте это поле пустым после этого

Поскольку для бота нет инструкции, что не нужно сканировать, все на вашем сайте находится в поле зрения веб-сканера. Вы можете сказать, что это еще один способ, позволяющий сканерам сканировать все на вашем сайте / блоге.

Если вы хотите упомянуть карту сайта вашего веб-сайта / блога, вы можете сделать это, просто добавив карту сайта: http: //www.yoursite.com/sitemap.xml, и все готово. Если у вас нет карты сайта, вы можете легко создать ее, используя WordPress плагины для создания карты сайта , Для пользователей, не использующих WordPress, вы тоже можете создавать XML-карты сайта в течение 20 секунд ,

Прежде чем оптимизировать файл, давайте сначала разберемся в том, как работать, чтобы быть в лучшем положении для внесения необходимых изменений.

Как работает файл robots.txt?

Поисковые системы очень заняты изо дня в день. Он имеет компонент, который непрерывно сканирует миллионы и миллионы ссылок в сети без какой-либо остановки. Если бы я суммировал весь процесс поисковой системы, он бы сканировал ссылки, а затем индексировал бы эту информацию для конечных пользователей.

Как только бот попадает на сайт, первым делом он ищет файл robots.txt. Если бот найдет его, он прочтет инструкции и обработает их соответствующим образом. Если этого не произойдет, он будет сканировать все на этой веб-странице без каких-либо исключений или специальных инструкций.

Лучшие практики для файла robots.txt

1] Поместите файл в каталог верхнего уровня вашей базы данных. То есть поместите его в основную папку / корневую папку в базе данных. В зависимости от используемого вами FTP, доступ к корневой папке может отличаться.

2] Файл чувствителен к регистру и должен называться «robots.txt» (все строчные буквы, заглавные буквы отсутствуют)

3] robots.txt является общедоступным, и любой может получить к нему доступ. Простое добавление /robots.txt в конце вашего URL открыло бы стратегию для всех. Поэтому сокрытие частной информации в этом файле было бы прискорбной ошибкой.

4] Если у вас есть субдомены на вашем сайте / блоге, убедитесь, что у вас есть отдельные файлы robots.txt. Например, blog.yoursite.com и yoursite.com должны иметь отдельные файлы в соответствующих папках.

5] Включите карту сайта в файл для лучших результатов. Он заставляет бота сканировать все страницы вашего сайта / блога.

Так что для вас очень важно иметь файл для инструктажа бота соответственно. Если у вас нет файла инструкций, бот применит настройки по умолчанию для индексации и обхода вашего веб-сайта / блога. Учитывая, что сотни блоггеров не имеют файла robots.txt, вы можете представить очередь для индексации вновь созданных веб-сайтов.

Чтобы быстро проиндексировать его, вам необходимо правильно его оптимизировать. При этом, давайте теперь посмотрим на

Как оптимизировать robots.txt для SEO?

В зависимости от того, как вы хотите оптимизировать файл robots.txt, содержимое, которое вы включаете в файл, будет различным. Сочетание различных пользовательских агентов, производных и включений / исключений бесконечно. Следовательно, все зависит от вас, как вы хотите оптимизировать или, если быть более точным, настроить файл robots.txt.

Из многих возможных способов оптимизации файла я приведу наиболее плодотворные способы его оптимизации.

Учитывая важность частоты сканирования, важно, чтобы вы знали, что файл robots.txt - это лучший способ начать поисковую оптимизацию для вашего сайта / блога, и это тоже абсолютно бесплатно.

Для начала, вы можете запретить ботам сканировать страницу входа на ваш сайт. Так как это просто страница входа в бэкэнд вашего сайта / блога, это просто пустая трата времени для ботов, чтобы сканировать эту страницу. Таким образом, вы можете сэкономить время для ботов и направить его на более важные страницы.

Если вы являетесь пользователем WordPress, вы можете использовать следующий код в файле robots.txt.

пользовательский агент: *

Disallow: / wp-admin /

Разрешать: /

Этот код заблокирует сканирование страницы администратора и разрешит сканирование всего остального. Вы можете напрямую скопировать вставить этот код и начать с шага 1 вашего SEO. Если вы хотите заблокировать любую другую конкретную страницу, которая, по вашему мнению, не должна быть видна вашим читателям. Вы можете просто добавить это имя страницы после «Disallow:» между двумя слешами. То есть, если вы хотите заблокировать бот для сканирования http://yoursite.com/sample-page/, просто добавьте

Disallow: / образец страницы /

в файл robots.txt. Это так просто.

Теперь, если вам интересно, какие страницы вы должны запретить и разрешить, вот список возможных страниц.

Дублированный контент

В то время как дублированный контент вообще не приемлем, в то же время дублирующийся контент неизбежен. Например, версия веб-страницы, предназначенная для печати, является дублирующим контентом для поисковой системы, но версия для печати важна для удобства пользователя.

Следовательно, блокировка версии для печати становится удобной, чтобы избежать наказания поисковой системой за дублированный контент.

Спасибо, страницы

Ведущее поколение - хлебное масло цифрового маркетинга. Если вы не захватываете лиды, вы не растете в правильном темпе. Кроме того, генерация лидов не завершена без страниц с благодарностями. На странице благодарности вы приветствуете пользователя за то, что вы хотели, чтобы он сделал. Доступ к этим страницам через поисковую систему исключит процесс создания потенциальных клиентов.

Поэтому запретить роботам сканировать такие страницы очень плодотворно. Если вы запретите поисковым роботам сканировать страницы с благодарностями, вы можете убедиться, что только квалифицированные лиды видят эту страницу, а не все.

Запрещение сканирования страницы благодарности аналогично вышеупомянутому методу. Просто поместите URL страницы с благодарностями после Disallow: переменная в файле robots.txt.

Зарегистрироваться / Призыв к действию

Если вы увлекаетесь почтовым маркетингом как частью своей стратегии взлома роста, вы бы знали о важности регистрации страниц. Страницы регистрации - это страницы, на которых конечный пользователь вводит свои данные (обычно идентификатор и имя электронной почты), чтобы получить что-то взамен. Либо новостная рассылка, либо эксклюзивный контент, который вы, возможно, не включили в пост напрямую.

Такие страницы также могут быть запрещены для роботов, которые будут сканировать их, и гарантировать, что только страницы с высокой целевой аудиторией видят эти страницы, а не все.



Страницы комментариев

Раздел комментариев является богатым источником для вас, чтобы выискивать отзывы и идеи для вашей следующей темы. Но не будет ли странным, если страница с комментариями вашего сайта / блога будет указывать на SERP. Конечно, вы хотите, чтобы видимость из поисковой системы, но не так.

Блокировка комментариев к каналу поможет. Просто добавьте Disallow: / comments / feed / в файл robots.txt в этом случае.

Плюсы и минусы файла robots.txt

Pro: лучший бюджет обхода

Первое, что ищет робот для сканирования, это файл robots.txt (который вы уже знаете), и в зависимости от инструкций он начинает сканирование. Кроме того, если у вас нет файла, он будет сканировать все под вашим доменным именем. Это будет израсходовать то, что SEO-специалисты называют «обходной бюджет» без необходимости.

Бюджет сканирования - это то, что есть у ботов в зависимости от файла robots.txt. Если вы укажете разделы, для которых нужно сканировать ботов, это не израсходует бюджет сканирования, обходя ненужные страницы. Файл robots.txt экономит время и бюджет сканирования как для вас, так и для бота.

Con: не может удалить страницы из индексации

Переменная Disallow не одна способна блокировать роботы поисковой системы от обслуживания этих страниц конечным пользователям. Есть еще две переменные, которые вы должны использовать, чтобы убедиться, что эти страницы не проиндексированы в поисковой выдаче.

Это переменная noindex.

Как и переменная Disallow, добавление URL-адреса страницы, которую вы не хотите, чтобы поисковая система добавляла в индекс после того, как тег noindex сделает все необходимое.

Это гарантирует, что определенные страницы не отображаются в поисковой выдаче.

Теперь вторая переменная nofollow. Этот тег говорит ботам, чтобы они не сканировали ссылки на упомянутой странице. Кроме того, ссылки, которые запрещены, но не проиндексированы, все равно будут отображаться на SERPs и будет выглядеть так.

Кроме того, ссылки, которые запрещены, но не проиндексированы, все равно будут отображаться на   SERPs   и будет выглядеть так

Источник: Yoast SEO

Против: значение ссылки теряется

Если бот для сканирования не может пролистать страницу, значение ссылки на этой странице, включая ссылки внутри этой страницы, теряется. Однако, если бот может сканировать и не индексировать эту страницу, значение ссылки не теряется.

Robots.txt для WordPress

WordPress, являясь основной платформой, robots.txt занимает особое место на платформе с открытым исходным кодом. Во-первых, любой может легко создать файл robots.txt на WordPress. Во-вторых, его еще проще настроить. Есть небольшое количество плагинов это может помочь вам создать файл.

Но есть лучший плагин для всего SEO - Yoast SEO плагин

Вы можете легко создать и настроить файл robots.txt с плагином Yoast SEO для WordPress. После того, как вы создадите файл, следуйте этому руководству, чтобы настроить файл без SEO.

Тестер Robots.txt, тестирующий все

Чтобы проверить конфигурацию вашего файла robots.txt, перейдите в консоль поиска Google (вы можете зарегистрироваться, если у вас еще нет учетной записи)

Поисковая консоль Google - это инструмент для веб-мастеров, который отслеживает посещаемость вашего сайта и соответствующие данные.

Шаг 1: войти в систему в поисковую консоль Google

Шаг 2: Выберите вашу собственность и нажмите на меню «Сканирование» на левой панели.

Шаг 3: Нажмите на «robots.txt Tester»

На экране редактора тестера robots.txt должен быть какой-то код по умолчанию. Удалите его и замените новым содержимым файла, которое вы только что создали. Нажмите на кнопку «Тест» в нижней части экрана.

Убедитесь, что кнопка «Тест» меняется на «Разрешено», что означает, что файл действителен. Вот некоторые Дополнительная информация что вы найдете полезным при тестировании файла в тестере robots.txt. После этого загрузите текстовый файл в корневой каталог и убедитесь, что он называется только «robots.txt».

Теперь вы поддерживаете простой, недорогой и мощный инструмент, способный повысить вашу видимость в Интернете.

Последние мысли на robots.txt

В то время как вы помогаете себе привлечь посетителей, вы также даете Google возможность предоставлять более качественный контент и пользователям информацию, которую они ищут. Это беспроигрышная ситуация для всех трех сторон, и файл robots.txt гарантирует, что все сделано правильно.

Если вы поможете ботам эффективно расходовать бюджет на сканирование, он вернет пользу, проиндексировав самые важные страницы вашего сайта / блога в поисковой выдаче. Кроме того, не нужно много усилий, чтобы заставить эту крошечную вещь работать. Потребуется некоторое время, чтобы проанализировать включение и исключение. Однако по мере роста контента и трафика вам придется периодически обновлять файл. Вот полезное видео, которое даст вам представление о том, как часто вы должны обновлять файл.

Другие полезные официальные руководства от Google на robots.txt:

К вам. Что вы думаете об этом крошечном файле? Вы уже создали файл для своего сайта / блога? Если да, на каких страницах вы заблокировали ботов для сканирования? Дайте мне знать в разделе комментариев ниже.

Вы знаете кого-то, кто ищет эту информацию? Поделитесь этим с ними и поделитесь им в своей социальной сети.

Присоединиться мой список рассылки чтобы получить эксклюзивный контент прямо в вашем почтовом ящике. Кроме того, присоединиться к телеграмма получать важные и полезные обновления прямо на вашем смартфоне.



Txt?
Txt?
Txt для SEO?
Txt?
Txt?
Txt?
Txt?
Txt для SEO?
Что вы думаете об этом крошечном файле?
Вы уже создали файл для своего сайта / блога?