Напевно, тільки лінивий не писав про те, як повинен виглядати правильний Robots.txt для Вордпресс. Я спробую пояснити, чому багато старі способи більше не працюють.
Перш нагадаю, на дворі 2017-й рік - прогрес не стоїть на місці, технології розвиваються. Хто давно в темі - знають, що пошукові системи за останнє десятиліття сильно еволюціонували. Пошукові алгоритми стали більш складними. Складними стали і фактори ранжирування, їх кількість істотно збільшилася. Природно, все це не могло не відбитися на методах пошукової оптимізації сайтів і галузі в цілому.
Robots.txt - це текстовий файл, що знаходиться в кореневій директорії сайту, в якому записуються спеціальні інструкції для пошукових роботів, розроблений Мартіном Костером і прийнятий як стандарт 30 червня 1994 року.
Robots.txt - потужна зброя SEO-оптимізації, грамотна настройка якого може істотно допомогти в індексації.
У той же час, крива настройка robots.txt може завдати проекту величезної шкоди. Міркувати про правильність того чи іншого прикладу robots.txt можна нескінченно довго. Пропоную зупинитися на фактах.
Ще недавно Google був настільки примітивний, що бачив сайти лише у вигляді HTML-коду. У минулому році, з приходом алгоритму Panda 4, Google став бачити сайти такими ж, якими їх бачать користувачі. Разом з CSS і виконаним JavaScript.
Це зміна торкнулася і Вордпресс.
На багатьох сайтах використовуються старі прийоми, які блокують індексацію системної директорії / wp-includes /, в якій часто зберігаються JS-бібліотеки і стилі, необхідні для роботи сайту. А це означає, Google побачить сайт вже не таким, яким його бачать відвідувачі.
Виходить, що стара практика більше не працює.
На багатьох Вордпресс-сайтах закривалася від індексації та інша системна директорія / wp-admin /. Що правильно, по-суті. Але якщо на сайті використовується асинхронна завантаження сторінок (AJAX), це може блокувати завантаження внутрішніх сторінок. Тому що admin-ajax.php, який за все це відповідає, розташований в / wp-admin /.
Директорію / wp-admin / можна залишити закрите для індексації, але тоді необхідно окремо дозволити індексацію admin-ajax.php.
Allow: /wp-admin/admin-ajax.php
Якщо у вашому Вордпресс використовується один зі старих способів оформлення robots.txt, потрібно обов'язково перевірити які конкретно директорії ховаються від індексації і видалити всі заборони, що блокують завантаження сторінок.
Для перевірки рекомендую використовувати Google Search Console, в якому необхідно попередньо зареєструватися, додати перевіряється сайт і підтвердити права на нього. Це робиться дуже просто.
Як перевірити Robots.txt
Перевірити robots.txt на помилки можна за допомогою інструменту перевірки файлу robots.txt - саме так і називається цей інструмент в розділі «Сканування» Google для веб-майстрів.
До речі, перевірити robots.txt на помилки можна і в Яндекс вебмайстрів . але в Google Search Console все одно потрібно зареєструватися, тому що тільки там можна перевірити видимість сайту пошуковими павуками Гугла. Саме це робиться в розділі «Сканування» за допомогою інструменту « Переглянути як Googlebot ».
Якщо сайт виглядає таким же як і в браузері, значить все в порядку, robots.txt нічого не блокує. Якщо ж є якісь відмінності, щось не відображається або сайт не видний взагалі, значить доведеться з'ясувати, де відбувається блокування і ліквідувати її.
Як же повинен виглядати правильний Robots.txt для Вордпресс
Я все більше переконуюся, що краще робити відразу мінімальний robots.txt і закривати тільки / wp-admin /. Природно, відкривши admin-ajax.php, якщо є AJAX-запити. І обов'язково вказуємо Host і Sitemap.
Мій robots.txt найчастіше виглядає так:
User-agent: * Disallow: / wp-admin / Allow: /wp-admin/admin-ajax.php Host: https://danilin.biz Sitemap: https://danilin.biz/sitemap.xml
На закінчення
Створити універсальний правильний robots.txt для всіх сайтів на Вордпресс неможливо.
На кожному сайті працює конкретна тема, набір плагінів і типів даних (CPT), які генерують свій унікальний пул URL.
Robots.txt часто коригується вже в процесі експлуатації сайту. Для цього здійснюється постійний моніторинг індексу сайту. І якщо в нього потрапляють якісь непотрібні сторінки, вони виключаються. Наприклад, в індекс іноді потрапляють сторінки з параметрами? P і? S.
Їх можна виключити.
Disallow: /? P = Disallow: /? S =
Іноді навіть потрапляють фіди, які теж можна закрити.
Disallow: * / feed
Взагалі, завдання по виключенню сторінок з індексу правильніше вирішувати на рівні коду, закриваючи сторінки від сканування за допомогою метатега «noindex».
Для Яндекса інструкції в robots.txt і мета-тег «noindex» працюють однаково - сторінка видаляється з індексу. А ось для Гугла robots.txt - це заборона на індексування, а метатег «noindex» - заборона на сканування. І якщо, припустимо, сторінка заблокована в robots.txt, пошуковий робот може просто не виявити метатег «noindex» на цій сторінці, і вона залишиться в індексі. Про це прямо написано в Довідці Search Console .
Як бачимо, Robots.txt може бути дуже небезпечний для сайту.
Бездумні дії з цим файлом можуть привести до сумних наслідків. Не поспішайте з допомогою нього закривати все підряд директорії. користуйтеся плагіном Yoast SEO - він дозволяє налаштувати правильні заборони за допомогою метатегов.
Все найновіше і цікаве зі світу Вордпресс в моєму Телеграм-каналі . Підписуємося!
Disallow: /?