Напэўна, толькі лянівы не пісаў пра тое, як павінен выглядаць правільны Robots.txt для Вордпресс. Я паспрабую растлумачыць, чаму многія старыя спосабы больш не працуюць.
Перш нагадаю, на двары 2017-ы год - прагрэс не стаіць на месцы, тэхналогіі развіваюцца. Хто даўно ў тэме - ведаюць, што пошукавыя сістэмы за апошняе дзесяцігоддзе моцна эвалюцыянавалі. Пошукавыя алгарытмы сталі больш складанымі. Складанымі сталі і фактары ранжыравання, іх колькасць істотна павялічылася. Натуральна, усё гэта не магло не адбіцца на метадах пошукавай аптымізацыі сайтаў і галіны ў цэлым.
Robots.txt - гэта тэкставы файл, які знаходзіцца ў каранёвай дырэкторыі сайта, у якім запісваюцца спецыяльныя інструкцыі для пошукавых робатаў, распрацаваны Марцінам вогнішча і прыняты ў якасці стандарту 30 чэрвеня 1994 года.
Robots.txt - магутная зброя SEO-аптымізацыі, пісьменная налада якога можа істотна дапамагчы ў індэксацыі.
У той жа час, крывая налада robots.txt можа нанесці праекту велізарную шкоду. Разважаць аб правільнасці таго ці іншага прыкладу robots.txt можна бясконца доўга. Прапаную спыніцца на фактах.
Яшчэ нядаўна Google быў настолькі прымітыўны, што бачыў сайты толькі ў выглядзе HTML-кода. У мінулым годзе, з прыходам алгарытму Panda 4, Google стаў бачыць сайты такімі ж, якімі іх бачаць карыстальнікі. Разам з CSS і выкананым JavaScript.
Гэта змяненне закранула і Вордпресс.
На многіх сайтах выкарыстоўваюцца старыя прыёмы, якія блакуюць індэксацыю сістэмнай дырэкторыі / wp-includes /, у якой часта захоўваюцца JS-бібліятэкі і стылі, неабходныя для працы сайта. А гэта значыць, Google ўбачыць сайт ужо не такім, якім яго бачаць наведвальнікі.
Атрымліваецца, што старая практыка больш не працуе.
На многіх Вордпресс-сайтах закрывалася ад індэксацыі і іншая сістэмная дырэкторыя / wp-admin /. Што правільна, па-сутнасці. Але калі на сайце выкарыстоўваецца асінхронная загрузка старонак (AJAX), гэта можа блакаваць загрузку ўнутраных старонак. Таму што admin-ajax.php, які за ўсё гэта адказвае, размешчаны ў / wp-admin /.
Дырэкторыю / wp-admin / можна пакінуць закрытай ад індэксацыі, але тады неабходна асобна дазволіць індэксацыю admin-ajax.php.
Allow: /wp-admin/admin-ajax.php
Калі ў вашым Вордпресс выкарыстоўваецца адзін са старых спосабаў афармлення robots.txt, трэба абавязкова праверыць якія канкрэтна дырэкторыі хаваюцца ад індэксацыі і выдаліць усе забароны, блакавальныя прагляд.
Для праверкі рэкамендую выкарыстоўваць Google Search Console, у якім неабходна папярэдне зарэгістравацца, дадаць правяраемы сайт і пацвердзіць права на яго. Гэта робіцца вельмі проста.
Як праверыць Robots.txt
Праверыць robots.txt на памылкі можна з дапамогай інструмента праверкі файла robots.txt - менавіта так і называецца гэты інструмент у раздзеле «Сканіраванне» Google для вэб-майстроў.
Дарэчы, праверыць robots.txt на памылкі можна і ў Яндэкс вэбмайстар . але ў Google Search Console ўсё роўна трэба зарэгістравацца, таму што толькі там можна праверыць бачнасць сайта пошукавымі павукамі Гугла. Канкрэтна гэта робіцца ў раздзеле «Сканіраванне» з дапамогай інструмента " Паказаць як Googlebot ».
Калі сайт выглядае такім жа як і ў браўзэры, значыць усё ў парадку, robots.txt нічога не блакуе. Калі ж маюцца нейкія адрозненні, нешта не адлюстроўваецца ці сайт не бачны наогул, значыць прыйдзецца высветліць, дзе адбываецца блакаванне і ліквідаваць яе.
Як жа павінен выглядаць правільны Robots.txt для Вордпресс
Я ўсё больш пераконваюся, што лепш рабіць адразу мінімальны robots.txt і зачыняць толькі / wp-admin /. Натуральна, адкрыўшы admin-ajax.php, калі ёсць AJAX-запыты. І абавязкова паказваем Host і Sitemap.
Мой robots.txt часцей за ўсё выглядае так:
User-agent: * Disallow: / wp-admin / Allow: /wp-admin/admin-ajax.php Host: https://danilin.biz Sitemap: https://danilin.biz/sitemap.xml
У заключэнне
Стварыць універсальны правільны robots.txt для ўсіх сайтаў на Вордпресс немагчыма.
На кожным сайце працуе канкрэтная тэма, набор убудоў і тыпаў дадзеных (CPT), якія генеруюць свой унікальны пул URL.
Robots.txt часта карэктуецца ўжо ў працэсе эксплуатацыі сайта. Для гэтага ажыццяўляецца пастаянны маніторынг індэкса сайта. І калі ў яго трапляюць нейкія непатрэбныя старонкі, яны выключаюцца. Напрыклад, у індэкс часам трапляюць старонкі з параметрамі? P і? S.
Іх можна выключыць.
Disallow: /? P = Disallow: /? S =
Часам нават трапляюць фиды, якія таксама можна зачыніць.
Disallow: * / feed
Наогул, задачы па выключэнні старонак з індэкса правільней вырашаць на ўзроўні кода, зачыняючы старонкі ад сканавання з дапамогай метатега «noindex».
Для Яндэкса інструкцыі ў robots.txt і метатега «noindex» працуюць аднолькава - старонка выдаляецца з азначніка. А вось для Гугла robots.txt - гэта забарона на індэксаванне, а метатега «noindex» - забарона на сканіраванне. І калі, дапусцім, старонка заблакаваная ў robots.txt, пошукавы робат можа проста не выявіць метатега «noindex» на гэтай старонцы, і яна застанецца ў індэксе. Пра гэта наўпрост напісана ў Даведцы Search Console .
Як бачым, Robots.txt можа быць вельмі небяспечны для сайта.
Бяздумныя дзеянні з гэтым файлам могуць прывесці да сумных наступстваў. Не спяшаецеся з дапамогай яго зачыняць усё запар дырэкторыі. карыстайцеся убудовай Yoast SEO - ён дазваляе наладзіць правільныя забароны з дапамогай метатега.
Усё самае новае і цікавае з свету Вордпресс ў маім Телеграм-канале . Падпісваемся!
Disallow: /?