- Jak sprawdzić robots.txt
- Jak powinien wyglądać prawidłowy plik Robots.txt dla WordPress
- Podsumowując
Prawdopodobnie tylko leniwi nie pisali o tym, jak powinien wyglądać prawidłowy plik Robots.txt dla WordPressa. Spróbuję wyjaśnić, dlaczego wiele starych sposobów już nie działa.
Przede wszystkim przypomnę, że rok 2017 jest rokiem - postęp nie stoi w miejscu, technologie się rozwijają. Kto od dawna zajmuje się tym tematem - wiedzą, że wyszukiwarki w ciągu ostatniej dekady znacznie się rozwinęły. Algorytmy wyszukiwania stały się bardziej złożone. Czynniki rankingu stały się również złożone, ich liczba znacznie wzrosła. Oczywiście wszystko to nie mogło się skupić na metodach optymalizacji pod kątem wyszukiwarek i całej branży.
Robots.txt to plik tekstowy znajdujący się w katalogu głównym witryny, w którym napisane są specjalne instrukcje dla robotów wyszukujących, opracowane przez Martina Kostera i przyjęte jako standard 30 czerwca 1994 r.
Robots.txt to potężne narzędzie do optymalizacji SEO, którego właściwe ustawienie może znacznie pomóc w indeksowaniu.
Jednocześnie krzywa dostrajania robots.txt może spowodować ogromne szkody w projekcie. Argument o poprawności przykładu robots.txt może być nieskończenie długi. Proponuję rozwodzić się nad faktami.
Ostatnio Google był tak prymitywny, że widział witryny tylko w postaci kodu HTML. W ubiegłym roku, wraz z pojawieniem się algorytmu Panda 4 , Google zaczął widzieć strony tak samo, jak widzą je użytkownicy. Wraz z CSS i pełnym JavaScriptem.
Ta zmiana dotyczyła WordPressa.
Wiele witryn używa starych technik blokujących indeksowanie katalogu systemowego / wp-includes / , który często przechowuje biblioteki JS i style niezbędne do działania witryny. Oznacza to, że Google zobaczy witrynę nie tak, jak ją widzą.
Okazuje się, że stara praktyka już nie działa.
W wielu witrynach WordPress inny katalog systemowy / wp-admin / został również zamknięty przed indeksowaniem. Co właściwie jest prawdą. Jeśli jednak strona korzysta z asynchronicznego ładowania stron (AJAX), może zablokować ładowanie stron wewnętrznych. Ponieważ admin-ajax.php , który jest za to odpowiedzialny, znajduje się w / wp-admin / .
Katalog / wp-admin / można pozostawić zamknięty podczas indeksowania, ale musisz osobno włączyć indeksowanie admin-ajax.php .
Zezwól: /wp-admin/admin-ajax.php
Jeśli twój Wordpress używa jednego ze starych sposobów dekorowania robots.txt, musisz sprawdzić, które katalogi są ukryte przed indeksowaniem i usunąć wszystkie ograniczenia blokujące ładowanie strony.
W celu weryfikacji zalecam skorzystanie z Google Search Console, w której musisz najpierw się zarejestrować, dodać sprawdzoną witrynę i potwierdzić prawa do niej. Robi się to bardzo prosto.
Jak sprawdzić robots.txt
Możesz sprawdzić, czy robots.txt nie zawiera błędów narzędzie do weryfikacji plików robots.txt - Dokładnie tak nazywa się to narzędzie w robocie Google dla webmasterów.
Nawiasem mówiąc, możesz sprawdzić robots.txt pod kątem błędów w Webmaster Yandex . Ale w Google Search Console musisz się jeszcze zarejestrować, ponieważ tylko tam możesz sprawdzić widoczność witryny przez roboty Google Search. W szczególności odbywa się to w sekcji „Skanowanie” za pomocą „ Wyświetl jako Googlebot „
Jeśli strona wygląda tak samo jak w przeglądarce, wszystko jest w porządku, robots.txt niczego nie blokuje. Jeśli są jakieś różnice, coś nie jest wyświetlane lub strona nie jest w ogóle widoczna, to musisz dowiedzieć się, dokąd zmierza blokada i wyeliminować ją.
Jak powinien wyglądać prawidłowy plik Robots.txt dla WordPress
Jestem coraz bardziej przekonany, że lepiej jest zrobić minimum robots.txt od razu i zamknąć tylko / wp-admin /. Naturalnie otwórz admin-ajax.php, jeśli są żądania AJAX. Pamiętaj, aby określić hosta i mapę witryny.
Mój robots.txt najczęściej wygląda tak:
User-agent: * Disallow: / wp-admin / Allow: /wp-admin/admin-ajax.php Host: https://danilin.biz Mapa strony: https://danilin.biz/sitemap.xml
Podsumowując
Nie jest możliwe stworzenie uniwersalnego poprawnego pliku robots.txt dla wszystkich witryn WordPress.
Każda witryna ma określony motyw, zestaw wtyczek i typów danych (CPT), które generują własną, unikalną pulę adresów URL.
Robots.txt jest często poprawiany już podczas działania witryny. W tym celu indeks witryny jest stale monitorowany. A jeśli wpadną w nią niepotrzebne strony, zostaną wykluczone. Na przykład czasami strony o parametrach ? P i ? S wchodzą do indeksu.
Można je wykluczyć.
Disallow: /? P = Disallow: /? S =
Czasami można dołączać nawet kanały, które można również zamknąć.
Disallow: * / feed
Ogólnie rzecz biorąc, zadanie eliminowania stron z indeksu jest lepiej rozwiązywane na poziomie kodu, zamykając strony przed skanowaniem za pomocą metatagu noindex.
W przypadku Yandex instrukcje w pliku robots.txt i metatagu „noindex” działają w ten sam sposób - strona jest usuwana z indeksu. Ale dla Google robots.txt to zakaz indeksowania, a metatag „ noindex ” to zakaz skanowania. A jeśli, powiedzmy, strona jest zablokowana w robots.txt , robot wyszukiwania może po prostu nie wykryć metatagu „ noindex ” na tej stronie i pozostanie w indeksie. Jest to napisane bezpośrednio Pomoc w wyszukiwarce .
Jak widać, Robots.txt może być bardzo niebezpieczny dla witryny.
Ciche działania z tym plikiem mogą prowadzić do smutnych konsekwencji. Nie spiesz się, aby zamknąć wszystkie katalogi. Użyj wtyczki Yoast seo - Umożliwia dostosowanie prawidłowego zakazu za pomocą metatagów.
Wszystkie najnowsze i najciekawsze na świecie WordPress w moim Kanał telegramu . Subskrybuj!
Disallow: /?