Jak utworzyć plik robots.txt? Skonfiguruj robots.txt!

  1. Jak utworzyć plik robots.txt
  2. Konfiguracja Robots.txt
  3. Zwycięzcy krzyżówki na blogiseo.ru №8

Cześć wszystkim!

Dzisiaj pokażę Ci, jak utworzyć plik robots.txt dla wordpress. Robots.txt to bardzo ważny plik dla witryn. Ten plik pozwala poinformować wyszukiwarki, jak prawidłowo indeksować zasoby.

Jest pierwszym plikiem na swoim blogu, gdy tylko pojawił się w sieci! Brak tego pliku lub jego nieprawidłowa kompilacja jest częstym błędem wśród nowych blogerów. Dlatego, jeśli nie ma go na twoim blogu lub ustawienie robots.txt powoduje wątpliwości, przeczytaj uważnie ten artykuł!

Jak utworzyć plik robots.txt

Plik robots.txt, a także mapa witryny (sitemap.xml) , zaprojektowany do zarządzania indeksowaniem Twojego bloga! Po ustawieniu pewnych reguł dla wyszukiwarek w pliku robots.txt, które przeanalizujemy poniżej, i umieszczeniu go w katalogu głównym, można poprawnie zarządzać indeksacją zasobów, co jest dla niego bardzo ważne udana promocja !

Najważniejsze jest tutaj jasne zrozumienie, że nie wszystkie pliki w katalogu głównym powinny być indeksowane przez wyszukiwarki. Teraz powiem ci o tym bardziej szczegółowo. Jeśli ktoś nie zna katalogu głównego, jest to główny folder witryny z całą jego zawartością. W zależności od hostingu będzie to „httpdocs” lub „public_html”.

Każdy blog wordpress ma określone foldery i pliki spowodowane przez sam silnik, na przykład (wp-admin, wp-includes). Tak więc te foldery i pliki nie mają żadnej wartości ani dla czytelników, ani dla wyszukiwarek. Są one potrzebne tylko do działania samego silnika. A jeśli pozostawisz je bez nadzoru i nie zabraniasz indeksowania, roboty wyszukiwania, przechodząc do twojego zasobu, zaindeksują wszystko, co stanie im na drodze.

I mają pewien limit! I są takie przypadki, gdy nie mają czasu na indeksowanie potrzebnych plików, a indeksowanie nie jest konieczne! Ponadto, jeśli nie ustawisz pewnych zasad, z czasem twój blog zostanie zarośnięty duplikatami treści, których wyszukiwarki po prostu nienawidzą i surowo karają, nakładając różne filtry na blogu. Dotyczy to zwłaszcza wyszukiwarki Yandex.

Podwójne strony wordpress w większości przypadków to nagłówki, archiwa, tagi archiwów. Jeśli nie zostaną zamknięte przed indeksowaniem, to w miarę pojawiania się nowych stron duplikaty będą się szybko rozprzestrzeniać na Twoim blogu. Aby tego uniknąć, istnieje bardzo ważna wtyczka do optymalizacji wyszukiwarek dla wordpress. All In One SEO Pack . Odpowiednio skonfigurowany jest w stanie zapobiec wszelkim problemom!

Ponadto, jeśli dodasz do katalogu głównego dowolne foldery z plikami zawierającymi wiele zewnętrznych linków lub skryptów, nie zapomnij ich zamknąć z indeksowania w pliku robots.txt. Następnie przeanalizujemy, jak to się robi.

Konfiguracja Robots.txt

Robots.txt to zwykły plik utworzony na przykład w edytorze tekstu notatnik ++ i zawiera kilka ważnych dyrektyw. Pierwsza i najbardziej podstawowa dyrektywa User-agent zawiera nazwę robota wyszukiwania. Aby zaadresować agenta użytkownika do wszystkich robotów wyszukujących, które przychodzą do twojego zasobu, należy go napisać w następujący sposób:

Agent użytkownika: *

Następująca dyrektywa, bez której jest więcej niż jeden plik robots.txt, jest wskazana w następujący sposób: Disallow. Dyrektywa Disallow ma na celu zakazanie pewnych folderów i plików, a każda poprawna robots.txt musi zawierać dyrektywę Disallow po agencie użytkownika. Oto prosty przykład umożliwiający wszystkim wyszukiwarkom indeksowanie całej zawartości Twojego zasobu:

Agent użytkownika: *
Disallow:

Jeśli dodasz prawy ukośnik „/” do Disallow:

Agent użytkownika: *
Disallow: /

Przeciwnie, zabraniasz wszystkim wyszukiwarkom indeksowania Twojej witryny. Teraz, jak na niepotrzebne pliki i foldery samego silnika wordpress. Aby zabronić indeksowania przez wyszukiwarki, na przykład całą zawartość folderu wp-admin, należy określić następujące elementy:

Agent użytkownika: *
Disallow: / wp-admin /

Następnie pokażę Ci pełny i poprawny robots.txt dla wordpress, zalecany przez programistów, ale na razie rozważmy inną ważną dyrektywę Host. Dyrektywa Host jest przeznaczona wyłącznie dla Yandex. Jaką radością są te przywileje? Tak się złożyło, że wyszukiwarka Yandex według statystyk ma największą wagę w rosyjskojęzycznym Internecie, co jest oczywiste, aby dostosować się do jego zachcianek!

Mimo to jest nadal zalecane i wybierz osobny blok dla Yandex:

User-agent: Yandex

Aby uniknąć niepoprawnego indeksowania zasobów, dyrektywa Host jest napisana tylko dla Yandex i wskazuje główne lustro Twojego zasobu, tj. jaki adres będzie dostępny na Twojej stronie internetowej: www.sait.ru lub sait.ru. Inne wyszukiwarki nie rozumieją dyrektywy Host! W przypadku Yandex blok w pliku robots.txt powinien wyglądać następująco:

User-agent: Yandex
Disallow:
Host: www.sait.ru

lub

User-agent: Yandex
Disallow:
Host: sait.ru

W tym przypadku, aby uniknąć niepotrzebnych kłopotów, będzie bardziej poprawne skonfigurować przekierowania 301 , ale o tym jakoś powiem w oddzielnym poście. , żeby niczego nie przegapić, ale na razie rozważmy najnowszą dyrektywę, która powinna zawierać poprawny robots.txt dla wordpress. Ma znaną nazwę, mapa witryny. Mówiłem o tym bardziej szczegółowo w artykule „Jak zrobić mapę witryny”, link jest nieco wyższy.

Dyrektywa Sitemap kieruje roboty wyszukiwania do lokalizacji mapy witryny i jest napisana oddzielnie od poprzednich dyrektyw i tylko raz. Jest to rozumiane przez wszystkie wyszukiwarki. Oto jak to wygląda:

Mapa strony: http://blogiseo.ru/sitemap.xml Mapa witryny: http://blogiseo.ru/sitemap.xml.gz

Zapoznaliśmy się z podstawowymi wytycznymi, które są używane we właściwym pliku robots.txt i są zalecane przez programistów. Nie będę już ładował cię z zawiłymi słowami, ale pokażę ci konkretny przykład poprawnego pliku robots.txt. Mam to w następujący sposób:
Pierwszą rzeczą, którą musisz podać do indeksowania w wyszukiwarkach, jest zawartość! W tej sytuacji Twój blog wordpress będzie się świetnie czuł, a co najważniejsze, poprawnie i szybko indeksowane . Żaden z Twoich artykułów nie zostanie zignorowany, a wyszukiwarki nie będą tracić czasu na zbędne śmieci! Jeśli wątpisz w poprawność jego przygotowania, możesz zbadać tę kwestię bardziej szczegółowo.

Możesz także porównać kilka plików robots.txt na różnych blogach z platformami Wordpress, wszystkie będą takie same! Aby zobaczyć, jak wygląda na innym zasobie, wystarczy zarejestrować się w linii przeglądarki, po nazwa domeny /robots.txt. I ostatnia rzecz, której jeszcze nie powiedziałem, nazwa pliku powinna być zawsze taka sama i wyglądać tak:

robots.txt

Nie powinno być żadnych wielkich liter i nie zapomnij przepisać „s” na końcu! Pamiętaj o tym! To chyba wszystko, co chciałem ci dzisiaj powiedzieć. Teraz wiesz także, jak utworzyć i skonfigurować plik robots.txt. Pozostaje przyznać zwycięzcom krzyżówkę.

Zwycięzcy krzyżówki na blogiseo.ru №8

Tym razem krzyżówka była nieco niezwykła, ale mimo to wszyscy to zrobili i docenili. W przyszłości od czasu do czasu postaram się zmienić zasady krzyżówki, aby uczynić ją bardziej interesującą! A teraz spotykamy naszych zwycięzców:
Brawo faceci. Gratulujemy zasłużonego zwycięstwa i czekania, aż portfele przeniosą nagrody! Na tym kończę mój post. Życzę wszystkim wspaniałego nastroju, dopóki się nie spotkamy!

Jak podoba ci się ten artykuł? Czy masz na swoim blogu plik robots.txt? Czekam na twoje komentarze!

Pozdrawiam Nikolay Korotkov

Jaką radością są te przywileje?
Jak podoba ci się ten artykuł?
Txt?