Logi serwera SEO Insights: Co to jest „średni” Googlebot i Bing Crawl?

Statystyki indeksowania w wyszukiwarce Google Liczby nie odpowiadają liczbie indeksowanych adresów URL dziennie
Zachowanie Google i Bing Crawl nie koreluje
Nie martw się o robota Yahoo
Indeksowanie wyszukiwarki: każda witryna jest inna
Jeśli nie mogę porównywać, to jak mogę korzystać z danych?
Vanessa Fox

Wszyscy uwielbiają benchmarki! Co jest normalne Czy (mam na myśli, moja witryna) jest lepsza lub gorsza od średniej?

Zachowanie indeksowania w wyszukiwarkach nie różni się. Czy moja witryna jest indeksowana mniej lub bardziej niż inne witryny? (Zobacz mój wcześniejszy post na Zachowanie indeksowania Googlebota, budżetowanie indeksowania i wydajność indeksowania .)

Joost de Valk ostatnio mówił o zachowaniu indeksującym Google i Bing (i narzędzi SEO) związanych z jego witryną yoast.com . Ale czy to, co widzi w swojej witrynie, jest „typowe”? (Zauważ, że przyglądał się zarówno aktywności wyszukiwarek, jak i narzędzi SEO, ale skupiłem się wyłącznie na robotach wyszukiwarek. Nie patrzył też na dane, aby odkryć benchmarki; jego celem było zużycie energii, co jest dobrym punktem, ale nie związane z tym, na co patrzyłem w tym poście.)

Keylime Toolbox Crawl Analytics analizuje dzienniki serwera, aby uzyskać wgląd w zachowanie indeksowania wyszukiwarek. Sprawdziłem 40 witryn w USA o różnej wielkości i stanie technicznym (w różnych niepowiązanych branżach). Najmniejsza strona miała mniej niż 200 stron, a największa strona miała ponad 10 milionów stron.

Co odkryłem? Nie ma średnich, żadnych punktów odniesienia. Podobnie jak większość SEO, dane są przydatne tylko w kontekście własnej witryny.

Statystyki indeksowania w wyszukiwarce Google Liczby nie odpowiadają liczbie indeksowanych adresów URL dziennie

Jak będę omawiać SMX Advanced podczas sesji „Rozwiązywanie złożonych problemów SEO, gdy standardowe poprawki nie mają zastosowania”, Statystyki indeksowania konsoli wyszukiwania Google raporty:

Są w poprzek wszystkie roboty Google , nie tylko roboty indeksujące używane do indeksowania (i na przykład, indeksowanie AdSense i AdWords).
Raportuj strony indeksowane dziennie, ale nie unikalne, indeksowalne strony . Na przykład Google może wielokrotnie żądać tej samej strony i może zażądać wszystkich powiązanych zasobów na stronę (obrazy, pliki CSS, pliki JavaScript itd.). Te „strony” mogą być również nieindeksowalne (na przykład mogą przekierowywać, być niekanoniczne, zawierać atrybuty anoindex itd.).

Poniżej znajduje się przykładowy raport Keylime Toolbox Crawl Analytics (w programie Excel, który pokazuje, jak adresy URL mogą być indeksowane wiele razy dziennie:

Poniżej znajduje się przykład indeksowania zasobów. Jego ważne, aby Googlebot mógł je indeksować , ale nie są one indeksowane osobno, więc nie przyczyniaj się do całkowitej liczby indeksowanych adresów URL:

Oznacza to, że jeśli używasz statystyk indeksowania w wyszukiwarce Google „stron indeksowanych dziennie” jako ogólnego szacunku liczby indeksowanych adresów URL w Twojej witrynie indeksowanych dziennie (na przykład, aby obliczyć, ile czasu zajmie Google ponownie przeszukaj witrynę i aby zmiany zostały odzwierciedlone w indeksie Google), prawdopodobnie nie otrzymasz dobrego oszacowania.

Za pomocą dzienników serwera można określić, ile unikatowych indeksowanych adresów URL Google naprawdę indeksuje dziennie, patrząc na:

Unikalne adresy URL (w porównaniu z całkowitymi żądaniami) - raporty Keylime Toolbox osobno raportują każdy z tych wskaźników.
Unikalne adresy URL, które zwracają 200 lub 304 - Keylime Toolbox wymienia je osobno.

Unikalne adresy URL, które zwracają 200 lub 304 - Keylime Toolbox wymienia je osobno

Unikalne, indeksowalne adresy URL - ten jest nieco trudniejszy, ale sposób, w jaki to robię, to skopiowanie listy adresów URL, które zwracają 200 lub 304 (z raportu Keylime Toolbox) do oddzielnego pliku Excel, odfiltrowanie zasobów, a następnie indeksowanie pozostałe adresy URL, przesyłając listę do Krzycząca Żaba . Z tego wyjścia mogę zorganizować adresy URL w noindex, niekanoniczne i kanoniczne. (Aby uzyskać listę adresów URL kanonicznych i niekanonicznych, tworzę oddzielną kolumnę w programie Excel i używam formuły = DOKŁADNE (A2, V2 ), gdzie A to kolumna z przeszukiwanym adresem URL, a V to kolumna z kanonicznym wartość.)

Z wynikowej listy kanonicznych adresów URL nadal mogą występować duplikaty, jeśli atrybuty kanoniczne nie są poprawnie skonfigurowane, więc sortuj adresy alfabetycznie i sprawdź tę listę w przypadku problemów z duplikacją, takich jak:

Adresy URL z końcowym ukośnikiem i bez
Adresy URL o różnej wielkości liter
Adresy URL z opcjonalnymi parametrami

Normalnie można to powiedzieć, przechodząc, jeśli istnieją problemy z duplikacją. Jeśli nie, to gratulacje! Ta wynikowa kanoniczna lista adresów URL to liczba unikalnych, indeksowalnych adresów URL, które Google indeksowało tego dnia! (Jeśli występują problemy z duplikacją, ten proces pomaga je zidentyfikować, a następnie można na ogół użyć wzorców filtrów, aby zmniejszyć listę do prawdziwego zestawu kanonicznego).

Korzystając z tego procesu, oto wyniki dla dwóch przykładowych witryn:

Witryna 1
- Statystyki indeksowania GSC - 1,3 miliona adresów URL zostało zaindeksowanych dziennie
- Analiza logów serwera Keylime Toolbox - 800 tys. Adresów URL wymaganych przez Googlebota
- Unikalne, indeksowalne adresy URL - 1 tys. Adresów URL
Strona 2
- Statystyki indeksowania GSC - 120 tys. Adresów URL indeksowanych dziennie
- Analiza logów serwera Keylime Toolbox - 100k adresów URL wymaganych przez Googlebota
- Unikalne, indeksowalne adresy URL - 3 tys. Adresów URL

Ale nawet to nie jest pełny obraz. Google przegląda niektóre strony z dnia na dzień, więc jeśli Google przemierza 1 tys. Unikalnych stron dziennie, nie oznacza to, że w ciągu 5 dni zaindeksuje 5 tys. Unikalnych stron. Często nakładają się z dnia na dzień (wahają się od 10% do 8%).

Moje rzeczywiste indeksowalne adresy URL indeksowane w ciągu dnia są naprawdę małe! Co teraz?!

Czy to problem, jeśli procent unikalnych, indeksowalnych adresów URL jest tak mały? Może, ale może nie. Google musi indeksować wszystkie 404 i przekierowania oraz zasoby i niekanoniczne adresy URL, więc celem nie jest przejście do stanu, w którym indeksowane są tylko unikalne, indeksowalne adresy URL.

Jeśli witryna jest w pełni indeksowana, a indeks Google ogólnie odzwierciedla najnowsze treści w witrynie, indeksowanie może być w porządku. Ale jeśli witryna nie jest dobrze zindeksowana lub długo trwa, zanim zmiany w witrynie zostaną odzwierciedlone w indeksie Google poprawa wydajności indeksowania może być wyższy priorytet niż w innym przypadku.

Zachowanie Google i Bing Crawl nie koreluje

Nie znalazłem żadnych wzorów w indeksowaniu Google vs. Bing dla każdej witryny. W niektórych przypadkach wolumeny indeksowania były podobne. W niektórych witrynach Bing indeksował znacznie więcej. W przypadku innych witryn Google indeksowało znacznie więcej. (Różnica między Bingiem przeszła tylko 1% wolumenu Google do Binga indeksującego 9 000% wolumenu Google).

Co to znaczy? Zależy od strony. Na przykład: jeśli witryna ma skomplikowaną implementację techniczną, z którą Bing ma problemy, Bing może ją zaindeksować mniej lub może zostać złapana w pętle i zaindeksować ją bardziej. Jeśli Google ukarało witrynę, może ją mniej zaindeksować.

Nie martw się o robota Yahoo

Yahoo wciąż indeksuje sieć, ale niewiele. W wielu miejscach w mojej próbce Yahoo indeksował mniej niż sto stron dziennie. W przypadku kilku witryn Yahoo indeksowało około 5 tys. Adresów URL dziennie (w porównaniu z milionem lub więcej żądań od Google), być może w celu zorganizowanej ekstrakcji danych.

Indeksowanie wyszukiwarki: każda witryna jest inna

Indeksowanie wyszukiwarek jest bardzo zależne od szczegółów strony.

404s - W prawie wszystkich przypadkach 404s i inne błędy stanowiły mniej niż 10% indeksowania, aw większości przypadków były mniejsze niż 5%. Czy jest mniej lepszy? Może, może nie. Jeśli indeksowanie nie zawiera żadnych 404s, możliwe, że witryna jest źle skonfigurowana, aby na przykład zwrócić kod odpowiedzi 200 dla nieprawidłowych adresów URL.
Przekierowania - procent 301s i 302s był bardzo zróżnicowany. Tego można się spodziewać, ponieważ niektóre witryny dość niedawno migrowały z http na https, niektóre zmieniły struktury adresów URL z innych powodów i tak dalej. Zazwyczaj zobaczysz skok przekierowań, jeśli wykonasz jakąś migrację, a następnie procent przekierowań powinien spaść, gdy wyszukiwarki przeszły na wszystkie. W próbce, na którą spojrzałem, procent przekierowań wahał się od 0% do 60%.

Poniżej znajduje się przykład wykresu Keylime Toolbox, który umożliwia śledzenie tych trendów w witrynie:

Unikalne adresy URL - Google często żąda tego samego adresu URL wiele razy dziennie. Sygnały mogą być powiązane ze stroną, która wskazuje, że może się często zmieniać (jest to strona główna, znajduje się w witrynie z wiadomościami, treść faktycznie się zmienia). Ponadto niektóre żądania dotyczą zasobów (takich jak pliki CSS lub JavaScript), które mogą być wymagane do zbudowania wszystkich stron w witrynie. Nie znalazłem żadnych wzorów w procentach łącznych wniosków, które były unikalne. Odsetek wahał się od 9% unikalny do 100% unikalny i obejmował wszystko pomiędzy.

Poniższy wykres przedstawia procent unikalnych adresów URL indeksowanych przez Google w ciągu jednego dnia (uporządkowanych według rozmiaru witryny: najmniejsza witryna znajduje się po lewej, a największa po prawej).

Tych danych nie można używać do bezpośredniego monitorowania ani mierzenia czegokolwiek (trzeba spojrzeć na rzeczywiste przeszukiwane adresy URL), ale jest to przydatne do lepszego zrozumienia przeszukiwania i obliczania, jak długo potrwa poprawa SEO pod kątem wydajności .

Rozmiar witryny niekoniecznie był również skorelowany z liczbą przeszukiwanych adresów URL dziennie, chociaż generalnie Google indeksuje więcej stron dziennie w przypadku większych witryn niż mniejsze witryny. Poniższy wykres przedstawia rozmiar witryny (niebieska linia) w porównaniu z liczbą (całkowitych) adresów URL żądań Googlebota w ciągu dnia dla analizowanego przeze mnie zestawu danych.

Poniższy wykres przedstawia rozmiar witryny (niebieska linia) w porównaniu z liczbą (całkowitych) adresów URL żądań Googlebota w ciągu dnia dla analizowanego przeze mnie zestawu danych

Jeśli nie mogę porównywać, to jak mogę korzystać z danych?

Być może nie można użyć metryk indeksowania do testów porównawczych, ale dane są przydatne na wiele sposobów. Poniżej znajduje się tylko kilka przykładów. Jakie dane są ważne do śledzenia, zależy od witryny.

Ile unikalnych, indeksowalnych stron jest naprawdę codziennie indeksowanych? Jak długo potrwa uwzględnienie zmian w indeksie Google?
Czy wydajność indeksowania jest problemem? Jeśli witryna jest dość wszechstronnie indeksowana, może nie. Pełen obraz pomaga nadać priorytet poprawie wydajności indeksowania. (Jak wspomnę na sesji SMX, w priorytetyzacji uwzględniane są inne dane, takie jak indeksowanie witryny i częstotliwość zmian zawartości witryny).
W miarę wprowadzania ulepszeń można użyć początkowych metryk do monitorowania zmian. W miarę naprawiania uszkodzonych łączy 404 powinny zostać wyłączone. Podczas przekierowywania niekanonicznych adresów URL (takich jak te o różnym przypadku), liczba adresów URL, które zwracają 200, może na krótko ulec zmniejszeniu, a przekierowania mogą na krótko wzrosnąć, a stosunek przeszukiwanych adresów URL kanonicznych do niekanonicznych powinien zmienić się na lepiej.

Oczywiście analiza logów serwera jest przydatna z wielu innych powodów. Jeśli chcesz sprawdzić, jakie informacje są dostępne, sprawdź szczegóły i spójrz na proces importu dziennika serwera. Napisz do nas na [email protected] aby uzyskać więcej informacji na temat rozpoczynania pracy z Keylime Toolbox Crawl Analytics. (To tylko 49 USD / miesiąc za codzienne przetwarzanie dziennika!)

Vanessa Fox

Vanessa była kluczową twórczynią Webmaster Central, kiedy pracowała w Google i na wiele sposobów Keylime Toolbox to ewolucja pracy, którą tam wykonała. Podczas pobytu w Google Vanessa wykorzystała informacje uzyskane dzięki pracy z inżynierami wyszukiwania Google wraz z wcześniejszymi doświadczeniami w tworzeniu stron internetowych, analizą odbiorców oraz narzędziami i edukacją potrzebną właścicielom witryn w wyszukiwarce Google. Przygotowała pierwszą wersję Centrum pomocy Google dla webmasterów, zarządzała blogiem dla webmasterów, uruchomiła fora webmasterów i prowadziła rozwój funkcji w narzędziach dla webmasterów. Post-Google, Vanessa napisała Marketing w erze Google, która nakreśliła swoją filozofię dobrego pozycjonowania w wyszukiwarkach, rozumiejąc odbiorców i rozwiązując ich problemy. Uruchomiła Nine By Blue, gdzie pomagała setkom firm w zakresie strategii wyszukiwania i technicznego SEO. Stworzyła również oprogramowanie Blueprint Search Analytics, które później sprzedała. Ona również kontynuuje pisanie i mówienie o wyszukiwaniu dla publiczności na całym świecie. Dzięki Keylime Toolbox stara się zapewnić wszystkim rozsądne zasoby SEO.

Co jest normalne Czy (mam na myśli, moja witryna) jest lepsza lub gorsza od średniej?
Czy moja witryna jest indeksowana mniej lub bardziej niż inne witryny?
Ale czy to, co widzi w swojej witrynie, jest „typowe”?
Co odkryłem?
Co teraz?
Czy to problem, jeśli procent unikalnych, indeksowalnych adresów URL jest tak mały?
Co to znaczy?
Czy jest mniej lepszy?
Jeśli nie mogę porównywać, to jak mogę korzystać z danych?
Ile unikalnych, indeksowalnych stron jest naprawdę codziennie indeksowanych?