Сервер часопіс SEO Insights: Што такое «Сярэдні» Googlebot і Bing Crawl?

  1. Google Search Console Crawl Статыстыка Лік Ня прыраўняць да ліку адрасоў прасканавала Дзень
  2. Google і Bing Crawl Паводзіны Ня Карэляцыя
  3. Не турбуйцеся аб Crawler Yahoo,
  4. Пошукавая Crawling: Кожны сайт адрозніваецца
  5. Калі я не магу Benchmark, то як я магу выкарыстоўваць гэтыя дадзеныя?
  6. Ванэса Фокс

Усе любяць тэсты! Што нармальна? Ці магу я (я маю на ўвазе, мой сайт) лепш ці горш, чым у сярэднім?

Пошукавая сістэма поўзаць паводзіны нічым не адрозніваецца. Ёсць час абыходу майго сайта больш ці менш, чым іншыя сайты? (Глядзі майго папярэдняга паста на Googlebot паводзіны паўзці, паўзці бюджэт і эфектыўнасць поўзаць .)

Joost дэ хістка нядаўна казаў пра паводзіны поўзаць у Google і Bing (і SEO інструментаў), звязанае з яго сайтам yoast.com , Але тое, што ён бачыць на сваім сайце «тыповы»? (Звярніце ўвагу, што ён глядзеў на абодвух пошукавых сістэм гусенічным і прыладаў дзейнасці SEO, але я засяродзіўся выключна на гусенічным пошукавых сістэмах Ён не глядзеў на дадзеныя, каб выявіць арыенціры ;. Яго кропка была аб спажыванні энергіі, што з'яўляецца добрай адпраўной кропкай, але не звязана з тым, што я глядзеў на на гэтую пасаду.)

Keylime Toolbox Сканіраванне Аналітыка аналізуе часопісы сервера, каб даць ўяўленне аб паводзінах поўзаць пошукавыя сістэмы. Я глядзеў на 40 ЗША на аснове сайтаў рознага памеру і тэхнічнага стану (у розных незвязаных галінах). Самы маленькі сайт быў менш, чым 200 старонак і найбуйнейшы сайт быў больш за 10 мільёнаў старонак.

Што я выявіў? Там няма сярэдніх, ні арыенціраў. Як і вялікая частка SEO, дадзеныя карысныя толькі ў кантэксце з вашага ўласнага сайта.

Google Search Console Crawl Статыстыка Лік Ня прыраўняць да ліку адрасоў прасканавала Дзень

Як я буду абмяркоўваць у SMX Advanced падчас «вырашэння складаных праблем SEO Калі стандарт цяжкага Не ўжываць» сесію, Google Пошук Кансольныя Статыстыка сканавання даклады:

  • А праз усе гусенічная кампанія Google , А не толькі шукальнікі, якія выкарыстоўваюцца для індэксацыі (і, напрыклад, уключае ў сябе паўзе для AdSense і AdWords).
  • Старонкі справаздачы папаўзлі у дзень, але не унікальныя, индексируемые старонкі. Напрыклад, Google можа запытаць адну і тую ж старонку некалькі разоў, і можа запытаць усе адпаведныя рэсурсы для старонкі (малюнкі, CSS файлаў, файлаў JavaScript, і гэтак далей). Гэтая «старонка» таксама можа быць Неиндексируемой (напрыклад, можа перанакіроўваць быць некананічныя, ўключаюць anoindex атрыбуты, і гэтак далей).

Ніжэй прыведзены прыклад з справаздачы Keylime Toolbox Crawl Analytics (у Excel, які паказвае, як URL-адрас можа быць поўзаў некалькі раз у дзень:

І ніжэй з'яўляецца прыкладам рэсурсаў падчас абыходу. гэта Важна, каб Googlebot мець магчымасць сканаваць гэтыя , Але яны не індэксуюцца асобна, таму не спрыяюць агульнаму колькасці индексируемой URL:

Што гэта азначае, што калі вы выкарыстоўваеце Google Search Console Статыстыка сканавання «старонкі папоўз у дзень" у якасці агульнай ацэнкі колькасці индексируемых URL-адрасоў на вашым сайце папоўз у дзень (напрыклад, каб разлічыць, колькі часу спатрэбіцца Google для сканавання сайтаў і змены, якія будуць адлюстраваны ў індэксе Google), вы, верагодна, не атрымаць добрую адзнаку.

Вы можаце выкарыстоўваць часопісы сервера, каб вызначыць, як шмат унікальных, индексируемых URL-адрасоў Google сапраўды поўзае у дзень, гледзячы на:

  • Унікальныя URL - адрас ( у працэнтах ад агульных запытаў) - Keylime Toolbox паведамляе справаздачу кожны з гэтых паказчыкаў у паасобку.
  • Унікальныя URL - адрасы , якія вяртаюць 200 або 304 - Keylime Toolbox пералічаныя асобна.

Унікальныя URL - адрасы , якія вяртаюць 200 або 304 - Keylime Toolbox пералічаныя асобна

  • Унікальныя, индексируемые адрасы - гэта адзін крыху больш складана, але так , як я раблю гэта , каб скапіяваць спіс URL - адрасоў , якія вяртаюць 200 або 304 (з справаздачы Keylime Toolbox) у асобны файл Excel, адфільтроўваць рэсурсы, а затым поўзаць астатнія URL-адрас па загрузцы спісу ў Якія крычаць Frog , З гэтага высновы, я магу арганізаваць URL-адрасы ў NoIndex, некананічнай і кананічнай. ( Для таго, каб атрымаць спіс кананічных URL - адрасоў супраць некананічнай, я стварыць асобны слупок ў Excel і выкарыстоўваць формулу = EXACT (А2, V2), дзе А ўяўляе сабой слупок з шукальнікам URL , і V уяўляе сабой слупок з кананічным значэнне.)

)

З атрыманага спісу кананічных URL-адрасоў, вы можаце ўсё яшчэ ёсць дублікаты, калі кананічныя атрыбуты не зададзеныя правільна, таму сартаваць адрасы ў алфавітным парадку і праверыць гэты спіс для пытанняў дублявання, такіх як:

  • URL-адрас з касой рысай і без
  • URL-адрас з разнастайнымі выпадку
  • URL-адрас з дадатковымі параметрамі

Звычайна вы можаце сказаць, абястлушчванне, калі існуюць праблемы дублявання. Калі няма, то віншую! Гэты выніковы спіс кананічных URL, гэты лік унікальнай, индексируемой URL, якія Google шукальнікам ў той жа дзень! (Калі праблемы дублявання існуе, гэты працэс дапамагае вызначыць іх і вы можаце наогул выкарыстоўваць шаблоны фільтраў для скарачэння спісу дадаткова да сапраўднага кананічнага наборы.)

Выкарыстоўваючы гэты працэс, вось вынікі для двух прыкладаў сайтаў:

  • сайт 1
    • GSC Crawl Stats - 1,3 мільёна спасылак папаўзлі у дзень
    • Аналіз часопіса сервера Keylime Toolbox - 800k URL - адрасы , запытаныя Googlebot
    • Унікальныя, индексируемые URL - 1k URL - адрас
  • сайт 2
    • GSC Статыстыка сканавання - 120k URL , папоўз у дзень
    • Аналіз часопіса сервера Keylime Toolbox - 100k URL - адрасы , запытаныя Googlebot
    • Унікальныя, индексируемые URL - 3k URL - адрас

Але нават гэта не поўная карціна. Google паўторнага абыход некаторых старонак ад аднаго дня да наступнага, так што калі Google поўзае 1 тысячы унікальных старонак кожны дзень, гэта не значыць, яны ўжо папаўзлі 5 тысяч унікальных старонак на працягу 5 дзён. Там часта перакрываюцца з дня ў дзень (што складае ад 10% да 8%).

Мой Actual Indexable URL - адрас прапоўз дзень сапраўды мала! Што цяпер?!

Ці з'яўляецца гэта праблема, калі адсотак унікальнай, индексируемой URL, так мала? Можа быць, а можа і няма. Google сапраўды павінен спаўзаць усё і 404-х рэдырэкты і рэсурсы і некананічнай URL, так што мэту не атрымаць поўзаць у стан, якое толькі унікальныя, индексируемые URL-шукальнікам.

Калі вэб-сайт цалкам індэксуецца і індэкс Google, як правіла, адлюстроўвае апошняе ўтрыманне на сайце, то поўзаць можа быць штраф. Але калі сайт не індэксуецца добра ці гэта займае шмат часу для змены на сайце павінны быць адлюстраваны ў індэксе Google, то Павышэнне эфектыўнасці поўзаць можа быць больш высокім прыярытэтам, чым яны маглі б быць.

Google і Bing Crawl Паводзіны Ня Карэляцыя

Я не знайшоў ніякіх заканамернасцяў у кроле Google супраць Bing для кожнага сайта. У некаторых выпадках аб'ёмы поўзаць былі падобныя. Для некаторых сайтаў, Bing папоўз значна больш. Для іншых сайтаў, Google папоўз значна больш. (Розніца вар'іравалася ад Bing выпаўз толькі 1% ​​ад аб'ёму Google да Bing паўзе 9000% аб'ёму Google.)

Што гэта значыць? У залежнасці ад сайта. Напрыклад: Калі сайт мае хітрую тэхнічную рэалізацыю, Бінг узніклі праблемы з, Bing можа сканаваць яго менш або можа ўгразнуць ў завесах і прасканаваць больш. Калі Google ужо парушае сайт, ён можа сканаваць яго менш.

Не турбуйцеся аб Crawler Yahoo,

Yahoo усё яшчэ поўзае ў Інтэрнэце, але не так шмат. Для многіх сайтаў у маім узоры, Yahoo папоўз менш за сто старонак у дзень. За некалькі сайтаў, Yahoo поўзаў 5k URL-адрасы ў дзень (у параўнанні з мільёнам або больш запытаў ад Google), магчыма, для структураванага вымання дадзеных.

Пошукавая Crawling: Кожны сайт адрозніваецца

Сістэма пошуку поўзаць вельмі залежыць ад асаблівасцяў сайта.

  • Памылкі 404 - Амаль ва ўсіх выпадках, і 404 - х іншых памылак склаў менш за 10% ад поўзання і ў большасці выпадкаў менш чым на 5%. Менш лепш? Можа быць, можа і няма. Калі паўзці не ўтрымліваюць памылак 404, то, магчыма, сайт памылкова вяртае код 200 адказаў для несапраўдных адрасоў, напрыклад.
  • Перанакіраванне - адсотак рэдырэкт 301 і 302s шырока вар'іраваць. Гэтага варта было чакаць, бо некаторыя сайты зусім нядаўна мігравалі з HTTP на HTTPS, некалькі змянілі свае URL структуру і па іншых прычынах, і гэтак далей. Як правіла, вы ўбачыце ўсплёск пераадрасоўвае, калі вы нейкі міграцыі, а затым працэнт пераадрасоўвае павінен знізіцца раз у пошукавых сістэмах прасканаваных ўсё з іх. У узоры я глядзеў на працэнт перанакіравання вар'іраваў ад 0% да 60%.

Ніжэй прыведзены прыклад графіка Keylime Toolbox, якая дазваляе вам адсочваць гэтыя тэндэнцыі для вашага сайта:

  • Унікальныя URL - адрас - Google часта запытваюць тую ж URL - адрас некалькі разоў на дзень. Сігналы могуць быць звязаныя са старонкай, якія паказваюць на гэта можа часта мяняцца (гэта хатняя старонка, гэта на навінавым сайце, ўтрыманне на самай справе шмат што змяніць). Акрамя таго, некаторыя з запытаў для рэсурсаў (напрыклад, CSS ці JavaScript-файлы), якія могуць спатрэбіцца для стварэння ўсіх старонак на сайце. Я не знайшоў ніякіх заканамернасцяў у працэнтах ад агульнай колькасці запытаў, якія былі ўнікальныя. Працэнт складаў ад 9% унікальна да 100% унікальна і ўключаны ўсё паміж імі.

У прыведзенай ніжэй табліцы паказаны працэнт унікальных URL-адрасоў адсканаваныя Google у дзень (спарадкаваны па памеры сайта: самы маленькі сайт знаходзіцца на левым баку, і самы вялікі знаходзіцца справа).

Гэты паказчык не можа быць выкарыстана для кантролю або вымярэння нічога наўпрост (вы павінны глядзець на фактычныя URL, папоўз для гэтага), але карысна для лепшага разумення поўзаць і разліку, як доўга ён будзе прымаць для паляпшэння SEO быць адлюстраваны ў прадукцыйнасці ,

Памер сайта таксама не абавязкова карэлюе з колькасцю адрасоў папаўзлі у дзень, хоць гэта звычайна бывае, што Google скануе некалькі старонак у дзень для вялікіх сайтаў, чым невялікія сайты. Ніжэй дыяграма паказвае памер сайта (сіняя лінія) у параўнанні з колькасцю (усяго) URL-адрасы Googlebot запытаў у дзень для набору дадзеных я аналізаваў.

Ніжэй дыяграма паказвае памер сайта (сіняя лінія) у параўнанні з колькасцю (усяго) URL-адрасы Googlebot запытаў у дзень для набору дадзеных я аналізаваў

Калі я не магу Benchmark, то як я магу выкарыстоўваць гэтыя дадзеныя?

Можа быць, вы не можаце выкарыстоўваць метрыкі абыходу для параўнальнага аналізу, але дадзеныя карысныя ва ўсіх відах шляхоў. Ніжэй прыведзены толькі некалькі прыкладаў. Якія дадзеныя важныя для вас, каб адсочваць залежыць ад сайта.

  • Колькі унікальных, индексируемые старонкі сапраўды падчас абыходу кожнага дня? Як доўга гэта будзе на самой справе ўзяць на змены, якія будуць адлюстраваны ў індэксе Google?
  • Ці з'яўляецца эфектыўнасць поўзаць праблему? Калі сайт быў дастаткова поўна папоўз, магчыма няма. Маючы поўную карціну дапамагае расставіць прыярытэты павышэння эфектыўнасці поўзаць. (Як я буду казаць пра тое на пасяджэнні SMX, іншыя дадзеныя паступаюць у гэтую прыярытызацыі, напрыклад, наколькі добра сайт індэксуецца і як часта змяняецца змест сайта.)
  • Як зрабіць паляпшэнне, вы можаце выкарыстоўваць зыходныя паказчыкі для маніторынгу змен. Як выправіць непрацуючыя спасылкі, памылкі 404 павінны ісці ўніз. Як перанакіраваць некананічныя URL (як тыя, з пераменным выпадку), колькасць URL-адрасоў, якія вяртаюць 200 могуць ненадоўга спусціцца ўніз і пераадрасоўвае на кароткі час могуць ісці ўверх, і суадносіны кананічнай супраць некананічнай URL, якія поўзалі варта перанесці на тым лепш.

Вядома, аналіз часопіса сервера карысны для многіх іншых прычын. Калі вы хочаце, каб праверыць, якія ідэі даступныя, праверыць дэталі і прыняць погляд на лог сервера ў працэсе імпарту. Пішыце нам па адрасе [email protected] для атрымання больш падрабязнай інфармацыі аб тым, як пачаць працу з Keylime Toolbox Crawl Analytics. (Гэта ўсяго толькі $ 49 / месяц для штодзённай апрацоўкі часопіса!)

)

Ванэса Фокс

Ванэса была ключавым стваральнікам Webmaster Central, калі яна працавала ў Google і шмат спосабаў, Keylime Toolbox з'яўляецца эвалюцыяй працы яна зрабіла там. У той час як у Google, Ванэса ўзяла інфармацыю, якую яна навучылася працаваць з пошукавымі Google інжынераў разам са сваім мінулым вопытам у распрацоўцы вэб-сайта аналіз аўдыторыі і ўбудаваных інструментаў і адукацыі, што ўладальнікі сайтаў трэба аб пошуку Google. Яна апрацавала першую версію даведачных цэнтрах Google, удалася вэб-майстры блог, запусціла вэб-майстар форуму і прывяла развіццё функцый у вэбе-майстрах. Пасля Google, Ванэса напісаў маркетынг у эпоху Google, у якім выклаў сваю філасофію ранжыравання добра ў пошукавых сістэмах на аснове разумення аўдыторыі і вырашэнні іх праблем. Яна запусціла Nine By Blue, дзе яна дапамагла сотням кампаній з пошукам стратэгіі і тэхнічнай SEO. Яна таксама стварыла Blueprint Пошук Analytics праграмнае забеспячэнне, якое яна пазней прадаў. Яна таксама працягвае пісаць і гаварыць пра пошук аўдыторыі па ўсім свеце. З Keylime Toolbox, яна імкнецца прынесці здаровы сэнс SEO рэсурсы для ўсіх.

Што нармальна?
Ці магу я (я маю на ўвазе, мой сайт) лепш ці горш, чым у сярэднім?
Ёсць час абыходу майго сайта больш ці менш, чым іншыя сайты?
Што я выявіў?
Што цяпер?
Ці з'яўляецца гэта праблема, калі адсотак унікальнай, индексируемой URL, так мала?
Што гэта значыць?
Менш лепш?
Калі я не магу Benchmark, то як я магу выкарыстоўваць гэтыя дадзеныя?
Колькі унікальных, индексируемые старонкі сапраўды падчас абыходу кожнага дня?