Сервер журналу SEO Insights: Що таке "середній" Googlebot і Bing Crawl?

Статистика сканування консолі пошуку Google Числа не прирівнюються до кількості URL-адрес, які сканували...
Google і Bing Crawl Behavior не корелюють
Не турбуйтеся про гусеницю Yahoo
Покриття пошукової системи: кожен сайт відрізняється
Якщо я не можу виконати тестування, то як я можу використовувати дані?
Ванесса Фокс

Кожен любить орієнтири! Що нормально? Я (я маю на увазі, мій сайт) краще або гірше, ніж у середньому?

Поведінка сканування пошукової системи не відрізняється. Чи сканується мій сайт більше або менше, ніж інші сайти? (Див. Мою попередню публікацію на Поведінка сканування Googlebot, бюджетування обходу та ефективність сканування .)

Joost de Valk Нещодавно говорили про поведінку сканування Google і Bing (і інструменти SEO), пов'язані з його сайтом yoast.com . Але що він бачить для свого сайту “типовим”? (Зауважте, що він дивився як на робота пошукача, так і на інструменти SEO, але я зосереджувався виключно на сканерах пошукових систем. Він також не дивився на дані, щоб виявити бенчмарки; його точка стосувалася споживання енергії, що є гарним моментом, але не пов'язане з тим, що я шукав для цієї публікації.)

Сканування аналітики Keylime Toolbox аналізує журнали серверів, щоб надати інформацію про поведінку сканера пошукової системи. Я подивився на 40 американських сайтів різного розміру і технічного стану (в різних галузях, що не мають відношення). Найменший сайт був менше 200 сторінок, а найбільший - більше 10 мільйонів сторінок.

Що я відкрив? Немає середніх показників, немає орієнтирів. Як і більшість SEO, дані корисні тільки в контексті вашого власного сайту.

Статистика сканування консолі пошуку Google Числа не прирівнюються до кількості URL-адрес, які сканували за день

Як я буду обговорювати SMX Advanced під час сесії «Вирішення складних проблем SEO, коли стандартні виправлення не застосовуються», Статистика сканування консолі пошуку Google звіти:

Поперек всіх сканерів Google , а не лише сканерів, які використовуються для індексації (і, наприклад, включає сканування для AdSense і AdWords).
Сторінки звітів скануються на день, але не є унікальними сторінками, які можна індексувати . Наприклад, Google може запитувати одну й ту ж сторінку кілька разів і може запитувати всі пов'язані з нею ресурси для сторінки (зображення, файли CSS, файли JavaScript тощо). Ці «сторінки» також можуть бути неіндексабельними (наприклад, можуть бути перенаправлені, бути неканонічними, включати аноніди anoindex тощо).

Нижче наведено зразок з звіту про сканування Analytics інструментів Keylime (у Excel, який показує, як URL-адреси можуть сканувати кілька разів на день:

Нижче наводиться приклад сканування ресурсів. Його Важливо, що Googlebot зможе сканувати їх , але вони не індексуються окремо, тому не беріть участь у загальній кількості індексованих URL-адрес:

Це означає, що якщо ви використовуєте статистику сканування консолі пошуку Google "скановані сторінки за день" як загальну оцінку кількості індексованих URL-адрес на вашому сайті, що сканувалися в день (наприклад, для розрахунку часу рекрутувати ваш сайт, а зміни відображатимуться в індексі Google).

Ви можете використовувати журнали серверів, щоб визначити, скільки унікальних, індексованих URL-адрес Google дійсно сканує день, переглядаючи:

Унікальні URL-адреси (порівняно із загальними запитами) - звіти Keylime Toolbox повідомляють кожну з цих метрик окремо.
Унікальні URL-адреси, які повертають 200 або 304 - Keylime Toolbox, перелічують їх окремо.

Унікальні URL-адреси, які повертають 200 або 304 - Keylime Toolbox, перелічують їх окремо

Унікальні, індексовані URL-адреси - це трохи складніше, але я роблю це, щоб скопіювати список URL-адрес, які повертають 200 або 304 (з звіту Keylime Toolbox) в окремий файл Excel, відфільтровують ресурси, а потім сканують інші URL-адреси, для яких потрібно завантажити список Кричала жаба . З цього виводу я можу організувати URL в noindex, не канонічний і канонічний. (Щоб отримати список канонічних проти не-канонічних URL-адрес, я створюю окрему колонку в Excel і використовую формулу = EXACT (A2, V2 ), де A - стовпець з сканованою URL, а V - стовпець з канонічним значення.)

З отриманого списку канонічних URL-адрес, можливо, у вас є дублікати, якщо канонічні атрибути не налаштовані правильно, так що сортуйте URL-адреси за алфавітом і перевірте цей список на такі питання:

URL-адреси з кінцевою рискою і без
URL-адреси з різноманітною справою
URL-адреси з додатковими параметрами

Як правило, ви можете сказати, якщо ви маєте питання про дублювання. Якщо ні, то вітаємо! Цей результуючий список канонічних URL-адрес - це кількість унікальних URL-адрес, які можна індексувати, які Google сканував у цей день! (Якщо проблеми з дублюванням існують, цей процес допомагає їх ідентифікувати, і ви можете використовувати шаблони фільтрів, щоб зменшити список до справжнього канонічного набору.)

Використовуючи цей процес, наведені результати для двох прикладних сайтів:

Сайт 1
- Статистика сканування GSC - 1,3 мільйона URL-адрес, які сканували за день
- Аналіз журналу сервера Keylime Toolbox - 800k URL-адрес, запитаних Googlebot
- Унікальні URL-адреси - 1k URL-адрес
Сайт 2
- Статистика сканування GSC - 120k URL-адрес сканували день
- Аналіз журналу сервера Keylime Toolbox - 100k URL-адрес, запитаних Googlebot
- Унікальні URL-адреси, які можна індексувати - 3k URL-адрес

Але навіть це не повна картина. Google сканує кілька сторінок з одного дня на інший, тому якщо Google кожен день обходить 1 тисячу унікальних сторінок, це не означає, що вони сканують 5 тисяч унікальних сторінок за 5 днів. Часто перекриваються з дня на день (від 10% до 8%).

Мої фактичні індексаційні URL-адреси, які сканували день, дійсно невеликі! Що тепер?!

Це проблема, якщо відсоток унікальних, індексованих URL-адрес настільки малий? Можливо, але, можливо, ні. Google зобов'язаний сканувати всі 404-е та перенаправлення, а також ресурси та не-канонічні URL-адреси, тому метою не є отримання сканування в стан сканування тільки унікальних, індексованих URL-адрес.

Якщо сайт повністю індексований, а індекс Google зазвичай відображає останній вміст на сайті, то сканування може бути нормальним. Але якщо сайт не буде добре проіндексованим, або потрібно багато часу, щоб зміни на сайті відображалися в індексі Google, то підвищення ефективності сканування може бути більш високим пріоритетом, ніж інакше.

Google і Bing Crawl Behavior не корелюють

Я не знайшов шаблонів сканування Google проти Bing для кожного сайту. У деяких випадках обсяги сканування були схожими. Для деяких ділянок Bing проскочив значно більше. Для інших сайтів Google значно більше сканувався. (Різниця від Bing сканувала лише 1% обсягу Google, щоб Bing сканував 9000% обсягу Google.)

Що це означає? Залежить від сайту. Наприклад: якщо на сайті є нелегка технічна реалізація, з якою у Bing виникають проблеми, Bing може зменшити кількість об’яв, або, можливо, потрапити в петель і більше сканувати його. Якщо Google засудив сайт, він міг би сканувати його менше.

Не турбуйтеся про гусеницю Yahoo

Yahoo все ще сканує Інтернет, але не набагато. Для багатьох сайтів в моїй вибірці Yahoo сканував менше ста сторінок на день. На деяких сайтах Yahoo сканувався на 5k URL-адрес на день (у порівнянні з мільйонами або більше запитів від Google), можливо, для структурованого вилучення даних.

Покриття пошукової системи: кожен сайт відрізняється

Пошукова пошукова система дуже залежить від особливостей сайту.

404s - Майже у всіх випадках 404 та інші помилки становили менше 10% від повзання і в більшості випадків становили менше 5%. Менш краще? Можливо, можливо, ні. Якщо сканер не містить жодних 404-х, можливо, сайт неправильно налаштований для повернення, наприклад, коду відповіді 200 для недійсних URL-адрес.
Переадресація - відсоток 301s і 302s широко варіювався. Очікується, оскільки деякі сайти нещодавно перейшли з http на https, деякі змінили структури URL з інших причин і так далі. Як правило, ви побачите сплеск перенаправлень, якщо ви виконуєте якусь міграцію, а потім відсоток переадресацій повинен відхилятися після того, як пошукові системи сканують усі їх. У зразку, який я розглядав, відсоток переадресації коливався від 0% до 60%.

Нижче наведено приклад графіка панелей інструментів Keylime, який дозволяє відстежувати ці тенденції для вашого сайту:

Унікальні URL-адреси - Google часто запитує одну й ту ж URL-адресу кілька разів на день. Сигнали можуть бути пов'язані з сторінкою, що вказує на те, що вона може часто змінюватися (це головна сторінка, вона знаходиться на сайті новин, вміст насправді змінюється). Крім того, деякі запити стосуються ресурсів (наприклад, CSS або JavaScript файлів), які можуть знадобитися для створення всіх сторінок сайту. Я не знайшов шаблонів у відсотках від загальної кількості запитів, які були унікальними. Відсоток коливався від 9%, унікальних до 100% унікальних і включав усе між собою.

Графік нижче показує відсоток унікальних URL-адрес, сканованих Google за день (впорядкований за розміром сайту: найменший сайт зліва, а найбільший - справа).

Цей показник не може використовуватися для безпосереднього моніторингу та вимірювання (для цього потрібно переглядати фактичні URL-адреси), але це корисно для кращого розуміння сканування та розрахунку того, скільки часу знадобиться, щоб покращення SEO відобразилися в продуктивності .

Розмір сайту також не обов'язково співвідносився з кількістю сканованих URL-адрес за день, хоча, як правило, Google сканує більше сторінок на день для більших сайтів, ніж менші сайти. Графік нижче показує розмір сайту (синю лінію) у порівнянні з кількістю (загальною кількістю) URL-адрес, які Googlebot запитує за день для набору даних, який я проаналізував.

Графік нижче показує розмір сайту (синю лінію) у порівнянні з кількістю (загальною кількістю) URL-адрес, які Googlebot запитує за день для набору даних, який я проаналізував

Якщо я не можу виконати тестування, то як я можу використовувати дані?

Можливо, ви не можете використовувати показники сканування для тестування, але дані корисні для всіх видів. Нижче наведено лише кілька прикладів. Які дані важливі для відстеження, залежить від сайту.

Скільки унікальних, індексованих сторінок дійсно скануються щодня? Скільки часу знадобиться, щоб зміни відображалися в індексі Google?
Чи є проблема ефективності сканування? Якщо сайт достатньо всебічно сканується, можливо, ні. Повна картина допомагає визначити пріоритетність підвищення ефективності сканування. (Як я буду говорити на сесії SMX, інші дані входять до цього визначення пріоритетів, наприклад, наскільки добре індексується сайт і як часто змінюється зміст сайту).
Під час вдосконалення можна використовувати початкові показники для моніторингу змін. Як ви виправляєте непрацюючі посилання, 404s повинні знизитися. Коли ви переадресовуєте неканонічні URL-адреси (наприклад, з різними випадками), кількість URL-адрес, які повертають 200, може коротко знизитися, а перенаправлення можуть коротко піднятися, а співвідношення канонічних і не-канонічних URL-адрес, які скануються, повинні змінюватися кращий.

Звичайно, аналіз журналу сервера корисний для багатьох інших причин. Якщо ви хочете дізнатися, які статистичні дані доступні, перевірте деталі і подивіться на процесу імпортування журналу сервера. Напишіть нам на [email protected] Щоб дізнатися більше про початок роботи з Keylime Toolbox Crawl Analytics. (Це лише $ 49 / місяць для щоденної обробки журналу!)

Ванесса Фокс

Ванесса була ключовим творцем центру для веб-майстрів, коли вона працювала в Google і багато в чому, Keylime Toolbox - це еволюція роботи, яку вона там зробила. В той час як у Google, Ванесса взяла інформацію, яку вона дізналася, працюючи з пошуковими інженерами Google, а також свій минулий досвід у розробці веб-сайту, аналіз аудиторії та побудував інструменти та освіту, необхідні власникам сайту про пошук Google. Вона створила першу версію довідкового центру Google для веб-майстрів, керувала блогом веб-майстрів, запустила форуми для веб-майстрів, а також розробила функції для інструментів для веб-майстрів. Пост-Google, Ванесса написала маркетинг в епоху Google, який окреслив її філософію ранжирування в пошукових системах, розуміючи аудиторію і вирішуючи їхні проблеми. Вона запустила Nine By Blue, де вона допомагала сотням компаній з пошуковою стратегією та технічним SEO. Вона також створила програмне забезпечення Blueprint Search Analytics, яке вона пізніше продала. Вона також продовжувала писати та говорити про пошук аудиторії по всьому світу. З Keylime Toolbox, вона прагне принести здоровий сенс SEO ресурси для всіх.

Що нормально?
Я (я маю на увазі, мій сайт) краще або гірше, ніж у середньому?
Чи сканується мій сайт більше або менше, ніж інші сайти?
Але що він бачить для свого сайту “типовим”?
Що я відкрив?
Що тепер?
Це проблема, якщо відсоток унікальних, індексованих URL-адрес настільки малий?
Що це означає?
Менш краще?
Якщо я не можу виконати тестування, то як я можу використовувати дані?