Википедия определяет регрессионный анализ как «статистический процесс оценки взаимосвязи между переменными». Проще говоря, регрессионный анализ может сказать вам, как одна переменная влияет на другую переменную. В этом анализе первая переменная называется «независимой переменной», а вторая точно называется «зависимой переменной». В множественной регрессии вы можете добавить столько независимых переменных, сколько захотите, и посмотреть, какие из них, если таковые имеются, влияют и насколько сильно. Это основа для последующего SEO анализа .
С тех пор, как я работал в Pear, я последовательно занимался оптимизацией страниц клиентов. Изначально мы создавали декоративные отчеты, в которых указывались бы клиенты, как вносить изменения самостоятельно и где эти изменения будут отображаться на странице. В конце концов мы перешли к более готовому решению - самим вносить изменения. С этим изменением пришло определенное чувство ответственности. Не только для того, чтобы убедиться, что мы не нарушаем веб-сайты клиентов, но и для отслеживания того, что было изменено, чтобы мы могли продемонстрировать наш успех (обычно это наблюдается в рейтинге ключевых слов). Поскольку мы достаточно эффективно вносим эти изменения на веб-сайтах, очень редко клиент спрашивает, что именно было изменено и как. Это заставило меня задуматься, для чего мы собирали эту большую базу данных по оптимизации страниц. Я думаю, что это было совещание по стратегическому планированию почти год назад, когда я впервые предложил идею использования этих данных в сочетании с нашими инструментами, которые отслеживают текущую эффективность ключевых слов для создания своего рода прогнозирования рейтинга. В идеале, отдел продаж мог бы использовать этот инструмент, чтобы дать клиентам правильное представление об их увеличении видимости органически, учитывая их конкретные показатели (конкурентное пространство, авторитет домена, CMS и т. Д.).
С тех пор я узнал о силе простой и множественной регрессии и о том, насколько полезным может быть прогнозирование зависимой переменной, такой как улучшение ранжирования по ключевым словам. Первым шагом было выяснить, какие данные у нас были и какие были актуальны. Для каждого клиента у нас есть оптимизированное ключевое слово, ранжирование этого ключевого слова в то время, измененная страница и количество изменений, которые мы сочли целесообразными. Учитывая это ключевое слово, я мог бы сослаться на AdWords, чтобы найти как среднемесячный объем поиска, так и конкурентоспособность. Как я уже писал ранее Я обычно не принимаю объемы поиска AdWords за чистую монету, и я одинаково подозрительно отношусь к их показателю конкурентоспособности, но я решил, что все выбранные ключевые слова, вероятно, были одинаково смещены, пока я извлекал оценки поиска Google для каждого и выбирал ключевые слова из похожая популярность.
Поэтому после составления группы из примерно шести клиентов (и примерно 100 наблюдений) я извлек текущие данные ранжирования и рассчитал переменные улучшения (init.rank - curr.rank). Этот показатель улучшения был бы моей зависимой переменной, при которой регрессионный анализ попытался бы объяснить комбинацией моих независимых переменных.
Моим следующим шагом было решить, какие переменные включить в мою регрессию. Первоначально я думал, что добавление логической переменной для коннотации, если страница является домашней страницей, было бы полезно, потому что обычно домашние страницы, как правило, имеют больше ссылок и, следовательно, наибольшее авторитетность страницы на любом данном сайте. Я включил это, авторитет домена сайта, объем поиска по ключевым словам, конкурентоспособность ключевых слов, количество изменений, внесенных на странице, и начальный ранг ключевых слов во время оптимизации в регрессии, и позволил SPSS выполнить свою работу. Вы можете увидеть результат ниже.
Первой метрикой, на которую я посмотрел, было значение Скорректированный R-квадрат. Значение .230 означает, что следующая регрессия независимых переменных составила 23% изменений в улучшении ранжирования по ключевым словам. Это не кажется большим, но из того, что я узнал, играя с наборами данных реального мира, часто бывает, что вы не можете объяснить все. Я полагал, что 77% необъяснимых оставляют желать лучшего, хотя я и придумал, как сделать мои данные более логичными. Были случаи (только несколько), когда ключевое слово фактически ухудшалось после оптимизации страницы. Может быть, это ключевое слово стало более конкурентоспособным или не относилось к сайту. В любом случае, я полагал, что отрицательное улучшение может запутать SPSS, и если я собираюсь предположить, что оптимизация страницы приведет к улучшению ранжирования (что, я думаю, мы все можем предположить), то мне следует выбирать только те случаи, в которых улучшение превышает 0.
Я также сосредоточился на попытках упростить мои независимые переменные. Скорректированное значение R-Squared несколько наказывает вас за включение слишком большого количества переменных в попытке объяснить все аспекты вашей зависимой переменной. Проще говоря, чем меньше очень релевантных переменных, которые вы регрессируете, тем выше ваш скорректированный R-квадрат и, следовательно, тем больше ваша регрессия имеет смысл. Поэтому, учитывая, что этот инструмент будет в первую очередь использоваться для продаж, я решил исключить некоторые переменные, которые не могут быть легко выведены без доступа к сайтам потенциальных клиентов (количество переменных изменилось). Я также подумал, что, хотя интересно посмотреть, как домашняя страница влияет на улучшение, на нее обычно оказывают влияние, потому что домашние страницы обычно уже имеют высокий рейтинг и, следовательно, улучшение незначительно ниже.
Поэтому я запустил еще одну регрессию с меньшим количеством случаев (только положительные улучшения по сравнению с не домашними страницами) и переменными (объем поиска по ключевым словам, конкурентоспособность, авторитет домена и начальный ранг) и получил следующие результаты:
Как вы видите, я сейчас объясняю 53,5% различий в улучшении четырьмя переменными. Опять же, это не кажется чем-то принципиально новым, но если я смогу объяснить примерно половину алгоритма ранжирования Google четырьмя переменными, я назову это победой. Следующее, на что стоит обратить внимание - это F-статистика (13,084) и T-статистика отдельных переменных. Вы увидите, что F-статистика достаточно велика, чтобы доказать достоверность этой регрессии с 95% -ной достоверностью, учитывая сигнал. менее чем 0,05. Однако из переменных и перехвата только начальный ранг ключевого слова является существенной независимой переменной. Это может быть вызвано многими причинами: возможно, размер моей выборки недостаточно велик или, возможно, некоторые мультиколлинеарности в переменных. Мультиколлинеарность возникает, когда у вас есть несколько переменных, которые объясняют аспекты, которые слишком похожи на зависимые переменные. Таким образом, SPSS не знает, какая из переменных оказывает влияние.
В любом случае, необходимо больше данных для дальнейшего изучения. Между тем, я думаю, что это интересная практика, чтобы узнать, какие переменные влияют на нашу конечную цель как компании SEO. Подобный SEO-анализ полезен для того, чтобы действительно определить, насколько важны изменения, которые наша команда вносит в веб-сайт клиента. Это также служит хорошим примером того, как вы можете превратить бремя посторонних данных в полезный инструмент с помощью регрессионного анализа.