Визуализация внутренних веб-ссылок с использованием Gephi - Tyinternety.cz

  1. Полезная информация и ссылки
  2. Получение данных от Xen
  3. Настройки Gephi и файл импорта
  4. Алгоритмы модификации и размещения данных
  5. Основные функции и инструменты в Gephi
  6. Расширенные функции и фильтрация
  7. Фильтрация и статистика
  8. Примеры других эталонных визуализаций
  9. Спам-профиль
  10. В заключение

Найти соединения в таблице с тысячами строк не очень просто, быстро или эффективно. К счастью, есть способ сэкономить много времени и при этом создавать профессионально выглядящие диаграммы для анализа клиентов и отчетов. Действительно, таблица с внутренними URL-адресами может быть преобразована в простую инфографику. Создание визуализации внутренней ссылки сайта ничего сложного. В дополнение к времени в начале, это не будет стоить ничего больше. И если у вас, как и у меня, есть страсть к линкбилдингу, ссылкам и сетям, вам это понравится.

Есть несколько причин, по которым можно сделать визуализацию внутренних ссылок.

1) Выглядит хорошо и профессионально в анализах и отчетах. Куча текста, хотя и хорошая, по-прежнему просто куча текста. Так оно и есть. Графический элемент обогащает текстовый документ и придает ему нечто дополнительное.

2) Заменяет таблицы. Во многих случаях они просто растягивают текст, и немногие из них действительно выигрывают. Экспортированная таблица из любого инструмента не имеет добавленной стоимости. Вместо нескольких страниц таблиц я могу вставить от одного до двух хорошо прокомментированных графиков, где на первый взгляд очевидно, что клиент будет искать в таблице в течение нескольких часов. (Очевидно, я не хочу обсуждать некоторые таблицы здесь. Без них невозможно обойтись. Но они не всегда необходимы. И часто они не очень полезны для клиента.)

3) Визуализация позволяет мне быстро определить проблему или подтвердить убеждение. Я могу проверить гипотезу о том, что в анализируемом веб-сайте довольно быстро появляются дубликаты в Интернете, но есть также дубликаты, которые нелегко найти, и часто могут помочь визуальные указания.

4) Через несколько минут я найду слабые и сильные стороны на анализируемом сайте. Каковы лучшие сайты ссылок? На какие страницы сложнее всего ссылаться? Где потенциал для повышения скорости Интернета? Можно ли попасть на страницу B со страницы A? Если да, сколько кликов? Чтобы ответить на эти вопросы, я бы либо усердно «кликал» по сети, либо охотился за таблицами. Я буду графически отображать их с помощью правильного инструмента через несколько секунд.

5) Это возможность сделать что-то другое, лучше и участвовать в инновациях в этой области. Анализ и управление внутренними ссылками в Интернете, на мой взгляд, является одной из наиболее забытых тактик построения ссылок, так как они верят в SEO. И все же внутренние связи являются одними из самых надежных и наиболее влиятельных переменных в воображаемом уравнении связывания.

6) Визуализация - это способ объяснить довольно неуклюжую «табличную» тему людям в управлении, которые ничего не знают об отрасли и высмеивают ее для нас.

Классическое линкбилдинг и «развертывание» ссылок, я думаю, устарело. В качестве связующего звена мы сегодня строим отношения, помогаем готовить контент-стратегии и анализировать конкуренцию. В дополнение ко всему этому я решил разработать концепцию построения ссылок на основе данных . Построение ссылок на основе инструментов и методов анализа данных. Мало кто из нас их использует. В то же время они предлагают большой потенциал и потенциал. Я представлю один такой инструмент в этой статье.

Полезная информация и ссылки

Если вы также хотите попробовать процедуру, описанную в этой статье, вам понадобятся две программы. Первое - это программное обеспечение Xenu Link Sleuth для сканирования. Я думаю, что нет необходимости представлять его каким-либо образом, потому что все линкбилеры и специалисты по SEO должны быть знакомы с ним.

Скачать Xenu: http://home.snafu.de/tilman/xenulink.html

Нет действительно подходящей альтернативы для процедуры в этой статье. Это, конечно, не SEO Toolkit от Microsoft. Популярная Screaming Frog со временем может стать хорошей заменой. Тем не менее, работа с Screaming Frog и Gephi на данный момент немного сложнее, и я расскажу об этой области в другой статье.

Второй - Gephi, который используется для анализа и моделирования различных типов графиков, сетей и сложных систем. Некоторые из вас могут работать с Gephi, но я полагаю, что большинство читателей не имеют опыта работы с этим инструментом.

Скачать Gephi: http://gephi.github.io/

Еще несколько подробностей, прежде чем мы начнем процесс визуализации. К сожалению, если у вас установлена ​​Java 8 на вашем компьютере, Gephi, к сожалению, не запустится и программа вылетит. Самый простой способ решить эту проблему - удалить Java 8 и установить Java 7. Кроме того, Ленка Кршова написала в своем блоге хорошую процедуру, чуть более сложную - Как запустить Gephi 0.8.2 в Windows 8.1 (64bit) ,

Gephi Рекомендую установить на английском, чешский перевод очень скудный!

Скачать Java 7: http://www.oracle.com/technetwork/java/javase/downloads/jre7-downloads-1880261.html

Выбор сайта, с которым вы хотите работать, также будет важен. Я лично рекомендую меньший сайт до 5000 URL. Gephi обрабатывает действительно большие наборы данных, но большинство компьютеров этого не делают. В общем, чем больше оперативной памяти, тем лучше для Gephi и Xen.

Ресурсы, используемые Gephi, можно увеличить, выполнив следующие инструкции: http://gephi.github.io/users/install/#memory , И последняя информация. Если вы используете более 1,5 ГБ памяти с Gephi, вам потребуется 64-битная версия Java.

Получение данных от Xen

Сначала вам нужно получить набор данных, который мы обрабатываем в Gephi. Для целей данной статьи я выбрал сайт dpmb.cz Транспортная компания Брно. Я думаю, что это послужит хорошим примером для модели. На самом деле, я едва мог найти лучший сайт. Ибо это было сделано, нежный ад , И считаю, что сайт действительно адский.

Я объявлю веб-страницу. В сети менее 1200 URL. После запуска я рекомендую сохранить обход для резервного копирования в файл в собственном формате .xen . А при сохранении в меню вы можете увидеть еще одну опцию - «Экспорт в файл GraphViz» . Это как раз следующий и последний шаг работы с Xen.

Найти соединения в таблице с тысячами строк не очень просто, быстро или эффективно

(Экспорт из Xen в GraphViz.)

Короткий поворот для заинтересованных. GraphViz - это название программного обеспечения для визуализации графиков с собственным форматом .gv . Однако программная среда и общий пользовательский опыт не подходят для обычных смертных. Определенно не подходит для визуализации профилей ссылок. Однако ради полноты я ссылаюсь на официальный сайт GraphViz ,

Настройки Gephi и файл импорта

После запуска Gephi в открывшемся окне выберите график «Новый проект -> Открыть файл» и выберите файл с расширением .gv, который вы экспортировали из Xen.

Откроется окно для настройки импорта выбранной записи. Со спокойным сердцем вы можете оставить все настройки по умолчанию и нажать «ОК» . Если вы действительно хотите, чтобы все было под контролем, я кратко и кратко опишу варианты.

Не бойтесь смешивать английский и странный чешский на этом скриншоте и некоторых других. Gephi автоматически установил этот замечательный пресет, и я не могу это исправить.

Gephi автоматически установил этот замечательный пресет, и я не могу это исправить

(Импорт записи Gephi.)

Тип диаграммы (1) должен быть «Направленный » . Это указывает на графики, для которых может быть указан узел по умолчанию (URL), а ребро (узел-узел) ориентировано от начального узла к конечному узлу. Вы можете представить это как стрелку из точки А в точку Б. Ссылка также работает. Это ведет от одной страницы к другой. Поэтому ориентированный граф.

«Auto-Customize» (2) оптимизирует макет графика, и я рекомендую оставить его отмеченным, но я никогда не видел каких-либо серьезных изменений в графах внутренних ссылок.

Проверка «Создать отсутствующие узлы» (3) снята. Однако, как и в предыдущем случае, я не заметил никаких изменений. Xen пропускает незавершенные или отсутствующие узлы и их края (404 Ошибки) при экспорте в GraphViz, и Gephi не имеет ссылок для создания отсутствующих узлов.

Алгоритмы модификации и размещения данных

Наконец-то мы дошли до той части, где начинается самое интересное. Хотя неприглядное серое скопление ребер и узлов, которые вы видите сейчас, выглядит не очень весело.

Хотя неприглядное серое скопление ребер и узлов, которые вы видите сейчас, выглядит не очень весело

(Базовый кластер узлов и ребер перед модификацией и макетом меню.)

От этого кластера нечего наблюдать. Поэтому сначала вы должны запустить алгоритм, который корректирует расположение узлов. Сначала мы пробуем Force Atlas (узлы отталкиваются, а ребра ведут себя как пружины, сближающие узлы). Из меню «Layout» в левой нижней части окна «Layout» выберите «Force Atlas» из выпадающего меню и нажмите кнопку «Run» . Нажмите «Стоп», когда останется только маленький узел без существенных изменений.

Если вы не заметили каких-либо изменений или узлы перемещаются слишком медленно, вы выбрали слишком большой набор данных, и я рекомендую выполнить новый обход для меньшего сайта.

Если вы не заметили каких-либо изменений или узлы перемещаются слишком медленно, вы выбрали слишком большой набор данных, и я рекомендую выполнить новый обход для меньшего сайта

(Слева - расположение Атласа Силы, справа - Фрухтерман Рейнгольд.)

С Force Atlas 2 вы получаете практически тот же результат, главное отличие в действии сил на узлы.

Последний алгоритм, который мы попробуем - это Fruchterman Reingold . Узлы графически разнесены на концентрические окружности на основе относительных расстояний взаимосвязанных узлов. Изменение, которое вы увидите в большинстве случаев, является более «косметическим». Основная структура обычно не сильно меняется. Как показано выше, оба графика имеют одинаковую структуру в центре графика.

На данный момент у нас уже есть небольшой обзор того, что происходит в Интернете. Они видят некоторые важные группы узлов, шаблонов и маргинальных файлов. Теперь посмотрим, что с этим можно сделать.

Основные функции и инструменты в Gephi

Gephi имеет много опций и функций. В этой главе мы рассмотрим только инструменты, расположенные по краям области графика, как часть центральной панели диаграммы .

График, который вы видите сейчас, больше похож на аналогичный график в предыдущей главе. У него меньше краевых узлов. Для лучшего обзора скриншотов я включил фильтрацию узлов. Эта функция будет показана в конце статьи, и вам пока не нужно беспокоиться об этом.

Эта функция будет показана в конце статьи, и вам пока не нужно беспокоиться об этом

Я не буду точно описывать все инструменты, просто быстрый выбор. Вверху слева по вертикали находятся функции выбора (отдельные узлы, множественный выбор, информация об узлах ...), три из которых интересны ниже. Внизу слева расположены инструменты сброса (центрирование графика, сброс цвета, сброс размера этикетки…). Нижняя панель содержит инструменты для отображения (скриншот, отображение меток, ребер…).

Нижняя панель содержит инструменты для отображения (скриншот, отображение меток, ребер…)

(Функция «Путь».)

Функция «путь», скрытая под значком самолета (1), позволяет мне выбрать две точки, чтобы увидеть, связаны ли они между собой, и найти кратчайший путь (красная линия на графике) между ними. Если вы хотите сделать график более четким, вы можете отобразить панель (2) с другим параметром отображения графического элемента. Вы можете изменять описательные размеры меток, отображать только выбранные метки, цвет рамки и многое другое.

(Функция «Тепловая карта».)

Функция, скрытая под значком концентрических окружностей (1), является тепловой картой, основанной на расстояниях / соединениях узлов. Выбранный узел по умолчанию имеет темно-красный цвет (дополнительно увеличенный и окрашенный), его ближайшие окрестности оранжевого цвета, более отдаленные узлы становятся все бледнее. Несвязанные узлы оставались серыми. Дополнительные опции для этой функции доступны на верхней панели (2) .

(Просмотр информации о выбранном узле.)

Последний очень полезный инструмент - курсор с вопросительным знаком (1), который отображает информацию о выбранном узле в левом верхнем углу экрана на новой панели (2) «Редактировать» .

Вы освоили фундамент! Итак, давайте посмотрим на более продвинутые и интересные функции.

Расширенные функции и фильтрация

На этом этапе мы подходим к наиболее важным функциональным из них, которые я считаю необходимыми и необходимыми для работы с внутренними наборами данных веб-ссылок.

На этом этапе мы подходим к наиболее важным функциональным из них, которые я считаю необходимыми и необходимыми для работы с внутренними наборами данных веб-ссылок

(Работа с узлами на основе выбранных параметров.)

В верхнем левом углу на панели «Рейтинг» (1) я выбираю вкладку «Узлы» (2) , селектор цвета (4), а в раскрывающемся меню (3) «Выберите параметр рейтинга», выбираю «СтепеньВ» ). В результате форма подобной тепловой карты выделит узлы, куда ведет большинство внутренних ссылок.

(На глубоких красных узлах ведёт большинство звеньев, наименее бежевых.)

Глубокие красные узлы в центре, вероятно, являются основной структурой сайта. В то же время эти узлы должны быть одной из самых дополнительных ссылок. Мы покажем это на следующем шаге, используя размер узла.

(Из основных узлов, большинство других ссылок, самые маленькие.)

В верхнем левом углу панели «Рейтинг» я выбираю вкладку «Узлы » , селектор размера (1) и выбираю (2) «Степень» в раскрывающемся меню «Выбор параметра рейтинга » . Это увеличит количество узлов, ведущих большинство внутренних ссылок.

На данный момент я вижу, что где-то есть проблема. Хотя центральная структура является наиболее упоминаемой, она почти никогда ни на что не ссылается. И три ветви, истекающие из этого, слишком поразительно похожи. Это обычно указывает на дубликаты. Я отменю фильтрацию краевого узла, чтобы увидеть все (см. Упоминание о фильтрации в начале этой главы). И я сосредоточусь на других подобных кластерах.

И я сосредоточусь на других подобных кластерах

(Подсветка, вероятно, дублирует.)

Довольно быстро можно найти три узла, по одному в каждом из трех больших кластеров, из которых осуществляется одинаковая структура. Я буду окрашивать узлы отдельно и отмечать их зеленым цветом. Затем выделите отображение метки, и благодаря отображаемому URL я уже знаю, что это действительно дубликаты.

Я специально выбрал сайт DPMB по двум причинам. Во-первых, у него есть дубликаты. А во-вторых, у него намного больше дубликатов. Обязательно напишите в комментариях, если сможете их найти! И кроме того, я люблю DPMB, но, может быть, в другой раз. Вернуться к дубликатам.

То, что вы видите на графике (3 повторяющихся раздела), является только внутренне связанными страницами. Другие типы дублирующих URL, но они не связаны между собой. Они не видны на графике и, скорее всего, могут быть найдены только вручную в Интернете. Кроме того, на графике не показаны языковые мутации, которые загружаются через JavaScript. Как я писал в начале, веб из ада.

Вы освоили самую важную часть! Мы приближаемся к финалу и ждем фильтрации.

Фильтрация и статистика

В последней главе я упоминал фильтрацию дважды. Сейчас я покажу вам, наряду с другими функциями Gephi. Это самая сложная часть статьи и прогресс в Gephi. Если вы еще не получили много, я рекомендую пропустить эту главу и вернуться немного позже, когда вы поймете основные и немного продвинутые функции Gephi.

Если вы еще не получили много, я рекомендую пропустить эту главу и вернуться немного позже, когда вы поймете основные и немного продвинутые функции Gephi

(Статистика модульности.)

В дальнем правом углу экрана находится панель «Статистика» (1) . Выберите (2) «Модульность» из меню и нажмите «Выполнить» . После вычисления Gephi (модульность является мерой структуры графа или сети, которая измеряет их силу и разнообразие), они перемещаются в левую часть экрана. Непосредственно к панели (3-4) «Секция» и «Узлы» (не путайте с практически одинаковой панелью «Рейтинг» !). В раскрывающемся меню, которое было полностью пустым до расчета модульности, я выберу новую опцию (5) «Класс модульности» . Отображает модульные разделы в Интернете и их процент. Нажмите (6) «Выполнить», и все узлы будут окрашены в соответствии с тем, к какому разделу они принадлежат. Подходит для различения различных разделов в Интернете.

В меню «Статистика» есть несколько других опций. Например, «Средняя длина пути» - это интересная информация, которая может многое рассказать о том, насколько сложной может быть навигация на вашем сайте.

И мы идем на обещанную фильтрацию.

(Отфильтруйте узлы на основе исходящих ссылок.)

Фильтрацию можно найти на экране справа под вкладкой (1) «Фильтрация» . Я выбираю папку (2) «Топология» и фильтр (3) «Степень снаружи» . Перетащите фильтр на нижнюю панель (5) . Включите (4) «Фильтр» . И с помощью ползунка на панели (5) я выбираю скорость фильтрации. На данный момент я отфильтровал узлы / URL-адреса, с которых мало ссылок. Благодаря этому я избавился от внешних исходящих ссылок, файлов CSS, изображений и глубоко встроенных страниц. Кроме того, практически вся центральная структура, которую я считал главной и самой важной, исчезла.

Фильтров много и их можно комбинировать по-разному. Лично я не считаю их особенно важными для небольших сайтов и не пользуюсь ими. Но особенно для более сложных веб-сайтов, они определенно могут пригодиться, и вы не можете обойтись без них.

Поздравляю, вам удалось дойти до конца практической части! Я покажу вам визуализацию двух других сайтов, которые мне кажутся интересными.

Примеры других эталонных визуализаций

Возможно, не всегда легко правильно интерпретировать визуализацию внутренней связи, поэтому в этой главе я представлю два интересных примера, которые я нашел.

Спам-профиль

Спам-профиль

(Сравнение основной структуры внутренних ссылок и внешних исходящих ссылок.)

Графики, которые вы видите, взяты из небольшого магазина. Он был смоделирован с использованием алгоритма Фрухтермана Рейнгольда и окрашен на основе модульности. График слева фильтруется по внутренним линиям. Центр является основной структурой сайта (домашняя страница и основные категории интернет-магазина). Затем разноцветные ветви углубляются в отдельные категории интернет-магазина. Рекомендую заметить дублирование этих веток. Это предполагает дублирование. В этом случае внутренне связанные варианты URL с косой чертой в конце и без косой черты. Также центральная часть (узлы в двух оттенках зеленого в середине) удваивается.

Параметр расширенного графика (справа) показывает другие узлы по краям. В этом случае несколько продуктов (почти следов) и невероятное количество внешних исходящих ссылок. Сеть возникла в то время, когда обмен ссылками практиковался очень широко. Обычный интернет-магазин определенно не должен ссылаться на столько внешних сайтов.

Плохо связанный сайт

(Сравнение слева / снизу слева. Цвет кластера справа по модульности.)

На картинке вы видите информационный сайт. Снова визуализируется с использованием алгоритма Фрухтермана Рейнгольда. Самая большая проблема - это отсутствие внутренних ссылок.

Сосредоточьте свое внимание на центре графика слева, где расположены насыщенные красные узлы - боковые ссылки. Размер узла указывает количество исходящих ссылок. Интенсивность цвета количества входящих ссылок. Малые узлы - это социальные сети, CSS, изображения и измерительные коды, которые указывают вне основного домена. Большие узлы - это 3 основные категории / страницы сайта. Но ни один узел не выглядит и не ведет себя как домашняя страница. Это потому, что на сайте нет домашней страницы.

Немного лучше увидеть его на частично отфильтрованном графике справа, где показаны 3 почти отдельных и минимально управляемых раздела сети. Раздел отличается количеством другого связанного контента. Сильнейшим по содержанию является синий раздел.

В заключение

Примеры в этой статье - это только начало. Я намеренно опустил и не описал некоторые особенности, которые излишне отвлекали бы от земли. Gephi - очень сложный и сложный инструмент для создания чудес. Ограничения - это только ваша приверженность, креативность и, к сожалению, вычислительная мощность компьютера, на котором вы работаете. Особенно последний момент заключается в том, что Gephi не может быть очень хорошо использован для крупных сайтов (10 000 или более URL).

Если вы решите сделать фундаментальный шаг в направлении построения ссылок на основе данных , вы точно не пожалеете об этом. Обогатите свою работу чем-то необычным. Например, в некоторых случаях вы можете попрощаться с таблицами и заменить их ссылочными структурами. Вы придаете своей работе дополнительную ценность. И вы будете знать кое-что, что очень мало людей делают до сих пор Созданные вами отчеты будут сексуальными. Я верю, что они будут впечатлять и привлекать не только клиентов, но и вашего босса.

Предполагая, что вы заинтересованы в работе с Gephi, я рекомендую попробовать проанализировать другие сайты. Проверьте все функции и фильтрацию последовательно и систематически, чтобы увидеть, как они работают. Ищите повторяющиеся паттерны и аномалии в визуализациях. Я, конечно, могу рекомендовать вам сначала просмотреть проанализированный веб-сайт, чтобы узнать, что искать в визуализации. Это ускорит вашу следующую работу.

Вы можете найти несколько видео на YouTube для работы с этим программным обеспечением. Просто посмотрите на мгновение. И если вы хотите больше работать с Gephi, я бы лично порекомендовал вам книгу Анализ и визуализация сетевого графика с помощью Gephi ,

Я надеюсь, что вы найдете статью интересной, и я с нетерпением жду ваших вопросов и комментариев. Я буду рад ответить и, возможно, оказать помощь.

Каковы лучшие сайты ссылок?
На какие страницы сложнее всего ссылаться?
Где потенциал для повышения скорости Интернета?
Можно ли попасть на страницу B со страницы A?
Если да, сколько кликов?