Фішки з патентів Google, про які ви могли не знати

1. Семантична близькість слів важливіше візуальної
2. Багаті семантикою сторінки мають додатковий бонус
3. Вага посилань залежить від ймовірності переходу по ним
4. Для попадання в блок відповідей використовуйте natural language answer
5. Потрібно прискорювати свої сайти
6. Рейтинг документа змінюється не відразу після внесення змін

Google постійно вдосконалює свої алгоритми і іноді використовує такі підходи, про які можна було лише здогадуватися. Свої розробки Google патентує, тому, аналізуючи опубліковані патенти, можна дізнатися більше про те, як все влаштовано по той бік. Звичайно ж, не всі розробки впроваджуються повністю або відразу, але оптимізаторів буде корисно з ними ознайомитися. Частина з описаних нижче патентів були розглянуті на GURUCONF в минулому році.

Отже, що ж цікавого можна дізнатися, вивчаючи патенти гугла?

1. Семантична близькість слів важливіше візуальної

Автори: Harik; Georges R. (Mountain View, CA), Henzinger; Monika H. (Lausanne, CH)
Власник патенту: Google Inc. (Mountain View, CA)
Номер заявки: 10 / 813,573
Подано: March 31, 2004
Опубліковано: May 11 2010

Назва: Ранжування документів на основі семантичної близькості між термінами в документі
(англ: Document ranking based on semantic distance between terms in a document )

Вказуються техніки, які виявляють неявно певну структуру в документі, наприклад, неявну структуру списків в HTML документі. У розрахунках, поряд з відстанню між термінами може використовувати семантичну структуру. Значення відстані може використовуватися, наприклад, при розрахунку ранжирують коефіцієнтів, що вказують рівень релевантності документа пошуковому запиту.

З цього патенту ми дізнаємося, що Google може сам розмічати документи. Наприклад, якщо для списків не вказані HTML-теги <li>, то вони можуть створюватися на основі інших структур.

Списки можуть створюватися таблицями <table>, <tr>
Можуть створюватися блоковими елементами <div>
Тегами параграфа <p>
Просто за допомогою роздільників рядків <br>

Заголовки можуть ідентифікуватися як з елементів <h1>, <h2> і т.д., але також з окремих рядків, які виглядають як заголовки (назва таблиць, зображень, виділення коротких пропозицій в <strong> та ін).

В наведеному вище прикладі, Google сприйме цей шматок коду як неявний список з заголовком "Saturn Facts" і елементами, відокремленими тегом BR.

Для списків перераховується близькість між термінами, враховуючи семантичну близькість. Іншими словами, заголовок однаково близький до елементів списку, але кожен елемент списку знаходиться далеко один від одного, не дивлячись на можливу візуальну близькість в одне слово.

Іншими словами, заголовок однаково близький до елементів списку, але кожен елемент списку знаходиться далеко один від одного, не дивлячись на можливу візуальну близькість в одне слово

Наводиться приклад списку, де кожен елемент однаково віддалений від заголовка. Слово "Обсяг" стосується "Сатурна", незважаючи на те, що поруч з ним немає згадки Сатурна. А ось слова "Дні" і "Обертання" будуть сильно віддалені один від одного, не дивлячись на їх безпосередню близькість в коді. Відстань між словами далі враховується в блоці, що відповідає за визначення релевантності документа запиту.

2. Багаті семантикою сторінки мають додатковий бонус

Автори: Jain; Sharad (Bangalore, IN)
Власник патенту: Google Inc. (Mountain View, CA)
Номер заявки: 13 / 174,224
Подано: June 30, 2011
Опубліковано: November 27, 2012

Назва: Ранжування документів на основі взаємозв'язків між словами
(англ: Document ranking using word relationships)

З початкового безлічі документів визначаються локальні зв'язки між парами термінів в кожному документі. На основі зв'язків між локальними термінами визначаються зв'язку між документами. Далі визначається відповідний коефіцієнт для кожного документа в множині, заснований на зв'язку між документами.

У патенті описується використання семантичного зв'язку між документами замість посилальної, і розрахунок ваг за типом довідкових, які можуть в подальшому впливати на рейтинг документа.

Цей підхід використовується для різних цілей:

Пошук зв'язків між докуменатамі, між якими не було посилань.
Пошук запитів, що відображають навігаційні зв'язку в корпусі документів.
Відображення документів в топі, які максимально різнобічно описують тему, якщо заданий загальний запит.

На першому етапі визначається початкова множина документів, зазвичай це вибірка релевантних запиту документів. На другому етапі аналізуються локальні зв'язку та їх ваги між термінами в кожному документі. Далі визначаються глобальні зв'язки між термінами різних документів. І на основі глобальних зв'язків між термінами визначаються зв'язку між документами. Ваги зв'язків визначаються аналогічно посилальним алгоритмам, в ряді імплементацій використовується звичайний PageRank.

Виходить, що чим багатша семантика документа, тим з більшою кількістю інших документів він пов'язаний, і тим більше буде його вага, який об'єднується з іншими вагами розрахунку релевантності та може впливати на рейтинг.

3. Вага посилань залежить від ймовірності переходу по ним

Автори: Dean; Jeffrey A. (Palo Alto, CA), Anderson; Corin (Mountain View, CA), Battle; Alexis (Redwood City, CA)
Власник патенту: Google Inc. (Mountain View, CA)
Номер заявки: 10 / 869,057
Подано: June 17, 2004
Опубліковано: May 11 2010

Назва: Ранжування документів на основі призначеного для користувача поведінки і / або інших даних
(Ranking documents based on user behavior and / or feature data)

Система генерує модель, засновану на даних, що відносяться до різних особливостей посилання посилається документа і даних про призначеному для користувача поведінці, що відносяться до навігаційних дій, асоційованих з посиланням. Система також призначає рейтинг документа на основі моделі.

Судячи з опису в патенті, вага посилання залежить від ймовірності переходу за цим посиланням. Найвидніші і клікабельні працюватимуть краще, ніж непомітні.

Які характеристики посилань враховуються?

Розмір і колір / контрастність тексту посилання
Позиція в документі (списки, текст, до і після першого екрану 800х600, бічна панель, футер і т.д.)
Позиція в списку (якщо посилання в списку)
Кількість слів в анкорі, комерційні анкора
Тип посилання (текст, картинка), співвідношення сторін для зображень
Слова, навколишні посилання
Тип посилання (внутрішня або зовнішня)
Тематичний кластер анкора

Враховуються характеристики донора:

кількість посилань
Присутність слів в тексті і заголовках
Тематичний кластер документа
Ступінь відповідності тематичних кластерів донора і посилання

Враховується поведінка користувачів:

Кліки по посиланнях, що вводяться адреси, заповнення форм
Мова і інтереси користувача
Використовувані ключові слова
Частота кліка по посиланню
Як часто посилання не клацають при виборі інших
...

Зверніть увагу, що в цій моделі ніде не згадується про nofollow.

4. Для попадання в блок відповідей використовуйте natural language answer

Власник патенту: GOOGLE INC.
Автори: SHMIEL, Tomer; KEYSAR, Dvir; EREZ, Yonatan;
Номер заявки: PCT / US2014 / 039354
Подано: 23.05.2014
Опубліковано: 11.12.2014

Назва: Результати пошуку по інтентним запитам на природній мові
(Англ: NATURAL LANGUAGE SEARCH RESULTS FOR INTENT QUERIES)

Системи і методи, що забезпечують результати пошуку на природній мові для явно інтентних запитів. Для надання відповідей на природній мові система може сканувати документи з авторитетних джерел для генерації принаймні однієї пари заголовка і тексту під ним. Система може зіставляти тему і категорію питання з парою заголовок-текст і зберігати цю пару в базі даних. Система визначає, що запит збігається з темою і категорією питання і надає пару заголовок-текст як результати пошуку за запитом на природній мові. У деяких випадках текст може бути списком.

Патент описує особливості роботи featured сніпетів. Найцікавіші факти:

Блок відповідей показується тільки по intent- і factual- queries.
Інтентний запит в даному випадку це питання на природній мові (практично, всі голосові запити є інтентнимі).
Є обмежений набір шаблонів для блоків відповідей. А також чорний список запитів (формований модераторами, але поки не для всіх мов), за якими ніколи не здасться блок відповіді.
Основний ключ запиту повинен входити в заголовок (блоку).
Для тематичної класифікації використовується аналіз слів в релевантних пасажах (ми це називаємо LSI-фразами).
Для ряду тематик в блок відповідей потрапляють списки.
Відповідь вибирається тільки з natural language.

Відповідь вибирається тільки з natural language

Порівняйте для кількох запитів (наприклад, на скріншоті вище), які з відповідей є природними (використовують natural language). Дивіться також корисне відео по темі: Як потрапити в блоки відповідей .

5. Потрібно прискорювати свої сайти

Автори: Jain; Arvind (Los Altos, CA), Ramachandran; Sreeram (Cupertino, CA)
Власник патенту: Google Inc. (Mountain View, CA)
Номер заявки: 12 / 945,769
Подано: November 12 2010
Опубліковано: February 4, 2014

Назва: Використання часу завантаження ресурсу для ранжирування в результатах пошуку
(Англ: Using resource load times in ranking search results)

Час завантаження онлайн-ресурсу може грунтуватися на статистичному вимірі часу завантаження для ряду різних типів пристроїв, на яких сторінка або ресурс можуть переглядатися.

Швидкі ресурси, все-таки, можуть ранжуватися краще. У патенті виділяється кілька факторів, що впливають на завантаження сайту в браузері:

Розмір ресурсу
кількість зображень
якість сервера
Вплив швидкості мережі

Коли Google вимірює швидкість завантаження для порівняння різних сторінок ресурсу, він може обмежуватися пристроями, які знаходяться в тій же країні, використовують однаковий юзер-агент (браузер). Дані можуть збиратися з браузера Chrome, з плагінів або програмами моніторингу.

У патенті сказано, що якщо для одного і того ж запиту в результатах пошуку показані дві сторінки, і одна з них завантажується щодо швидше, то швидка сторінка може бути піднята в результатах. При цьому мобільні пристрої можуть не враховуватися через великі затримок запитів. Також, в деяких випадках швидкість може не враховуватися, так як у системи недостатньо даних по статистиці завантажень з різних пристроїв.

В цілому, прискорення сайту може допомогти навіть у разі стагнації по високочастотним запитам.

6. Рейтинг документа змінюється не відразу після внесення змін

Автори: Koningstein; Ross (Menlo Park, CA)
Власник патенту: Google Inc. (Mountain View, CA)
Номер заявки: 12 / 652,563
Подано: January 5 2010
Опубліковано: August 14 березня 2012

Назва: ранжування документів
(англ: Ranking Documents)

Система визначає початковий рейтинг, асоційований з документом і далі визначає кінцевий рейтинг, який відрізняється від першого. Система також змінює ранк переходу документа (в перебігу зміни рейтингу від початкового до кінцевого), який заснований на функції переходу, яка змінює ранк переходу весь час, навіть без змін у сигналах ранжирування документа.

Один з цікавих патентів, що пояснюють зміну рейтингу документа без внесення будь-яких правок, а також плавну зміну рейтингу навіть в разі дуже активних робіт по зовнішній оптимізації.

При появі нових сигналів для документа (тексти, посилання та ін) модуль фіксує старий ранк і обчислює цільової рейтинг (який би він був при повній роботі сигналів). Далі, для документа вибирається функція переходу і в залежності від неї змінюється ранк документа.

Є різні функції переходу, наприклад, позитивна, де цільової ранк досягається приблизно через 70 днів після внесення змін.

Є різні функції переходу, наприклад, позитивна, де цільової ранк досягається приблизно через 70 днів після внесення змін

У разі різкої зміни рейтингу документу може присвоюватися негативна функція переходу, яка спочатку дає 20 днів негативного рейтингу, а потім по-тихоньку зростає до цільового.

Таким чином, Google бореться зі спамние техніками, вводячи оптимізаторів в оману. Оптимізатор отримує зовсім не той ефект, який очікувався (наприклад, від покупки посилань). Також, ця методика дозволяє визначати документи і сайти, що просуваються спамом.

Особливості функції переходу:

Вибирається з безлічі (з затримкою за часом, негативна, випадкова).
Модифікація ранка на 10% включить негативну функцію переходу.
Ідентифікація спаму відбувається під час дії функції переходу (як змінюються сигнали під час зростання рейтингу).
Зміна сигналів вище порогового значення призводить до фільтрації спаму (повному обнулення рейтингу).
Функція переходу може встановлюватися не тільки для документів, але і для всього сервера.

Які спам-техніки в основному аналізуються?

Переспа тексту ключовими словами.
Невидимий текст або дрібний шрифт.
Редіректи (підміна контенту).
Переспа мета-тегів.
Маніпуляції з посиланнями.

Якщо ви хочете пошукати патенти самостійно, використовуйте спеціальні пошукові системи patents.google.com , patents.ic.gc.ca або інші. Пишіть в коментарях, про яких патентах ви не знали і що плануєте змінити у себе в стратегіях!

Отже, що ж цікавого можна дізнатися, вивчаючи патенти гугла?
Які характеристики посилань враховуються?
Які спам-техніки в основному аналізуються?