Google постоянно совершенствует свои алгоритмы и иногда использует такие подходы, о которых можно было лишь догадываться. Свои разработки Google патентует, поэтому, анализируя опубликованные патенты, можно узнать больше о том, как все устроено на той стороне. Конечно же, не все разработки внедряются полностью или сразу, но оптимизаторам будет полезно с ними ознакомиться. Часть из описанных ниже патентов были рассмотрены на GURUCONF в прошлом году.

Итак, что же интересного можно узнать, изучая патенты гугла?

1. Семантическая близость слов важнее визуальной

Авторы: Harik; Georges R. (Mountain View, CA), Henzinger; Monika H. (Lausanne, CH)
Владелец патента: Google Inc. (Mountain View, CA)
Номер заявки: 10/813,573
Подано: March 31, 2004
Опубликовано: May 11, 2010

Название: Ранжирование документов на основе семантической близости между терминами в документе
(англ: Document ranking based on semantic distance between terms in a document)

Указываются техники, обнаруживающие неявно определенную структуру в документе, например, неявную структуру списков в HTML документе. В расчетах, наряду с расстоянием между терминами может использовать семантическая структура. Значения расстояния может использоваться, например, при рассчете ранжирующих коэффициентов, указывающих уровень релевантности документа поисковому запросу.

Из этого патента мы узнаем, что Google может сам размечать документы. Например, если для списков не указаны HTML-теги <li>, то они могут создаваться на основе других структур.

  • Списки могут создаваться таблицами <table>, <tr>
  • Могут создаваться блоковыми элементами <div>
  • Тегами параграфа <p>
  • Просто с помощью разделителей строк <br>

Заголовки могут идентифицироваться не только из элементов <h1>, <h2> и т.д., но также из отдельных строк, которые выглядят как заголовки (название таблиц, изображений, выделение коротких предложений в <strong> и пр).

Пример неявного списка

В примере выше, Google воспримет этот кусок кода как неявный список с заголовком "Saturn Facts" и элементами, отделенными тегом BR.

Для списков пересчитывается близость между терминами, учитывая семантическую близость. Другими словами, заголовок одинаково близок к элементам списка, но каждый элемент списка находится далеко друг от друга, несмотря на возможную визуальную близость в одно слово.

Семантическая близость в списках

Приводится пример списка, где каждый элемент одинаково удален от заголовка. Слово "Объем" касается "Сатурна", несмотря на то, что рядом с ним нет упоминания Сатурна. А вот слова "Дни" и "Вращение" будут сильно удалены друг от друга, несмотря на их непосредственную близость в коде. Расстояние между словами дальше учитывается в блоке, отвечающим за определение релевантности документа запросу.

2. Богатые семантикой страницы имеют дополнительный бонус

Авторы: Jain; Sharad (Bangalore, IN)
Владелец патента: Google Inc. (Mountain View, CA)
Номер заявки: 13/174,224
Подано: June 30, 2011
Опубликовано: November 27, 2012

Название: Ранжирование документов на основе взаимосвязей между словами
(англ: Document ranking using word relationships)

Из начального множества документов определяются локальные связи между парами терминов в каждом документе. На основе связей между локальными терминами определяются связи между документами. Далее определяется соответствующий коэффициент для каждого документа в множестве, основанный на связи между документами.

Как работает система, учитывающая связи между документами

В патенте описывается использование семантической связи между документами вместо ссылочной, и расчет весов по типу ссылочных, которые могут в дальнейшем влиять на рейтинг документа.

Этот подход используется для различных целей:

  • Поиск связей между докуменатами, между которыми не было ссылок.
  • Поиск запросов, отражающих навигационные связи в корпусе документов.
  • Отображение документов в топе, которые максимально разносторонне описывают тему, если задан общий запрос.

На первом этапе определяется начальное множество документов, обычно это выборка релевантных запросу документов. На втором этапе анализируются локальные связи и их веса между терминами в каждом документе. Далее определяются глобальные связи между терминами разных документов. И на основе глобальных связей между терминами определяются связи между документами. Веса связей определяются аналогично ссылочным алгоритмам, в ряде имплементаций используется обычный PageRank.

Получается, что чем богаче семантика документа, тем с большим количеством других документов он связан, и тем больше будет его вес, который объединяется с другими весами расчета релевантности и может влиять на рейтинг.

3. Вес ссылок зависит от вероятности перехода по ним

Авторы: Dean; Jeffrey A. (Palo Alto, CA), Anderson; Corin (Mountain View, CA), Battle; Alexis (Redwood City, CA)
Владелец патента: Google Inc. (Mountain View, CA)
Номер заявки: 10/869,057
Подано: June 17, 2004
Опубликовано: May 11, 2010

Название: Ранжирование документов на основе пользовательского поведения и/или других данных
(Ranking documents based on user behavior and/or feature data)

Система генерирует модель, основанную на данных, относящихся к различным особенностям ссылки ссылающегося документа и данных о пользовательском поведении, относящихся к навигационным действиям, ассоциированных с ссылкой. Система также назначает рейтинг документа на основе модели.

Судя по описанию в патенте, вес ссылки зависит от вероятности перехода по этой ссылке. Самые видные и кликабельные будут работать лучше, чем незаметные.

Какие характеристики ссылок учитываются?

  • Размер и цвет/контрастность текста ссылки
  • Позиция в документе (списки, текст, до и после первого экрана 800х600, боковая панель, футер и т.д.)
  • Позиция в списке (если ссылка в списке)
  • Количество слов в анкоре, коммерческость анкора
  • Тип ссылки (текст, картинка), соотношение сторон для изображений
  • Слова, окружающие ссылку
  • Тип ссылки (внутренняя или внешняя)
  • Тематический кластер анкора

Учитываемые характеристики донора:

  • Количество ссылок
  • Присутствие слов в тексте и заголовках
  • Тематический кластер документа
  • Степень соответствия тематических кластеров донора и ссылки

Учитываемое поведение пользователей:

  • Клики по ссылкам, вводимые адреса, заполнения форм
  • Язык и интересы пользователя
  • Используемые ключевые слова
  • Частота клика по ссылке
  • Как часто ссылки не кликаются при выборе других
  • ...

Обратите внимание, что в этой модели нигде не упоминается про nofollow.

4. Для попадания в блок ответов используйте natural language answer

Владелец патента: GOOGLE INC.
Авторы: SHMIEL, Tomer; KEYSAR, Dvir; EREZ, Yonatan;
Номер заявки: PCT/US2014/039354
Подано: 23.05.2014
Опубликовано: 11.12.2014

Название: Результаты поиска по интентным запросам на естественном языке
(англ: NATURAL LANGUAGE SEARCH RESULTS FOR INTENT QUERIES)

Системы и методы, обеспечивающие результаты поиска на естественном языке для явно интентных запросов. Для предоставления ответов на естественном языке система может сканировать документы с авторитетных источников для генерации по крайней мере одной пары заголовка и текста под ним. Система может сопоставлять тему и категорию вопроса с парой заголовок-текст и сохранять эту пару в базе данных. Система определяет, что запрос совпадает с темой и категорией вопроса и предоставляет пару заголовок-текст как результаты поиска по запросу на естественном языке. В некоторых случаях текст может быть списком.

Как работает модуль ответов на естественные вопросы

Патент описывает особенности работы featured сниппетов. Самые интересные факты:

  • Блок ответов показывается только по intent- и factual- queries.
  • Интентный запрос в данном случае это вопрос на естественном языке (практически, все голосовые запросы являются интентными).
  • Имеется ограниченный набор шаблонов для блоков ответов. А также черный список запросов (формируемый модераторами, но пока не для всех языков), по которым никогда не покажется блок ответа.
  • Основной ключ запроса должен входить в заголовок (блока).
  • Для тематической классификации используется анализ слов в релевантных пассажах (мы это называем LSI-фразами).
  • Для ряда тематик в блок ответов попадают списки.
  • Ответ выбирается только из natural language.

Пример блока ответа в Google

Сравните для нескольких запросов (например, на скриншоте выше), какие из ответов являются естественными (используют natural language). Смотрите также полезное видео по теме: Как попасть в блоки ответов.

5. Нужно ускорять свои сайты

Авторы: Jain; Arvind (Los Altos, CA), Ramachandran; Sreeram (Cupertino, CA)
Владелец патента: Google Inc. (Mountain View, CA)
Номер заявки: 12/945,769
Подано: November 12, 2010
Опубликовано: February 4, 2014

Название: Использование времени загрузки ресурса для ранжирования в результатах поиска
(англ: Using resource load times in ranking search results)

Время загрузки онлайн-ресурса может основываться на статистическом измерении времени загрузки для ряда разных типов устройств, на которых страница или ресурс могут просматриваться.

Быстрые ресурсы, все-таки, могут ранжироваться лучше. В патенте выделяется несколько факторов, влияющих на загрузку сайта в браузере:

  • Размер ресурса
  • Количество изображений
  • Качество сервера
  • Влияние скорости сети

Когда Google измеряет скорость загрузки для сравнения разных страниц ресурса, он может ограничиваться устройствами, которые находятся в той же стране, используют одинаковый юзер-агент (браузер). Данные могут собираться из браузера Chrome, с плагинов или программами мониторинга.

В патенте сказано, что если для одного и того же запроса в результатах поиска показаны две страницы, и одна из них загружается относительно быстрее, то быстрая страница может быть поднята в результатах. При этом мобильные устройства могут не учитываться из-за больших задержек запросов. Также, в некоторых случаях скорость может не учитываться, так как у системы недостаточно данных по статистике загрузок с разных устройств.

В целом, ускорение сайта может помочь даже в случае стагнации по высокочастотным запросам.

6. Рейтинг документа меняется не сразу после внесения изменений

Авторы: Koningstein; Ross (Menlo Park, CA)
Владелец патента: Google Inc. (Mountain View, CA)
Номер заявки: 12/652,563
Подано: January 5, 2010
Опубликовано: August 14, 2012

Название: Ранжирование документов
(англ: Ranking Documents)

Система определяет начальный рейтинг, ассоциированный с документом и далее определяет конечный рейтинг, который отличается от первого. Система также меняет ранк перехода документа (в течении изменения рейтинга от начального к конечному), который основан на функции перехода, меняющая ранк перехода все время, даже без изменений в сигналах ранжирования документа.

Один из интересных патентов, объясняющих изменение рейтинга документа без внесения каких-либо правок, а также плавное изменение рейтинга даже в случае очень активных работ по внешней оптимизации.

При появлении новых сигналов для документа (тексты, ссылки и пр) модуль фиксирует старый ранк и вычисляет целевой рейтинг (какой бы он был при полной работе сигналов). Далее, для документа выбирается функция перехода и в зависимости от нее меняется ранк документа.

Имеются различные функции перехода, например, положительная, где целевой ранк достигается примерно через 70 дней после внесения изменений.

Функция перехода с задержкой по времени

В случае резкого изменения рейтинга документу может присваиваться отрицательная функция перехода, которая сначала дает 20 дней отрицательного рейтинга, а затем по-тихоньку растет к целевому.

Отрицательная функция перехода

Таким образом, Google борется со спамными техниками, вводя оптимизаторов в заблуждение. Оптимизатор получает совсем не тот эффект, который ожидался (например, от покупки ссылок). Также, эта методика позволяет определять документы и сайты, продвигающиеся спамом.

Особенности функции перехода:

  • Выбирается из множества (с задержкой по времени, отрицательная, случайная).
  • Модификация ранка на 10% включит отрицательную функцию перехода.
  • Идентификация спама происходит во время действия функции перехода (как меняются сигналы во время роста рейтинга).
  • Изменение сигналов выше порогового значения приводит к фильтрации спама (полном обнулении рейтинга).
  • Функция перехода может устанавливаться не только для документов, но и для всего сервера.

Какие спам-техники в основном анализируются?

  • Переспам текста ключевыми словами.
  • Невидимый текст или мелкий шрифт.
  • Редиректы (подмена контента).
  • Переспам мета-тегов.
  • Манипуляции с ссылками.

Если вы хотите поискать патенты самостоятельно, используйте специальные поисковики patents.google.compatents.ic.gc.ca или другие. Пишите в комментариях, о каких патентах вы не знали и что планируете изменить у себя в стратегиях!