Фишки из патентов Google, о которых вы могли не знать
Google постоянно совершенствует свои алгоритмы и иногда использует такие подходы, о которых можно было лишь догадываться. Свои разработки Google патентует, поэтому, анализируя опубликованные патенты, можно узнать больше о том, как все устроено на той стороне. Конечно же, не все разработки внедряются полностью или сразу, но оптимизаторам будет полезно с ними ознакомиться. Часть из описанных ниже патентов были рассмотрены на GURUCONF в прошлом году.
Итак, что же интересного можно узнать, изучая патенты гугла?
1. Семантическая близость слов важнее визуальной
Авторы: Harik; Georges R. (Mountain View, CA), Henzinger; Monika H. (Lausanne, CH)
Владелец патента: Google Inc. (Mountain View, CA)
Номер заявки: 10/813,573
Подано: March 31, 2004
Опубликовано: May 11, 2010
Название: Ранжирование документов на основе семантической близости между терминами в документе
(англ: Document ranking based on semantic distance between terms in a document)
Указываются техники, обнаруживающие неявно определенную структуру в документе, например, неявную структуру списков в HTML документе. В расчетах, наряду с расстоянием между терминами может использовать семантическая структура. Значения расстояния может использоваться, например, при рассчете ранжирующих коэффициентов, указывающих уровень релевантности документа поисковому запросу.
Из этого патента мы узнаем, что Google может сам размечать документы. Например, если для списков не указаны HTML-теги <li>, то они могут создаваться на основе других структур.
- Списки могут создаваться таблицами <table>, <tr>
- Могут создаваться блоковыми элементами <div>
- Тегами параграфа <p>
- Просто с помощью разделителей строк <br>
Заголовки могут идентифицироваться не только из элементов <h1>, <h2> и т.д., но также из отдельных строк, которые выглядят как заголовки (название таблиц, изображений, выделение коротких предложений в <strong> и пр).
В примере выше, Google воспримет этот кусок кода как неявный список с заголовком "Saturn Facts" и элементами, отделенными тегом BR.
Для списков пересчитывается близость между терминами, учитывая семантическую близость. Другими словами, заголовок одинаково близок к элементам списка, но каждый элемент списка находится далеко друг от друга, несмотря на возможную визуальную близость в одно слово.
Приводится пример списка, где каждый элемент одинаково удален от заголовка. Слово "Объем" касается "Сатурна", несмотря на то, что рядом с ним нет упоминания Сатурна. А вот слова "Дни" и "Вращение" будут сильно удалены друг от друга, несмотря на их непосредственную близость в коде. Расстояние между словами дальше учитывается в блоке, отвечающим за определение релевантности документа запросу.
2. Богатые семантикой страницы имеют дополнительный бонус
Авторы: Jain; Sharad (Bangalore, IN)
Владелец патента: Google Inc. (Mountain View, CA)
Номер заявки: 13/174,224
Подано: June 30, 2011
Опубликовано: November 27, 2012
Название: Ранжирование документов на основе взаимосвязей между словами
(англ: Document ranking using word relationships)
Из начального множества документов определяются локальные связи между парами терминов в каждом документе. На основе связей между локальными терминами определяются связи между документами. Далее определяется соответствующий коэффициент для каждого документа в множестве, основанный на связи между документами.
В патенте описывается использование семантической связи между документами вместо ссылочной, и расчет весов по типу ссылочных, которые могут в дальнейшем влиять на рейтинг документа.
Этот подход используется для различных целей:
- Поиск связей между докуменатами, между которыми не было ссылок.
- Поиск запросов, отражающих навигационные связи в корпусе документов.
- Отображение документов в топе, которые максимально разносторонне описывают тему, если задан общий запрос.
На первом этапе определяется начальное множество документов, обычно это выборка релевантных запросу документов. На втором этапе анализируются локальные связи и их веса между терминами в каждом документе. Далее определяются глобальные связи между терминами разных документов. И на основе глобальных связей между терминами определяются связи между документами. Веса связей определяются аналогично ссылочным алгоритмам, в ряде имплементаций используется обычный PageRank.
Получается, что чем богаче семантика документа, тем с большим количеством других документов он связан, и тем больше будет его вес, который объединяется с другими весами расчета релевантности и может влиять на рейтинг.
3. Вес ссылок зависит от вероятности перехода по ним
Авторы: Dean; Jeffrey A. (Palo Alto, CA), Anderson; Corin (Mountain View, CA), Battle; Alexis (Redwood City, CA)
Владелец патента: Google Inc. (Mountain View, CA)
Номер заявки: 10/869,057
Подано: June 17, 2004
Опубликовано: May 11, 2010
Название: Ранжирование документов на основе пользовательского поведения и/или других данных
(Ranking documents based on user behavior and/or feature data)
Система генерирует модель, основанную на данных, относящихся к различным особенностям ссылки ссылающегося документа и данных о пользовательском поведении, относящихся к навигационным действиям, ассоциированных с ссылкой. Система также назначает рейтинг документа на основе модели.
Судя по описанию в патенте, вес ссылки зависит от вероятности перехода по этой ссылке. Самые видные и кликабельные будут работать лучше, чем незаметные.
Какие характеристики ссылок учитываются?
- Размер и цвет/контрастность текста ссылки
- Позиция в документе (списки, текст, до и после первого экрана 800х600, боковая панель, футер и т.д.)
- Позиция в списке (если ссылка в списке)
- Количество слов в анкоре, коммерческость анкора
- Тип ссылки (текст, картинка), соотношение сторон для изображений
- Слова, окружающие ссылку
- Тип ссылки (внутренняя или внешняя)
- Тематический кластер анкора
Учитываемые характеристики донора:
- Количество ссылок
- Присутствие слов в тексте и заголовках
- Тематический кластер документа
- Степень соответствия тематических кластеров донора и ссылки
Учитываемое поведение пользователей:
- Клики по ссылкам, вводимые адреса, заполнения форм
- Язык и интересы пользователя
- Используемые ключевые слова
- Частота клика по ссылке
- Как часто ссылки не кликаются при выборе других
- ...
Обратите внимание, что в этой модели нигде не упоминается про nofollow.
4. Для попадания в блок ответов используйте natural language answer
Владелец патента: GOOGLE INC.
Авторы: SHMIEL, Tomer; KEYSAR, Dvir; EREZ, Yonatan;
Номер заявки: PCT/US2014/039354
Подано: 23.05.2014
Опубликовано: 11.12.2014
Название: Результаты поиска по интентным запросам на естественном языке
(англ: NATURAL LANGUAGE SEARCH RESULTS FOR INTENT QUERIES)
Системы и методы, обеспечивающие результаты поиска на естественном языке для явно интентных запросов. Для предоставления ответов на естественном языке система может сканировать документы с авторитетных источников для генерации по крайней мере одной пары заголовка и текста под ним. Система может сопоставлять тему и категорию вопроса с парой заголовок-текст и сохранять эту пару в базе данных. Система определяет, что запрос совпадает с темой и категорией вопроса и предоставляет пару заголовок-текст как результаты поиска по запросу на естественном языке. В некоторых случаях текст может быть списком.
Патент описывает особенности работы featured сниппетов. Самые интересные факты:
- Блок ответов показывается только по intent- и factual- queries.
- Интентный запрос в данном случае это вопрос на естественном языке (практически, все голосовые запросы являются интентными).
- Имеется ограниченный набор шаблонов для блоков ответов. А также черный список запросов (формируемый модераторами, но пока не для всех языков), по которым никогда не покажется блок ответа.
- Основной ключ запроса должен входить в заголовок (блока).
- Для тематической классификации используется анализ слов в релевантных пассажах (мы это называем LSI-фразами).
- Для ряда тематик в блок ответов попадают списки.
- Ответ выбирается только из natural language.
Сравните для нескольких запросов (например, на скриншоте выше), какие из ответов являются естественными (используют natural language). Смотрите также полезное видео по теме: Как попасть в блоки ответов.
5. Нужно ускорять свои сайты
Авторы: Jain; Arvind (Los Altos, CA), Ramachandran; Sreeram (Cupertino, CA)
Владелец патента: Google Inc. (Mountain View, CA)
Номер заявки: 12/945,769
Подано: November 12, 2010
Опубликовано: February 4, 2014
Название: Использование времени загрузки ресурса для ранжирования в результатах поиска
(англ: Using resource load times in ranking search results)
Время загрузки онлайн-ресурса может основываться на статистическом измерении времени загрузки для ряда разных типов устройств, на которых страница или ресурс могут просматриваться.
Быстрые ресурсы, все-таки, могут ранжироваться лучше. В патенте выделяется несколько факторов, влияющих на загрузку сайта в браузере:
- Размер ресурса
- Количество изображений
- Качество сервера
- Влияние скорости сети
Когда Google измеряет скорость загрузки для сравнения разных страниц ресурса, он может ограничиваться устройствами, которые находятся в той же стране, используют одинаковый юзер-агент (браузер). Данные могут собираться из браузера Chrome, с плагинов или программами мониторинга.
В патенте сказано, что если для одного и того же запроса в результатах поиска показаны две страницы, и одна из них загружается относительно быстрее, то быстрая страница может быть поднята в результатах. При этом мобильные устройства могут не учитываться из-за больших задержек запросов. Также, в некоторых случаях скорость может не учитываться, так как у системы недостаточно данных по статистике загрузок с разных устройств.
В целом, ускорение сайта может помочь даже в случае стагнации по высокочастотным запросам.
6. Рейтинг документа меняется не сразу после внесения изменений
Авторы: Koningstein; Ross (Menlo Park, CA)
Владелец патента: Google Inc. (Mountain View, CA)
Номер заявки: 12/652,563
Подано: January 5, 2010
Опубликовано: August 14, 2012
Название: Ранжирование документов
(англ: Ranking Documents)
Система определяет начальный рейтинг, ассоциированный с документом и далее определяет конечный рейтинг, который отличается от первого. Система также меняет ранк перехода документа (в течении изменения рейтинга от начального к конечному), который основан на функции перехода, меняющая ранк перехода все время, даже без изменений в сигналах ранжирования документа.
Один из интересных патентов, объясняющих изменение рейтинга документа без внесения каких-либо правок, а также плавное изменение рейтинга даже в случае очень активных работ по внешней оптимизации.
При появлении новых сигналов для документа (тексты, ссылки и пр) модуль фиксирует старый ранк и вычисляет целевой рейтинг (какой бы он был при полной работе сигналов). Далее, для документа выбирается функция перехода и в зависимости от нее меняется ранк документа.
Имеются различные функции перехода, например, положительная, где целевой ранк достигается примерно через 70 дней после внесения изменений.
В случае резкого изменения рейтинга документу может присваиваться отрицательная функция перехода, которая сначала дает 20 дней отрицательного рейтинга, а затем по-тихоньку растет к целевому.
Таким образом, Google борется со спамными техниками, вводя оптимизаторов в заблуждение. Оптимизатор получает совсем не тот эффект, который ожидался (например, от покупки ссылок). Также, эта методика позволяет определять документы и сайты, продвигающиеся спамом.
Особенности функции перехода:
- Выбирается из множества (с задержкой по времени, отрицательная, случайная).
- Модификация ранка на 10% включит отрицательную функцию перехода.
- Идентификация спама происходит во время действия функции перехода (как меняются сигналы во время роста рейтинга).
- Изменение сигналов выше порогового значения приводит к фильтрации спама (полном обнулении рейтинга).
- Функция перехода может устанавливаться не только для документов, но и для всего сервера.
Какие спам-техники в основном анализируются?
- Переспам текста ключевыми словами.
- Невидимый текст или мелкий шрифт.
- Редиректы (подмена контента).
- Переспам мета-тегов.
- Манипуляции с ссылками.
Если вы хотите поискать патенты самостоятельно, используйте специальные поисковики patents.google.com, patents.ic.gc.ca или другие. Пишите в комментариях, о каких патентах вы не знали и что планируете изменить у себя в стратегиях!
63 ответа (оставить свой)
Сергей, что имеется в виду под - Тематический кластер анкора?
Руслан, подразумевается тематика, определенная по короткому тексту ссылки.
То что надо. Получил, много ответов на важные вопросы! Спасибо
Alex, отлично! Рад, что материал оказался полезен.
Привет, Сергей
пишут банально ответом тут, после прочтения очередного полезного материала. Твою деятельность наблюдаю очень давно, ещё в 2010-2011 когда делался первый сайт по туризму, Крым, Лисья бухта, полагаю, это место очень знакомо..
Не хочу спамить на почту и т.д., пришлось написать сюда, знаю, это всё модерируется.
Не люблю подписки, выбираю именно тот контент, который сам нахожу, не люблю тех, кто много болтает, а толку нет, НО! подписался на твой телеграм и пока доволен! Не сеошник, но последние пол года стал им, для изучения этого детальнее, даже получается нормально зарабатывать, планирую контролировать самостоятельно свои ресурсы в продвижении, мне это ремесло надо только для этого
Вопрос вот в чём, иногда хочется задать вопрос, не смог зарегистрироваться на сайте, письма не приходят.
С уважением, Артур
kolbear@gmail.com
Как-то сложно это все)
Согласен, нужно вникать. Но оно того стоит.
Печально читать подобные комментарии от авторов якобы "SEO блогов".
Хотя, зайдя на блог, открыв пару статей, становится уже не так печально 🙂
seoonly.ru, Вы главное больше анкоров "SEO" вешайте на ссылки ведущие на главную страницу блога, с постов своих и тогда даже читать блоги, типа Сергея не нужно будет.
Удачных "продвижений" Вам и больше клиентов! Вам хорошо - деньги будут, а нам хороша - меньше конкурентов 🙂
=D молодые сео блогеры такие сео блогеры)
Сергей, спасибо!
Взял на заметку
Отлично! Поделитесь потом кейсом, что внедрили и к чему это привело.
Спасибо, очень интересно.
Всегда пожалуйста. Рад, что читаете.
Большое спасибо!
Но вот это вот не совсем понятно:
"Таким образом, Google борется со спамными техниками, вводя оптимизаторов в заблуждение. "
Рассмотрим две ситуации
1. На СДЛ наставили много ссылок. например в результате какого-то освещения в СМИ
И что, за это сайт просядет вниз на пару недель, прежде чем пойти вверх? Нелогично и странно...
2. Допустим левый сайт закупил много ссылок. Его на 2 недели вниз опустили, но потом таки ссылки сработали, и его поднимет вверх, просто через 2 недели? Тоже как то странно
Было бы логичнее не делать задержки, а просто определять где естественная ссылочная масса, а где искусственная
Максим, спасибо за комментарий.
1. Согласен, не логично. И такие выводы делать не стоит. Вот если о вас напишут во всех СМИ с анкором, где используется коммерческий ключ, тогда да, ожидайте проседание.
2. Попробуйте поэкспериментировать.
Последнее - самое интересное
Но я не все понял
Функция перехода выбирается случайно всегда или это только если ранк меняется меньше чем на 10%, а если больше то всегда отрицательная?
Функция перехода определяется по-разному, чаще случайно, больших деталей там нет. Причем, функция перехода может выбираться для документа, для всех документов сайта и даже для всех документов одного сервера.
Статья на 5 с плюсом, жаль только что нет возможности поставить оценку этой статье! Есть вопрос, вы пишите рекомендацию Гугла " Нужно ускорять свои сайты " ваше мнение по использованию оптимизатора для сайта от GOOGLE , стоит использовать?
Виктор, спасибо за комментарий! Да, используйте все возможные инструменты, которые помогут вам определить проблему и после внедрения ускорить загрузку сайта.
Здравствуйте, Сергей! Вопрос не по статье, но очень хочу у Вас узнать. В своих курсах Вы говорили что, когда заказываешь статью, то при указании ссылки на продвигаемый сайт, нужно указывать ссылку на сторонний ресурс, чтобы была более естественней статья и ссылка в ней. У меня 2 домена - на Москву и СПБ, могу ли при заказе статьи размещать две ссылки на мои 2 продвигаемых сайта, будет ли это выглядеть естественно или гугл знает что эти сайты аффилиаты, и толк от заказной статьи не будет? Заранее спасибо!
Андрей, если у вас среди двух доменов один очень авторитетный, то он будет помогать менее авторитетному при такой кросс-ссылочной стратегии. Но если оба домена слабенькие, то смысла ссылаться только на них особо нет (если мы рассматриваем социтирование).
Получается у меня два домена слабенькие, я буду заказывать статью и указывать 2 ссылки (моя ссылка(например домен Москвы) + похожий ресурс(сайт-конкурент авторитетнее меня). Имеет ли значение расположения (вверху или внизу) в статье ссылки более авторитетного сайта. Хотелось бы в начале статьи указать ссылку моего сайта, а в середине или в конце статьи ссылку сайта-конкурента. Правильно ли я размышляю. Заранее спасибо!
Гугл думаю может легко определить сайты афилиаты с одинаковой темой, я закрываю ссылки между своими сайтами nofollow
Да уж, очень мудреные алгоритмы.
Все патенты древние, неужели они все актуальны? С 2004 наверное уже много чего изменилось?
Самое главное, что изменилось - в алгоритмах активно используется ИИ и машинное обучение. Остальное все по-старому.
это многое меняет
Здравствуйте! Статья интересная. Эти фишки распространяются на бурж только, или и в ру сегменте работают?
Эти "фишки" - давно сложившиеся правила для всей поисковой системы в целом. Ими руководствуются все оптимизаторы, еще со времен динозавров.
Сергей, не так давно видел все описанное в других новостных сайтах, в принципе могу сказать, что эти новости итак были очевидны и понятны, всегда нужно пользоваться посдказками, LSI и т.д. Ускорять сайт. В общем все базовые методы, ничего нового
Сергей, проясните, пожалуйста, что имеется в виду под "natural language answer". Правильно ли я понимаю, что это как, если сравнивать адронный коллайдер с большой микроволновкой? То есть сильно упрощать терминологию запроса?
Буду благодарна
natural language answer это ответ не от ассистента-робота, а от человека. Надеюсь, так понятно.
Чем дальше, тем больше начинаешь понимать, что 2010-ые были реально лихими. Машинное обучение становится в приоритете, черные методы становятся все изящнее, а поисковые системы все умнее. Фишка с отрицательным сдвигом вообще убила, это просто издевательство, вот как потом объяснять подобные отрицательные сдвиги клиентам.
Как как. Отправлять статьи на почитать. А как же еще.
ПСы реально умнеют не по дням, а по часам. Помню времена когда тупо закупали ссылки на сапе и были щастливы. А теперь столько заморочек.
С другой стороны стоит отметить, что выдача стала чище и релевантнее. ГСы почти полностью ушли в прошлое. Белое СЕО рулит. Однако без серьезных вливаний продвигать становится сложнее. Крупные игроки все сильнее оттирают простых сео-работяг одиночек. ИМХО
Спасибо, Сергей. Давно у Вас не был, да и вебинары не появлялись, так бы ходил обязательно.
По семантике было у меня подозрение, но подтверждений не было. Собственно, важность Knowledge Graph на это намекала, но тут явный пруф.
С функцией перехода (расчёта RANK_ДО и RANK_ПОСЛЕ) — достаточно старая тема, но, спасибо, что напомнил, да =) Большое спасибо тем кто оставляет отзывы и комментарии с профессиональными знаниями в этой области обсуждающей темы
Спасибо за подборку, Сергей!
Сергей, спасибо!
Будем пробывать сематику ))
Норм, спасибо за информацию, как раз к стати.
Спасибо, хороший материал, зашерю.
Спасибо, Сергей. Объемный и значимый материал. Однако, надо подразобраться и определить (для себя) все полочкам. Бум стараться качественно и с пониманием обработать информацию.
Norm, thanks for the info, just in time.
Nice information for sharing this i am reading in article in language converter
Не знал, что "Google может сам размечать документы". Проверил, действительно размечает. Я не перестаю удивляться.
прикольно.
Интересно. Нужно подумать как полученные знания применить к своему сайту
А много там еще таких патентов?
И где их можно посмотреть?
Отлично помогло
Я не знала что так можно
Интересно, нужно будет попробовать
Про задержку в изменении рейтинга документа. Было очень полезно. Вот реально очень полезно. У меня на сайте одном были траблы с позициями (возможно из-за сквозняка мигающего не по нашей вине) некоторое время и то же неясна была причина. Возможно вот это ответ.
К слову вроде после 2 месяцев небольшой просади вроде начал снова расти сайт, что очень радует. На еще одном сайте у меня вообще только иногда контент на отдельных страницах меняется, но сайт то растет, то немного проседает, то снова растет. Там ссылок я никаких не ставлю, все само прирастает.
Материал - огонь!
К слову ваш материал статьи мне очень пригодился при настройке моего сайта. Огромное вам спасибо за содержательный материал.
Касательно скорости сайта, кроме pagespeed у гугла еще новый сервис появился, может кому пригодится https://web.dev/measure
В работе Гугл часто что то меняется незаметно, оно потом всплывает и причем случайно. Любят они там всякие новые алгоритмы применять. Довольно познавательная статья, но больше подойдет специалистам, простым пользователя я думаю будет непросто понять что и к чему.
Сергей, у гугла вместо пейджспид я так понимаю, появился новый сервис, у меня он почему то отображается только на английском языке и там много не понятного.
Скажите пожалуйста, планируете ли вы написать статью какие полезности можно извлечь из этого чудо сервиса?
Спасибо.
Все это требует очень большого изучения потому что задает больше вопросов чем дает ответов. Например:
Какие характеристики ссылок учитываются?
Размер и цвет/контрастность текста ссылки
Позиция в документе (списки, текст, до и после первого экрана 800х600, боковая панель, футер и т.д.)
что скорее всего является по большей частью фантазией, или заделом на далекое будущее.
Почему?
Потому гугло бот работает на 41 версии вебкита, а это означает что он например не понимает что такое гриды. А это означает что я могу боту показать одно расположение блоков, а пользователь увидит совсем другое. Что ведет к логичному выводу о том, что позицию в документе, и тем более в каком именно экране отображается текст Google бот понять не сможет. А это в свою очередь означает, что либо в алгоритме есть серьезная очевидная дыра, либо эти факторы не имеют сколько нибудь серьзеного значения
Подобные не стыковки есть почти во всех заявленных патентах.
SEO статьи на вашем ресурсе супер полезные. Спасибо!
Прикольно, полезно
Большая часть пантентов выдана в 2004 году. Насколько они актуальны сейчас ?
мощно! крутая статья