Эволюция вебспама в Рунете (опыт Яндекса)

По мотивам документа Russian Web Spam Evolution: Yandex Experience (2013 г).

Аннотация

Вебспам отрицательно влияет на качество поиска и удовлетворение пользователя, а также заставляет поисковые системы расходовать ресурсы для краулинга, индексации и ранжирования. Таким образом, поисковые системы вынуждены принимать меры для борьбы с вебспамом. Трафик из поиска играет большую роль в онлайн-экономике, это приводит к жестоким соревнованиям за место в ТОПе и увеличивает мотивацию спаммеров разрабатывать новые спамные техники.

В то же время, алгоритмы ранжирования усложнились, также как и методы определения вебспама. Вебспам постоянно эволюционирует, что поддерживает в актуальности задачу его определения. Яндекс имеет в этом некоторый опыт и данная статья описывает этот накопленный опыт в определении различных видов вебспама, основанный на контенте, ссылках, кликах и поведении пользователей. Также здесь рассмотрены агрессивная реклама и мошенничество, так как они влияют на пользовательский опыт. Помимо этого, будет продемонстрирована связь между классическим вебспамом и современными подходами к мошенничеству.

Введение

Так как поисковые системы изначально используют контент, как главный источник сигналов для ранжирования, текстовый спам стал одним из самых распространенных видов спама. Спаммеры пытаются влиять на такие факторы как TF/IDF или BM25, создавая тексты (часто бессмысленные) с оптимальной плотностью ключевых слов. Для определение этого типа спама используются методы, основанные на языковых моделях.

Как только поисковые системы начали использовать ссылочные сигналы, типа PageRank, спаммеры пытались влиять на них с помощью линк-фарм, обмена ссылками, покупкой ссылок и другими искусственными ссылочными образованиями. Большинство методов определения ссылочного спама основаны на многообразных свойствах ссылочного графа.

Читать дальше про эволюцию вебспама в Рунете…

53 комментария

Описание поискового спама

Поисковые системы сейчас являются точкой входа в Интернет для большинства пользователей сети. С помощью поисковых систем люди ищут не только информацию общего плана, но и используют в коммерческих целях. Соответственно, эта платформа представляет интерес для множества коммерческих структур. Одни, стараются играть по правилам и достигают хороших результатов не сразу, но имеют долгосрочные перспективы. Другие же компании ищут разнообразные методы, чтобы достичь результатов (хорошего положения в ТОПе) как можно быстрее. На этой почве появился так называемый поисковый спам.

В Яндексе этот вид спама называют поисковым, в Google используют термин “вебспам”. Причем, поисковые системы не описывают вебспам как страницы низкого качества (хотя это подразумевается тоже). Поисковый спам относится скорей к цели существования самой страницы, а также к целям (соответственно, и методам) её продвижения.

В лицензии Яндекса поисковому спаму дается следующее определение:

3.7. «Поисковый спам» — это попытки обмана поисковой системы Сервиса и манипулирования ее результатами с целью изменения позиции того или иного веб-сайта в результатах поиска.

Заметьте, здесь не говорится о качестве сайта или документа, а лишь о манипулировании выдачей. Другими словами, какой бы хороший сайт у вас не был, если вы пытаетесь прорекламировать свою страницу в ТОПе с помощью увеличения её рейтинга, скорей всего её пометят как вебспам.

Google не дает четкого определения вебспама, а ограничивается лишь рекомендациями по обеспечению качества сайта в своем руководстве для вебмастеров. Однако, вскользь упоминает на официальном блоге что

Вебспам это мусор в поисковой выдаче, когда сайты пытаются обманом выйти на топовые позиции или нарушают требования к обеспечению качества…

Таким образом, причину спама необходимо искать и в контенте и в ссылках.

Формирование списка сайтов с использованием классификатора вебспама (из патента Майкрософт)

Читать дальше про вебспам и методы его идентификации…

93 комментария

Автоматический геотаргетинг российских web-сайтов

По мотивам документа Automatic Geotagging of Russian Web Sites (2006 г).

Аннотация

В данной статье рассматривается быстрый, простой и точный метод связывания большого числа веб-ресурсов, хранящихся в базе данных поисковой машины, с их географическими положениями. Описанный метод использует информацию об IP адресе, доменных именах и контентозависимые данные: коды почтовых индексов и телефонных номеров. Новшество подхода заключается в построении базы данных, хранящей географическое положение и IP адрес с использованием метода IP блоков. Также сделан упор на анализе доменных имен. Метод использует внутреннюю структуру поисковой машины и позволяет эффективно связывать большое количество данных поисковой машины с их географией. Эксперименты проведены над индексом поисковой системы Яндекс; результаты говорят об эффективности подхода.

Введение

Аспекты географического положения веб-ресурсов и их владельцев становятся все более значимыми в последнее время для большинства Интернет-пользователей. Тенденции отмечены академическим исследованием в этой сфере, а также появлением локальных сервисов онлайн-поиска.

Поисковая система Яндекс индексирует ресурсы в доменах пост-советских стран, а также любые русскоязычные документы. На текущее время, Яндекс проиндексировал более 600 млн. страниц на более 2.5 млн. сайтах; порядка 95% этих сайтов расположены в России. Несмотря на то, что наибольшая активность поиска проявляется в больших городах, таких как Москва или Санкт-Петербург, Интернет в России и других пост-советстких странах развивается, в основном, за счет удаленных областей. Этот факт делает геотаргетинг важным моментом в поиске Яндекса.

Проблема частично решается Яндекс.Каталогом с ручной модерацией. На данный момент каталог состоит из примерно 87 тыс. записей с ручным присваиванием региона; около 48 тыс. из них принадлежат российским городам. Географический атрибут состоит из различных семантических положений:

  1. местоположение провайдера (физическая принадлежность владельца ресурса);
  2. география контента (географическое положение, о котором говориться в контенте);
  3. положение сервера (область, где размещен web-ресурс).

Читать дальше статью об автоматическом геотаргетинге сайтов в Яндексе…

8 комментария

Принцип работы поисковой системы

Многие из нас пользуются поисковыми системами, такими как Google, Яндекс, Yahoo и др., однако, все ли понимают, как работает механизм поисковика? Несмотря на то, что каждый из поисковиков имеет свои особенности в алгоритмах поиска и ранжирования результатов, принципы работы всех поисковых систем общие.

Если рассматривать процесс поиска информации в сети, его можно разбить на следующие этапы: сбор информации со страниц сайтов в сети Интернет, индексация сайтов, поиск по запросу и ранжирование результатов. Рассмотрим каждый из этапов отдельно.

Сбор данных

Как только вы запустили свой сайт и дали роботу какой-нибудь поисковой системы понять, что появился новый ресурс (с помощью внешних ссылок на ваш сайт, добавления его в адурилку или используя другие методы), робот приходит к вам, начинает ходить по страницам и собирать с них данные (это могут быть текстовый контент, картинки, видео и др. файлы). Этот процесс называется сбором данных (англ. crawling) и он может происходить не только при запуске сайта. Робот составляет для сайта расписание, когда он должен на него зайти в следующий раз, проверить старую инфомрацию и добавить новые страницы, если таковые имеются.

Важно, чтобы общение вашего сайта с ботом было приятным для обеих сторон. В ваших интересах, чтобы бот долго не задерживался на сайте, чтобы не грузить лишний раз сервер, и в то же время необходимо, чтобы он правильно собрал все данные со всех нужных страниц. В интересах робота также сделать сбор быстрым, чтобы приступить к обработке следующего сайта в таблице расписаний. Для этого вам необходимо убедиться, что сайт доступен, что нет проблем с навигацией по сайту (flash и javascript меню роботы ещё плохо распознают), что отсутствуют битые страницы (отдающие 404 ошибку), не заставлять бота ходить по страницам, которые доступны только зарегистрированным пользователям и так далее. Также следует помнить, что для web-пауков существует ограничение на глубину проникновения (уровень вложенности) и максимальный размер сканируемого текста (обычно 256кб).

Читать дальше этапы поиска и некоторые детали алгоритма…

17 комментариев

Взвешенный индекс цитирования (вИЦ)

Согласно теории поиска, пользователи информационно-поисковых систем определяют ценность документа путем так называемых информационных ключей, таких как: заголовок статьи, автор, название сборника, индекс цитируемости, дата публикации работы, и далее переходят к более значимым документам. Чем больше ключей они учтут при поиске, тем лучше они могут вычислить ценность того или иного документа. Информационные ключи, основанные на лексическом сходстве документов запросам, весьма ограничены. В качестве параметра значимости статьи обычно рассматривается её индекс цитируемости. Однако, он также имеет ряд ограничений. Этот фактор не отражает структуру ссылок в каждой дисциплине (тематике), а также слабозначимые работы и труды с большой значимостью могут иметь одинаковый индекс цитируемости.

Опираясь на изложенную модель, люди, занимающиеся ранжированием результатов поиска в электронных библиотеках, предложили не только подсчитывать количество цитат, но также ввести понятие веса ссылки, обосновывая это тем, что качество статьи определяется не только количеством, но и качеством ссылающихся источников. То есть, значимость источника ссылки является таким же важным информационным ключем для пользователей, определяющих ценность документа.

Раннее, для определения значимости документа использовали импакт-фактор. Однако этот фактор имеет некоторые недостатки. Главные из них в том, что импакт-фактор является не нормализованной величиной, а также рассматривает ссылки за короткий период времени (2-3 года) и не учитывает цитирования с конференций, которые часто играют важную роль в исследованиях, благодаря их популярности.

Поэтому и был введен термин фактор популярности (англ. Popularity Factor).

Читать подробнее о факторе популярности, взвешенном индексе цитируемости, методах их расчета и некоторые комментарии Яндекса…

17 комментариев

Импакт фактор

В июле 1955 г. в зарубежном научном журнале Science Евгеном Гарфильдом была опубликована статья “Индексы цитирования в науке: новое измерение информации через объединение идей”, где автор предложил испольовать фактор влияния взамен индексу цитирования.

Импакт фактор (от англ. Impact Factor, сокр. IF) — мера важности научных журналов, применяемая также для Интернет-ресурсов, которая позволяет определять ценность ресурса, путем вычисления среднего количества цитирований документа за определенный период времени (для журналов обычно за 2 предыдущих года). Формулу для импакт фактора можно записать в следующем виде:

IF2008 = A/B

где, А — количество цитирований в течение 2008 года статей, опубликованных в 2006-2007 гг.
В — число статей, опубликованных в журнале в период с 2006 по 2007 год.

Следует заметить, что при расчете импакт фактора в знаменателе не учитываются некоторые виды статей: новостные статьи, известия, списки опечаток. Таким образом, новые издания получат Impact Factor только через два года после издания. До этого периода IF = 0. Также имеется ряд других исключений.

Читать дальше информацию об импакт-факторе…

6 комментария

Индекс цитирования (ИЦ). Определение.

В заметке дано определение понятию ИЦ и создана она для устранения путаницы в терминах, особенно распространенной среди новичков в SEO.

Индекс цитирования (цитируемости, сокр. ИЦ, англ. Citation Index) — это указатель цитирований между публикациями, позволяющий узнать, какие из более поздних документов ссылаются на более ранние работы, при этом, ИЦ может рассматриваться как для отдельных статей, так и для авторов (ученных). Коротко говоря, существует много видов индексов цитирования, в том числе и те, которые применяются для Интернет-ресурсов и Интернет-документов. Численной мерой ИЦ является количество цитирований рассматриваемой публикации без учета некоторых видов работ, например, тезисов конференций или обзорные журналы.

В ПС Яндекс, а также в других поисковых системах, под индексом цитирования подразумевается количество обратных ссылок, без учета ссылок со следующих ресурсов: немодерируемых каталогов, досок объявлений, сетевых конференций, страниц серверной статистики, XSS ссылки и другие, которые могут добавляться без контроля со стороны владельца ресурса. Стоит отметить, что в каталоге Апорт под ИЦ понимается взвешенный индекс цитируемости.

Для обозначения ИЦ Яндекс выбрал аббревиатуру CY, что, видимо, означает Citation Yandex documents (по аналогии с SCI, SSCI, AHCI), хотя, по мнению автора статьи, правильней было бы назвать YCI.

Рассчитывается этот индекс из ссылочного графа и используется как один из факторов для ранжирования документов в поисковой выдаче, но не является главным.

Не стот путать обычный индекс цитирования с взвешенным и тематическим, о которых будет написано позже. Индекс цитируемости всегда целое число и не зависит от тематик ссылающихся документов.

Заметка о индексе цитируемости…

17 комментариев

Понятие ссылочного графа

Если рассматривать ресурсы сети как вершины графа, а цитирование других ресурсов (ссылочные связи между сайтами) как связи вершин графа (ребра), тогда ссылочный граф можно представить в виде диаграммы, как показано на рисунке.

Ссылочный граф - сайты и связи между ними

где А, B, …, F — определенные сайты в индексе поисковой системы;
стрелки изображают направление связей — односторонние либо двусторонние.

Из ссылочного графа (др. название веб-граф) можно определять различные параметры сайтов, такие как: индекс цитируемости, авторитетность ресурса, вероятность нахождения пользователя на том или ином сайте, и другие. Для хранения веб-графа в машинном виде, используют другое представление данных, а именно матрицы смежности и инцидентности и, возможно, матрицу достижимости.

Читать дальше о том, что такое ссылочный граф и как его используют поисковые системы для определения факторов ранжирования ресурсов…

12 комментариев

Стэнфордские заметки о доверии к веб сайтам

В данной статье приведено руководство о том, как можно увеличить доверие к своему сайту, составленное на основе исследований Стенфордского университета, длившиеся три года и включающие более 4.5 тыс. человек.

Выделены 10 основных пунктов по увеличению уровня доверия и советов, как не лишиться заработанной трастовости сайта.

Читать всю статью об увеличении уровня доверия вашего сайта …

25 комментария

Влияние исходящих ссылок на вес и позиции документа

PageRank это модель представления вероятности перехода пользователя на вашу страницу из всех страниц, доступных в ПС, блуждающего случайно по ссылкам. Если вы ставите ссылки на другие ресурсы, то вы увеличиваете вероятность появления пользователя на других страницах интернета, которые могут ссылаться на другие и т.д. Таким образом, увеличив вероятность появления пользователя на других страницах сети Интернет, вы также увеличиваете вероятность перехода со страниц интернета на ваш сайт. Ваш сайт нельзя рассматривать отдельно от всей системы при применении модели PageRank.

Из формулы расчета PageRank видна только зависимость веса от обратных ссылок на документ, но не видна его зависимость от исходящих ссылок с документа (внешних ссылок с сайта) на другие ресурсы.

Есть мнения среди оптимизаторов, с которыми я сталкивался на SEO форумах, что ссылки на вашей странице влияют на передаваемый PR, а PR самой страницы не уменьшают (не изменяют). Чтобы опровергнуть такую точку зрения, проведем эксперимент.

Читать дальше о влиянии исходящих ссылок на вес донора …

25 комментария
Сергей Кокшаров, автор seo-блога

Сергей Кокшаров Автор блога, эксперт-аналитик в области SEO