6,187 просмотров

Поисковые системы сейчас являются точкой входа в Интернет для большинства пользователей сети. С помощью поисковых систем люди ищут не только информацию общего плана, но и используют в коммерческих целях. Соответственно, эта платформа представляет интерес для множества коммерческих структур. Одни, стараются играть по правилам и достигают хороших результатов не сразу, но имеют долгосрочные перспективы. Другие же компании ищут разнообразные методы, чтобы достичь результатов (хорошего положения в ТОПе) как можно быстрее. На этой почве появился так называемый поисковый спам.

В Яндексе этот вид спама называют поисковым, в Google используют термин “вебспам”. Причем, поисковые системы не описывают вебспам как страницы низкого качества (хотя это подразумевается тоже). Поисковый спам относится скорей к цели существования самой страницы, а также к целям (соответственно, и методам) её продвижения.

В лицензии Яндекса поисковому спаму дается следующее определение:

3.7. «Поисковый спам» — это попытки обмана поисковой системы Сервиса и манипулирования ее результатами с целью изменения позиции того или иного веб-сайта в результатах поиска.

Заметьте, здесь не говорится о качестве сайта или документа, а лишь о манипулировании выдачей. Другими словами, какой бы хороший сайт у вас не был, если вы пытаетесь прорекламировать свою страницу в ТОПе с помощью увеличения её рейтинга, скорей всего её пометят как вебспам.

Google не дает четкого определения вебспама, а ограничивается лишь рекомендациями по обеспечению качества сайта в своем руководстве для вебмастеров. Однако, вскользь упоминает на официальном блоге что

Вебспам это мусор в поисковой выдаче, когда сайты пытаются обманом выйти на топовые позиции или нарушают требования к обеспечению качества…

Таким образом, причину спама необходимо искать и в контенте и в ссылках.

Как поисковый спам учитывается при поиске

При ранжировании сайтов поисковыми системами в формуле учитывается не только релевантность сайта, его авторитетность и все остальные показатели качества, но также и коэффициент спамности. Причем, этот коэффициент не бинарный (спам или не спам), а непрерывный, как многие другие ранки.

Для работы с поиском в Google даже существует разные отделы, один посвящен качеству поиска (Search Quality Team) и его задача как раз обеспечивать качество выдачи (работают с формулой ранжирования). Глава этого отдела Амит Сингал (Amit Singhal). Другой отдел (Webspam Team) борется с поисковым спамом во главе с Мэттом Каттсом (Matt Catts). Соответственно, алгоритм “Панда” (в 2011 г) это разработка отдела качества, в то время как алгоритм “Пингвин” (в 2012-ом) это порождение отдела по борьбе с вебспамом.

В одном из своих патентов компания Microsoft приводит схему, как формируется поисковая выдача с учетом модуля классификатора вебспама (для общего представления).

Формирование списка сайтов с использованием классификатора вебспама (из патента Майкрософт)

Стоит отметить, что для определения спамности документа используются не только автоматические методы, но и ручные (в единичных случаях), а также “стуки” от вебмастеров через специальную форму.

Небольшое описание проблемы поискового спама

Для описания проблемы определения поискового спама ниже приведена небольшая выдержка из документа Spam: It’s Not for Inboxes Anymore (научный труд ребят из стенфордского университета по классификации веб-спама, на который, впоследствии, ссылались авторы других трудов).

“В ряде случаев вебспам очевиден. Например, при публикации этой статьи (в 2005 г), топовым результатом поиска Google по запросу “Kaiser pharmacy online” была страница, внешне аналогичная выдаче Google, за исключением заголовка Gogle, и все ссылки вели на ряд сайтов, продающих дешевые лекарства, отпускаемые по рецепту. Естественно, эти грубые результаты намеренно подрывают репутацию Google и, несомненно, должны быть помечены как “спам”.

Однако, рассмотрим другой случай. Сайт “World News Network” ранжируется третьим в Google по запросам “world news” и “news network”, наряду с такими компаниями, как CNN, BBC и FOX. Пользователю очевидно, что WNN не является источником новостей; это компания, владеющая тысячами сайтов, каждый из которых по отдельности является онлайн-газетой определенной тематики в определенном географическом регионе (например, Бизнес в Каире или Азиатское Побережье). Дальнейший просмотр сайтов покажет, что многие статьи нетематичны. Например, определенные статьи, принадлежащие разделу “Бизнес в Каире”, мало относятся к бизнесу в Каире, и больше раскрывают основные события, такие как война в Ираке. Эти WNN-ресурсы, плотно ссылаются друг на друга, при этом, нет других неаффилированных сайтов, ссылающихся на них. Несмотря на то, что статьи берутся из достойных источников, вроде Associated Press, CNN и New York Times, ссылки на действительный источник ставятся редко. Таким образом, здесь имеется серая область. Агрегация новостей может быть полезной, но дает ли WNN что-либо истинно ценное или существует лишь для получения прибыли с рекламы на его страницах?

Размытость картины также зависит от субъективного взгляда пользователя. При поиске “miserable failure” в Google и Yahoo первым результатом была официальная биография президента Джоржа Буша (Мишель Мур и Хиллари Клинтон также были в десятке). Спамные техники, конечно же, влияли на рейтинг, но в данном случае вебспам неочевиден, так как одобряете ли вы результат или нет, зависит от личных предпочтений. Таким образом, даже если ценность заключается в довольно странном результате, она всё же есть.

Таким образом, определение вебспама не так просто как может показаться. С одной стороны, вебспам это явное влияние на ожидание людей. С другой стороны, это серьезная проблема. Ежедневно производится множество попыток повлиять на людей – рекомендации, телевидение и газеты, политическая пропаганда и евангелизм. Одному пользователю что-то может казаться некорректным, обманчивым, неубедительным и раздражающим, другие могут в этом находить соответствие своим взглядам. Автоматически генерируемый мусор, никому не несущий ценности, легко классифицировать как спам. Однако, что на счет большой серой области, где контент несет для кого-то хотя бы небольшую ценность? И кому решать, где кончается серая область и начинается сплошной бесполезняк?”

Классификация

Авторы приведенного выше труда классифицировали поисковый спам и опубликовали одноименный документ.

Webspam Taxonomy (405 Кб) (см. перевод на SeoNews).

Судя описанной классификации вебспам бывает текстовый и ссылочный. Опишем коротко каждый из них. Ниже приведен рисунок, описывающий текстовый вебспам.

(кликните для увеличения)
Текстовый поисковый спам

Текстовый спам это, прежде всего, повторения ключевого слова (переоптимизация) в различных информационных составляющих сайта (теле документа, заголовке, мета-тегах, ссылках и ЧПУ). Но также сюда относятся:

Свалка. Когда страница завалена множеством разных ключевых слов, чтобы повысить вероятность захода на неё хотя бы по ряду низкочастотных запросов.

Вплетение. Когда берутся цитаты с других источников (например, новостных) и в них вплетается нужная ключевая фраза (или несколько).

Смешивание. Когда контент агрегируется из различных источников в надежде синтезировать что-то уникальное.

Среди ссылочного поискового спама также имеется большое разнообразие:

(кликните для увеличения)
Ссылочный поисковый спам

Здесь предлагается анализировать не только входящие ссылки, но и исходящие, где к спаму относят каталоги ссылок (часто нетематические). Что касается входящих, то это:

Линк-фермы. Специально созданные сайты для размещения на них ссылок. Часто это сеть сателлитов, сплогов или специальные ссылочные системы.

Скрытые ссылки. Ссылки на сайте-доноре либо скрыты в коде, либо имеют цвет фона, чтобы их не видели посетители (или сам владелец сайта, если ресурс был взломан).

Обмен ссылками. Участие в системах по обмену ссылками. Также сюда относится обмен со своими же ресурсами (сателлитами).

Ссылки из комментариев. Уже в 2005 году понимали малозначимость ссылок из комментариев. Особенно, если они имели такой вид: “У вас хороший сайт. Загляните также на мой про <a>казино</a>”.

Ссылки с/на освобождающиеся домены. Чаще всего освобождающиеся домены с имеющейся ссылочной массой покупают именно с целью манипулирования выдачей.

Немодерируемые ссылки. Все типы ссылок, которые не проходят модерацию. Сюда относятся и гостевые книги, доски объявлений, а также ряд других сайтов (каталогов).

Помимо ссылочного и текстового спама в классификации выделены другие общеизвестные типы, такие как клоакинг, редирект (дорвеи) и скрытый контент.

Методы обнаружения

На основе приведенной выше классификации поискового спама было разработано множество методов его определения, разработаны различные SpamRank, Anti-Trust Rank и другие Spam-ранки.

1. Антиспам контента

Один из методов определения контентного поискового спама это статистический анализ различных его информационных составляющих. В одном из документов специалисты из Microsoft показывают явные зависимости спамности контента от количества используемых слов, средней их длины, сжимаемости текста, используемых водянистых слов и других параметров.

Detecting Spam Web Pages throught Content Analysis (221 Кб)

Например, ниже показано распределение страниц в зависимости от количества используемых слов, а также красной линией вероятность спама в зависимости от того же числа слов на странице.

Зависимость спамности от числа слов на странице

Здесь четко видно, что страницы с количеством слов больше 500-600 явно выделяются из общей массы и вероятность спама в них больше, чем для остальных. На следующем рисунке та же зависимость, только по заголовку TITLE.

Зависимость спамности документа от количества слов в заголовке

Заголовки длиннее 10-15 слов встречаются в сети достаточно редко и чем длиннее заголовок, тем больше вероятность попадания документа в спам-зону.

Ещё интересна зависимость спамности контента от его способности к сжатию (архивации).

Зависимость спамности контента от его сжимаемости

Спамный контент часто хорошо сжимается. И так далее… Смотрите другие интересные зависимости в приведенном выше документе.

Для определения текстового поискового спама используются и другие техники. Читайте, например:

Spam, Damn Spam, and Statistics (706 Кб) — другой документ от Microsoft, описывающий статистические методы определения спама.

Анализ разнообразия тематической структуры текста (224 Кб) — труды специалиста из МГУ, где описаны методы обнаружения массово порождаемых неестественных текстов на основе анализа разнообразия тематической структуры текста (поиск шаблонности).

2. Ссылочный антиспам

Из-за большого разнообразия ссылочного поискового спама также существует большое разнообразие методов его идентификации. Например, Anti-Trust Rank (по аналогии с TrustRank) по начальной выборке заведомо спамных сайтов находит аналогичные ресурсы. SpamRank меряет количество незаслуженного PageRank с помощью анализа обратных ссылок. Другие алгоритмы позволяют определять линк-фармы, сетки сайтов, обменивающихся ссылками, и другие спам-техники. Ниже приведены некоторые из полезных для прочтения документов на эту тему.

Анализ качества контента и ссылок для антиспама (148 Кб)
(Университет в Пекине, Китай).

Поиск ссылочных шаблонов для борьбы с вебспамом (237 Кб)
(Венгерская Академия Наук).

Рейтинг Дирихле (238 Кб)
(Университет Иллинойс в Урбана-Шампейне).

Ссылочные альянсы (485 Кб)
(Стэнфордский университет).

R-SpamRank: Определение спама с помощью анализа ссылок (97 Кб)
(Университет Цинхуа, Китай).

Исключение влияния ссылочного плагиата при ранжировании (104 Кб)
(Университет Лехай, США).

Использование латентных графов с положительными и отрицательными ссылками для устранения спама в информационном поиске (211 Кб)
(Калифорнийских технологический институт).

Заключение

Как пишут сами представители поисковых систем, для определения спама идет попытка идентифицировать не только используемые техники, но и мотивы. Например, скрытие контента не говорит ничего само по себе, так как контент может скрываться с целью улучшения юзабилити сайта и данный метод использоваться не для манипулирования выдачей, а для удобства пользователя.

Несмотря на всю сложность определения поискового спама, на данный момент существует достаточное количество методов и большие обучающие выборки. Но здесь возникает вопрос: не расширилась ли классификация поискового спама, относится ли покупка ссылок к спамным техникам?

Скорей всего с 2005 года классификация расширилась и к текстовому поисковому спаму может относится также количество страниц в дополнительном индексе (наличие большого количества дублей и шаблонных страниц на сайте), что наблюдается одной из причин попадания сайтов под антиспам-фильтр “Пингвин” в Google (исходя из проведенного эксперимента).

Также, покупка ссылок является спамной техникой, но не сам факт покупки, а наличие в этих ссылках продвигаемых ключевых фраз. Ещё в прошлом году на CyberMarketing 2011 и на Optimization.by Кирилл Николаев (руководитель группы отдела вебпоиска Яндекс) выступал с докладом, где упоминалось о неучете ряда ссылок для сайтов (иногда до 90% ссылочной массы просто игнорируется). То же самое мы наблюдаем в антиспам-алгоритме “Пингвин” от Google, где явно видно отсечение влияния прямых вхождений ключевых запросов в анкорах входящих ссылок, если они занимают первое место в анкор-листе.

Если несколько лет назад поисковики не могли отключить влияние всех продажных ссылок из-за малого количества игроков в определенных тематиках, то к этому времени коммерческих сайтов появилось достаточно много и есть из кого выбрать ТОП, поэтому, ссылки начали играть меньшую роль, и больше уделяется внимание ценности ресурса и его юзабилити.

Целью данной статьи не было найти современные способы продвижения сайтов, а лишь описать поисковый спам, показать серьезность проблемы для поисковиков и какие они используют подходы для её решения. На основе этих данных, надеюсь, читатель увидит тенденции и будет прилагать дальнейшие усилия по продвижению сайта в перспективное русло!

  • 0 Нет
  • 36 Да
  • Мне понравилось!

Если вам понравилась статья, вы можете подписаться на RSS или E-mail рассылку. Для получения обновлений по электронной почте, введите ваш e-mail адрес в эту форму (Доставка от FeedBurner):