Для снятия позиций в Яндексе обычно используют два метода: парсинг результатов с морды, либо использование XML. Использование Яндекс.XML намного удобней, так как позволяет это делать через API (несмотря на введенные весной ограничения), однако, часто встречаются случаи, когда результаты xml-выдачи разнятся с результатами органического поиска. В связи с этим интересно узнать в общем, насколько сильно различаются позиции, взятые из разных источников? В каких случаях лучше парсить XML, а в каких сам Яндекс?

Целью данного анализа является определить разницу между выдачей Яндекса и данными XML.

Методология проведения анализа

Методология достаточно простая и включает в себя 3 этапа:

1. Подбор запросов разного типа.

Всего было подобрано 245 запросов, среди которых выделены:

Витальные – по которым пользователь ищет конкретный сайт (например, “википедия” или “сайт стаса михайлова”).
Коммерческие – в которых присутствует коммерческая направленность, желание совершить транзакцию (например, “купить ноутбук” или “установка окон в москве”).
Общие – которые могут подразумевать разный интент пользователя (к примеру, “объектив” или “подарок”).
Информационные – когда пользователь ищет определенную информацию (“как удалить сайт” или “зачем нужен человек”).
Медиа – касающиеся медиа-контента (“паркур видео”, “стрижки волос фото”).

2. Сбор позиций из органического поиска Яндекса (регион “Москва”) и Яндекс.XML.

В каждом случае собирался ТОП50 с выделением ТОП10 для просмотра различий в разных ТОПах.

Используемые настройки XML:

    $ya_xml .= "&query=" . rawurlencode($query);
    $ya_xml .= "&lr=213";
    $ya_xml .= "&maxpassages=5";
    $ya_xml .= "&groupby=attr%3Dd.mode%3Ddeep.groups-on-page%3D50.docs-in-group%3D1";
    $ya_xml .= "&page=0";

3. Расчет средней разницы по каждым сегментам и в целом между ТОПом и Яндекс.XML.

По каждому запросу рассчитывалась степень изменения выдачи по методу Оливера, затем рассчитывалось среднее значение по сегментам.

Результаты анализа

В результате получились следующие данные, приведенные на графиках.

Разница выдачи яндекса в московском регионе и xml в зависимости от типа запроса

Выдача по витальным запросам меняется чаще, это связано с тем, что Яндекс в результатах поиска обычно показывает от 3 до 7 ссылок с одного сайта, если запрос является витальным. XML при этом группирует некоторые результаты (в наших настройках использовался параметр maxpassages=5).

По коммерческим запросам разница минимальная и составляет 6-7%. В целом, по всем запросам разница составила для ТОП10 – 9.76%, для ТОП50 – 9.14%.

XML vs ТОП в зависимости от частоты запроса по Wordstat

Частотность запроса по Wordstat напрямую не влияет на разницу позиций в двух источниках данных, скорей разные показатели больше зависят от попадания в ту или иную группу частот витальных и других запросов.

Разница результатов поиска по геозависимым и геонезависимым запросам

Для геозависимых и геонезависимых запросов сильной разницы не замечено в отклонениях XML от выдачи.

Зависимость степени изменения от количества слов в запросе

Однословники сильней влияют на отклонение, чем двусловники, но скорей это связано с общими запросами, так как обычно они содержат одно слово. Для семисловников результат не репрезентативен, так как в эту группу попала всего одна фраза (“какие документы нужны для поступления в вуз”).

Максимально и минимально изменяющие выдачу запросы

Выше на изображении представлены запросы, которые либо не меняли ТОП в одном и другом источниках данных, либо меняли его максимально. Так, например, практически без изменений была выдача по запросам:

— как приготовить наполеон
— обзор ноутбуков
— машины обои на рабочий стол
— как удалить сайт
— мебель
— профессиональная техника
— доставка букетов

Но максимальные изменения (порядка 40-50%) дали такие запросы, как:

— сайт гостиница москва
— фото знаменитостей
— посуточная аренда москва
— девушки обои
— аренда квартиры посуточно
— гугл
— дом 2 смотреть видео

Ниже в таблице приведены несколько примеров результатов из ТОП10 для запросов, имеющих максимальные расхождения между выдачей и XML.

Примеры ТОП10 выдачи Яндекса и XML для запросов, сильно меняющих картину

Из 245 запросов

— 105 (43%) не поменяли ТОП10.
— 34 (14%) не поменяли ТОП50.
— 21 (8%) поменяли ТОП50 более чем на 20%.

Заключение

Из приведенных выше данных сложно заметить какую-то системность. По витальным запросам выдача может разниться сильней, по коммерческим не так сильно (6-7%). Однако, встречаются единичные запросы, дающие максимальную разницу между позициями в XML и в органическом поиске Яндекса. Причина подобных отличий пока не ясна.

В целом, если проверяться через сервисы, использующие Яндекс.XML, нужно учитывать небольшую погрешность данных, которая может варьироваться в зависимости от тематики.

Если у вас имеются свои наблюдения относительно разных данных в XML и выдаче, делитесь ими в комментариях.