10,793 просмотра

Сайт дня: Конференция CyberMarketing 2013 в Москве 11 октября. Готовлю для неё отличное исследование по значимым факторам ранжирования в Яндексе.
 

Как известно, Google имеет два индекса: основной (Main Index) и дополнительный (Supplemental Index или, в простонародье — “сопли”). Первый содержит в себе значимые страницы, а во второй попадают те, которые имеют низкую ценность, обычно это дубликаты или страницы с очень малым количеством ценного контента. Многие страницы из дополнительного индекса скрыты за ссылкой “Показать скрытые результаты”.

Скрытые поисковые результаты Google

Гипотезы

Так как официальной информации о дополнительном индексе Google не так много, в сообществе оптимизаторов возникают две гипотезы.

1) Страницы из дополнительного индекса не участвуют в ранжировании.
2) Исходящие ссылки с этих страниц не работают.

Целью данного анализа является проверить достоверность гипотез.

Методология анализа

Для проведения анализа, сперва, необходимо разделить страницы сайта по индексам — какие попали в основной, какие в дополнительный. Для этого используется оператор поиска “site” и конструкция site:devaka.ru/&. С помощью двух запросов к Google сначала берется общий индекс, потом основной, сканируются все страницы и их разница дает страницы из дополнительного индекса.

Для проверки первой гипотезы для нескольких сайтов проводится анализ трафика в Google Analytics, а именно, проверяются страницы входа при выбранном сегменте “Google (organic)” (спасибо Мише Сливинскому за наводку). Анализируется доля трафика, приходящегося на страницы в основном и дополнительном индексе. Судя гипотезе, страницы из дополнительного индекса не должны получать поисковый трафик.

При проверке второй гипотезы берется несколько случайных ссылок со страниц в “соплях” и проводится анализ их работоспособности, где под работоспособностью понимается нахождение акцептора по точному текстовому анкору в ссылке.

Проведение и результаты анализа

При анализе была произведена проверка нескольких сайтов, но мы рассмотрим процесс на примере блога devaka.ru.

Общий индекс можно получить по запросу “site:devaka.ru” (с указанием filter=0, чтобы вытащить в том числе дубли).

Общий индекс при поиске по сайту

Основной индекс был получен по запросу “site:devaka.ru/&”.

Результаты основного индекса Google при поиске внутри сайта

Из скриншотов (здесь отображены не первые результаты) уже видно, что страница /articles/ не отображается при втором запросе, но есть в выдаче при первом.

Всего было получено:

598 результатов из общего индекса.
504 результата из основного.
94 результата в “соплях”.

Ниже приведены страницы, которые попали в дополнительный индекс.

Далее данный список сравнивался с данными из Google Analytics — количеством трафика из Google за последний месяц. Получилась следующая таблица (приведена в неполном виде).

Сводная таблица по трафикогенерирующим страницам блога

На страницы дополнительного индекса пришлось 31 посетитель за последний месяц из Google, в то время как всего 30 976 посетителей. То есть, на дополнительный индекс пришлось порядка 0,1% трафика, хотя эти страницы составляют около 16% всего индекса (для анализируемого сайта).

Распределение трафика между основным и дополнительным индексами Google

Интересно, какие именно страницы получили трафик?

Трафикогенерирующие сопли :)

На эти страницы заходили по следующим запросам:
— “как оптимизировать видео devaka”
— “юзабилити и seo devaka”
— “http://www.google.com/search?q=cache:http://devaka.ru/articles/howto-write-articles” – кто-то искал ссылки в кеше, по всей видимости.
— Остальные “(not provided)”

Таким образом, мы видим, что на страницы из дополнительного индекса заходили преимущественно те люди, которые искали на сайте devaka.ru (использовали бренд-запросы).

Если анализировать ссылки на полученных страницах в дополнительном индексе, то видим, что они работают (например, эта страница, проверочный запрос).

Проверка работоспособности ссылок со страниц в дополнительном поиске

Итоги анализа

В результате анализа мы подтвердили первую гипотезу и опровергли вторую. То есть, действительно, страницы в дополнительном индексе не участвуют в ранжировании, если только текст не ищется непосредственно на них. В нашем случае эти страницы получили 0,1% гугловского трафика (преимущественно по бренд-запросам). Однако, ссылки со страниц в дополнительном индексе все же работают, по крайней мере при поиске по точному вхождению текста ссылки акцептор находится.

Какие заключения можно сделать, исходя из результатов анализа? Я для себя сделал следующие:

1. Стоит следить за качеством индекса для своего сайта. Не всегда больше страниц — лучше. Большое количество страниц в индексе (от 15% до 99% у больших порталов) могут получать всего 0,1 – 1% поискового трафика.

2. В дополнительный индекс попадают малоинформативные страницы и дубли. Из тех страниц, что мне удавалось анализировать, в дополнительном индексе присутствуют чаще всего дубли (как внутренние, так и с внешних ресурсов, например, если на сайте активно копируют контент, то дополнительный индекс для сайта может расти), а также страницы, на которых помимо сквозных блоков присутствует очень мало текста (меньше 70-80 слов) или только ссылки (в независимости от объемов).

3. “Сопли” редко переиндексируются. Судя логам сервера, страницы в “соплях” малозначимы для роботов и переиндексируются очень редко, ими сложно манипулировать и покупать с них ссылки не имеет экономического смысла.

4. Некоторые страницы попадают в дополнительный индекс, если большая часть их уникального текста дублируется на странице-категории. Это было замечено для некоторых документов, у которых нет внешних дублей. Часть их текста просто копируется на странице-категории. В связи с этим, анонсы в категории лучше пускать уникальные, чтобы оставлять уникальным текст самой статьи.

В любом случае “сопли” это плохо :)

  • 0 Нет
  • 24 Да
  • Мне понравилось!

Если вам понравилась статья, вы можете подписаться на RSS или E-mail рассылку. Для получения обновлений по электронной почте, введите ваш e-mail адрес в эту форму (Доставка от FeedBurner):