Часто при формировании UGC-контента возникает проблема, когда отправлять его на индексацию нет смысла из-за малой информативности образовавшегося документа. Наличие малоинформативных страниц на сайте может снижать скорость индексации, а также влиять на авторитет домена. В связи с этим, необходимо уметь управлять качеством генерированных страниц. В некоторых случаях частичные дубли можно склеивать между собой, в других лучше вовсе не допускать их индексацию.

В данной статье предложено решение проблемы UGC-контента, а именно метод работы с малоинформативными страницами сайта с помощью введения внутреннего показателя качества документа.

Задача 1. У вас есть раздел объявлений, где каждый пользователь может создать страничку с описанием. Некоторые пользователи стараются и описывают свое объявление как можно подробней, особенно, если в подсказках или элементами интерфейса/функционала мы будем просить их об этом. Но, зачастую, люди не любят создавать уникальный контент, особенно если это касается объявлений. Они пишут короткие тексты или копируют свои объявления на множество досок, в том числе и на вашу. Такие малоинформативные документы никогда не будут хорошо ранжироваться и приносить трафик, а при большом количестве могут снижать авторитет раздела. Как поступить?

Решение: Вводим показатель качества (Q), который зависит от необходимых нам параметров, например, от объема контента (volume)Q = F(volume), а также вводим порог (T), при котором мы считаем страницу некачественной. В случае Q < T добавляем документу мета-тег noindex.

<meta name="robots" content="noindex, follow" />

При генерации sitemap.xml также не выводим в него адреса, для которых Q < T.

Задача 2. У вас на сайте имеются динамические фильтры — документы, которые создаются при некотором пользовательском поведении (например, при выборе ряда параметров в форме или при поиске фразы в форме поиска). Для этих страниц автоматически прописываются шаблоны мета-тегов и заголовков. Но какие-то из них могут содержать минимум результатов (товаров, статей и т.д.), либо эти результаты могут дублироваться с результатами других фильтров. Как здесь избавиться от дублей?

Простое решение: Также вводим показатель качества документа. Здесь он будет зависеть от количества результатов, присутствия похожих результатов в других фильтрах, можно также от наличия текста описания (которое можно добавлять вручную в админке). При плохом показателе качества, склеиваем созданный документ с родительской категорией или уже существующим фильтром, где были найдены похожие результаты.

<link rel="canonical" href="канонический адрес" />

При Q >= T можно способствовать быстрой индексации нового документа или включать его в перелинковку.

Другими словами, полезно для генерируемых документов, которые не контролирует редактор, вводить и хранить в базе показатель качества, который поможет в дальнейшем управлять некоторыми мета-тегами и избавлять от лишних seo-хлопот.

Q = F(p1, p2, ..., pn)

Показатель качества может включать в себя такие параметры, как:

  • Объем контента
  • Наличие тех или иных текстовых элементов/блоков, ключевых слов
  • Поведенческие характеристики документа (время задержки, длина скролла, взаимодействие с важными участками)
  • Текущий поисковый трафик на документ (если есть)
  • Наличие внутренних дублей (похожих страниц), степень схожести

Что скажете про этот метод и как вы решаете подобные задачи?