23,534 просмотра

Сайт дня: Вывод сайта из под АГС от SiteClinic.

Плохая индексация сайта — одна из серьезных проблем вебмастеров. Почему сайт или его отдельные страницы до сих пор не в индексе? Чтобы ответить на этот вопрос, нужно провести небольшой анализ. Ниже приведен список основных причин плохой индексации, который можно использовать как чеклист для решения проблемы.

Основные причины

26 причин, почему робот плохо индексирует ваш сайт Существует 5 основных причин, по которым сайт или его отдельные документы могут не заходить в индекс (или делать это с трудом). Вот они:

— Робот не знает о сайте или документе
— Сайт или его часть недоступна для робота
— Сайт находится в черном списке
— Присутствует техническая ошибка
— Отдельные страницы или разделы показывают плохое качество

Ниже подробно расписан каждый перечисленный выше пункт.

1. Робот не знает о сайте/документе

Робот может не знать о сайте (не включить его в свое расписание) по разным причинам.

— Прошло мало времени

Для того, чтобы робот узнал о сайте или новой странице, необходимо время, когда он найдет ссылку (внутреннюю или внешнюю), либо когда кто-то зайдет на сайт из браузера с установленным тулбаром, либо вы намеренно сообщите роботу о появлении нового документа. Ускорить попадание документа в расписание индексации можно с помощью адурилки.

Также, если вы по логам сервера уже видите, что робот заходил на сайт, а страницы в индексе не появились, нужно подождать апдейта, который в Яндексе происходит не чаще 2 раз в неделю (а по праздникам доходит до 1 раза в 2-4 недели). В основной индекс страницы могут попадать за несколько часов в Google и минимум за 2 недели в Яндекс (если попадают раньше, то по документу скорей всего прошелся быстробот и позже страницы могут на время уйти из индекса до прихода основного робота).

— На сайт/документ не стоит ссылок

Если сайт обновляется редко, то робот на него также будет заходить редко и при добавлении новых страниц нужно убедиться, что на них стоят ссылки с главной, либо можно поставить ссылки с других внешних ресурсов (с целью подсказки роботу о новых документах).

2. Сайт или его часть недоступна для робота

Даже если поисковик уже знает о сайте, мы можем осознанно или неосознанно закрывать ему доступ к отдельным разделам и документам.

— Домен не делегирован (или снят с делегирования по жалобе)

Убедитесь, что приобретенный вами домен делегирован и доступен по доменному имени не только вам, но и другим пользователям сети. Попросите своих знакомых из другого города зайти на сайт и проверить, открывается ли он.

Также, в связи с принятием закона о пиратстве, некоторые сайты могут снимать с делегирования. Это редкий случай, но если вы размещаете пиратский контент (фильмы онлайн, музыкальные клипы и аудиотреки, игры и другую интеллектуальную собственность), то вполне возможно, что на вас подали жалобу. Об этом обычно предупреждают.

— Закрыт через robots.txt

Откройте файл /robots.txt в корневой папке (если он существует) и убедитесь, что в нем не закрыты нужные вам разделы. Например, частой ситуацией бывает закрытие от индексации папки со скриптами или шаблонами, где лежат и изображения, что приводит к отсутствию индексации изображений. Либо разработчики перед выкатом нового сайта в процессе тестирования добавляют директиву “Disallow: /” (означающую запрет на индексацию всего сайта) и забывают её убрать.

— Закрыт через meta-robots

Тег meta-robots размещается внутри тегов <head> и является вторым способом запретить индексирование документа. Некоторые CMS-ки (например, WordPress) позволяют этим гибко управлять, но не каждый редактор вспоминает уделить этому внимание после запуска и наполнения сайта первичным контентом. Так, например, пару лет назад блог SeoPult долгое время содержал мета-тег <meta name="robots" content="nofollow,noindex" /> из-за чего его полезные страницы отсутствовали в индексе.

— Закрыт через IP или User-Agent

Этот вопрос нужно решать с хостером. В одно время поисковик Yahoo так уделял внимание большим сайтам, что ложил хостинг и владельцы хостинга блокировали бота по ip-адресу. Иногда (но очень редко) ip-адрес случайно попадает в черный список. Это легко проверить, анализируя логи сервера (access_log) на предмет наличия в них признаков посещения сайта поисковой системой.

Попросите также ваших программистов проверить, не блокируют ли они своей системой важные запросы роботов.

— Закрыт через http-заголовки X-ROBOTS-TAG

Редко используемый метод, но http-заголовки также можно использовать для запрета индексации тех или иных страниц. Проверьте с помощью каких-либо инструментов (например, плагина Firebug для Firefox), какие заголовки отдают страницы вашего сайта и присутствует ли в них x-robots-tag.

— Использует flash или ajax-навигацию

Поисковые роботы плохо индексируют flash или ajax-элементы сайта. Если в них скрыта навигация, это может осложнить индексацию сайта и распознавание его структуры. Чтобы увидеть сайт как робот, можно использовать панель для вебмастеров Google (меню “Сканирование” – “Посмотреть как Googlebot”).

— Важные элементы на сайте закрыты в noindex

Закрывая что-то “ненужное”, можно также закрыть и нужное :) лучше не использовать noindex, я неоднократно сталкивался с ситуациями, когда он только вредил при некорректном использовании. Возможно, именно из-за переизбытка тегов noindex робот не видит достаточно уникального контента и поэтому не добавляет сайт в индекс.

3. Сайт находится в черном списке

Есть несколько причин, по которым сайт попадает в черный список поисковой системы, приводя, естественно, к отсутствию индексации. Вот основные из этих причин:

— На сайт наложены санкции

Иногда наложение санкций очевидно, иногда мы можем об этом не подразумевать (например, при покупке домена). В любом случае, стоит убедиться, что домен чист. Обычно, к наложению санкций приводят следующие особенности сайта:

  • Манипулирует выдачей агрессивными методами оптимизации (например, скрывает seo-контент или подменяет контент для пользователей, продвигается спамом по каталогам или форумам и при этом не имеет большого авторитета).
  • Создан только для поисковых систем (не несет ценности пользователю)
  • Является афиллиатом уже существующего сайта (уже есть аналогичный сайт на другом домене того же владельца)
  • Имеет плохую историю домена

Какой сайт существовал на домене до того, как вы его приобрели, можно посмотреть на сервисе WebArchive. Желательно это делать до покупки домена.

— Ресурс распространяет вирусы

Случается, что сайты взламывают и размещают на них вредоносный код. Когда поисковик это обнаруживает, то не продолжает индексировать сайт пока не восстановит доверие. Чтобы вовремя узнать о проблеме взлома, нужно использовать (и мониторить) панель для вебмастеров.

4. Присутствует техническая ошибка

Нередко, причиной плохой индексации сайта оказывается элементарная техническая ошибка, устранение которой быстро исправляет проблему.

— Некорректный http-заголовок

Код ответа сервера должен быть “200” для тех страниц, которые должны попасть в индекс. Проверить это можно различными инструментами, например, плагином Firebug или командой “wget -S http://site.tld” из терминала. Также, в панели для вебмастеров имеется раздел, посвященный индексации и если робот обнаружит какие-либо ошибки, он сообщит вам об этом.

— Некорректный DOCTYPE

Я сталкивался с несколькими случаями, когда перед DOCTYPE в html-коде стояли дополнительные теги (<?xml или <script>), препятствующие страницам попадать в индекс. Нужно убедиться, что код соответствует html-стандартам и робот легко может определить тип контента и его основные блоки.

— Некорректные редиректы

Первый случай некорректного редиректа это использование 302-го вместо 301-го. При этом старые страницы не будут заменяться на новые в индексе, так как используется временный редирект вместо постоянного. Второй случай плохой индексации из-за редиректов – это использование тега rel=“canonical” с прописанием одной и той же канонической страницы для всех документов.

Удаление сайта из индекса из-за неверно прописанного rel=canonical

— Проблемы с кодировкой

Есть несколько способов сообщить роботу о кодировке документа: мета-теги, http-заголовки и сам контент. Обычно, процесс определения кодировки не составляет для поисковиков труда, но бывают редкие случаи, когда http-заголовки говорят об одном, мета-теги о другом, а сам контент написан в третьей кодировке и тогда в индекс попадает просто набор символов, показывающий плохое качество контента.

Пример документа с проблемной кодировкой в индексе Яндекса

Убедитесь, что с кодировкой ваших документов все в порядке.

Существуют и другие технические причины плохой индексации, которые встречаются намного реже и так просто их не найти, необходимо подключать специалиста.

5. Отдельные страницы или разделы показывают плохое качество

Если с сайтом все отлично в техническом плане и к нему нет претензий относительно использования агрессивных методов оптимизации, поисковик постепенно индексирует сайт. Для начала он дает небольшую квоту на количество необходимых проиндексированных страниц. Если после накопления статистики он видит, что страницы показывают хорошее качество, квота увеличивается и больше страниц может попасть в индекс. Так поисковик экономит свои ресурсы, индексируя только нужные документы. Какие же признаки говорят о хорошем или плохом качестве документов?

— Контент уже существует на других сайтах (не уникален)

До индексации поиск не знает, уникальный ли контент содержит документ, поэтому, на первом этапе страницы сайта могут индексироваться хорошо. Но если ваш контент уже где-то встречается точь-в-точь, то поисковику нет смысла снова добавлять его в индекс – он знает об этих страницах и вы можете видеть в панели для вебмастеров, что он видит несколько тысяч страниц на вашем сайте, но при этом они не участвуют в поиске, если нет других сигналов, заставляющих бота изменить своё решение.

— Контент уже существует в других разделах этого сайта

Здесь речь о внутренних дублях контента, обычно это страницы сортировки, пейджинга и страниц для печати. Все подобные страницы, которые мало отличаются друг от друга, пойдут в дополнительный индекс, не участвующий в поиске. Необходимо убедиться, что каждая страница сайта имеет ценность для пользователя и эти ценности не пересекаются между документами, каждый ценен по своему.

— Объем уникального текста на странице меньше 500 символов

Малый объем уникального текста затрудняет поисковым алгоритмам определить ценность этого контента для пользователя. К тому же, на таких объемах контента сложно поддерживать уникальность между страницами своего и чужих сайтов. Часто страницы с объемом меньше 80-100 слов (около 500 символов) с трудом попадают в индекс (попадают только при хорошем вИЦ). Если это ваш случай, подумайте, стоит ли этим страницам быть в индексе, и если да, то что ещё вы можете на них добавить для увеличения контента (например, отзывы, комментарии, характеристики или видео-обзор).

— Документы раздела имеют шаблонные заголовки и тексты

Поисковики не любят шаблонность, когда между страницами меняется лишь одно-два слова и остальной контент остается одинаковым, и стараются не индексировать много шаблонных страниц. Если хотите, чтобы страницы попадали в индекс, прописывайте их заголовки и мета-описания вручную, либо используйте множество шаблонов вместо одного для всего сайта.

— Страницы раздела более 4-го уровня вложенности

Чем больше уровень вложенности страницы, тем меньше её вес и значимость для поиска (для пользователя также). Нужные для индексации страницы, которые лежат далеко вглуби сайта, необходимо выносить на 2-3 уровень вложенности с помощью дополнительной перелинковки.

— Большое количество 404 страниц

При обнаружении множества ошибок, поисковик должен определять паттерны и не стучатся туда, где заведомо (с большой вероятностью) страница также будет с 404 ошибкой. В связи с этим, нужно периодически мониторить свой сайт на предмет различных ошибок через уже упомянутую выше панель вебмастеров или специализированных программ.

— Медленная скорость отдачи документов

Медленная скорость отдачи документов из-за проблем в хостинге или CMS не позволит роботу быстро индексировать сайт. Он будет продолжать его сканировать, но не так быстро, как если бы документы отдавались моментально. Простая оптимизация скорости загрузки сайта может существенно улучшить его индексацию.

Конечно же, существуют и другие причины плохой индексации сайта. Если ни один из вышеперечисленных признаков вам не подходит, необходимо связаться со службой поддержки поисковой системы, либо связаться со специалистами.

Если в вашем опыте встречались какие-то другие проблемы, мешающие сайту нормально индексироваться, делитесь ими в комментариях!

  • 0 Нет
  • 25 Да
  • Мне понравилось!

Если вам понравилась статья, вы можете подписаться на RSS или E-mail рассылку. Для получения обновлений по электронной почте, введите ваш e-mail адрес в эту форму (Доставка от FeedBurner):