358 просмотров

Priyank Garg Yahoo! Приянк Гард (Priyank Garg) является директором в отделе управления продуктами для поисковой технологи Yahoo! Комманда ответственна за функциональность поисковой машины Yahoo!, включая сбор информации о сайтах, индексацию, ранжирование. Ниже приведено интервью Приянка, взятое Эриком Энджем (Eric Enge) для www.stonetemple.com.

Можешь ли ты рассказать немного о роли ссылок в алгоритме ранжирования поисковой системы Yahoo?

Существует множество мифов в этой области касательно того, как работают ссылки. Ссылки для нас очень важны, чтобы понять как web-сайты и другие люди из сети оценивают какой-либо контент, с которым они случайно столкнулись. Текст ссылок (анкор) показывает контекст для контента, на который они ссылаются, и мы используем эту информацию в наших алгоритмах уже долгие годы для того, чтобы лучше обработать поисковые запросы.

Таким образом, ссылки важны, но анкоры важнее. Мы ищем ссылки, которые естественны и полезны для пользователей в контексте. Естественные ссылки можно определить по тому, как пользователи переходят по ним и интересуются ли ими. Мы пытаемся определить именно эти типы ссылок и классифицировать целевой контент.

То есть, ты хочешь сказать, что релевантность имеет большое значение? И значит, ссылки с футера шаблона от WordPress, который ты создал и распространяешь полностью нерелевантны?

Именно! Это одно из направлений нашей деятельности. Нерелевантные ссылки внизу страницы, которые не так ценны для пользователей, не дадут им никакой пользы, поэтому мы не учитываем их для ранжирования. Все эти ссылки могут оставаться полезными для индексации сайта роботами, однако они не помогут в ранжировании. На данный момент качество ссылок в сети ухудшается все больше и больше, и также уменьшается их вклад в мировую сеть. Мы продолжаем усердно работать над тем, чтобы высококачественные ссылки были эффективными в обеспечении нас нужной информацией.

Значит вы сфокусированы на качественных ссылках из-за их меньшей зашумленности, как сигналов ранжирования?

Да, это так. Если мы возьмем все ссылки, включая шум, то поиск будет не эффективным.

Тем не менее, ссылки являются очень важным фактором на данный момент!?

Да, они продолжают оставаться важным фактором. Вебмастерам следует думать о сайте во всех аспектах пользовательского опыта, не заостряться только на ссылках как на одном источнике траффика. Ссылки – критический фактор, хороших естественных ссылок заслуживает хороший контент. Но владельцы сайтов могут параллельно принимать другие меры, которые улучшат видимость сайта поисковиком.

Какие вы используете типы сигналов, основанные не на ссылках?

Ну, мы имеем множество источников данных. Мы стараемся определить, как сайт предоставляет контент, насколько он качественен, какова доля спамности контента на сайте, какова его доля на отдельной странице и в общем, какова сила слов на странице, каков контекст анкоров? Имеется очень много факторов, сотни и сотни элементов.

Какие меры вы принимаете для борьбы со спамом?

Для этого мы используем алгоритмические и ручные средства. Человеческий фактор помогает применить новые техники для определения спама. Автоматическое определение спама происходит на каждом шаге, начиная от обращения робота к странице.

Специалисты в Yahoo!, которые занимаются подобными вещами, являются экспертами в этой области и иногда они сильно опережают наши алгоритмы в определении подобных вещей. Существует несколько уровней качества определения спама, чередующихся автоматическими и ручными методами.

Бывают ли ситуации, когда требуется ручное вмешательство?

Наши редакторы имеют возможность применять действия на различные виды ситуаций, например, при нарушении авторских прав или других проблемах. Соответственно имеется множество инструментов для подобной работы. Но у редакторов не цель удалить сколько-то спама в месяц.

Мы можем использовать их работу для обучения наших алгоритмов, для связи в вебмастерами и сообщения о том, что они нарушают наши условия, таким образом мы стараемся делать все возможное для пользователей.

Иногда происходят ошибки, вы наверное должны предупредить владельцев сайтов о скрытом тексте на страницах

Да, именно так. Мы не хотим делать людям хуже, не предупредив их об этом. И наша цель не в том, чтобы удалить спам из нашего индекса, а в том, чтобы улучшить ранжирование. Иногда имеются страницы, которые в основном нормальные, однако применяют спам технологию, но некоторые возможно захотят найти её по URL.

Однако, если кто-либо создает сотни миллионов спам DNS хостов, это только пустая трата наших ресурсов.

Что ты можешь сказать о платных ссылках? Какая ваша политика относительно этого?

Нет никакой черной или белой политики относительно платных ссылок. Принцип остается один – ценность для пользователя. Если платная ссылка не является ценной для посетителей, мы не хотим придавайть ей какое-либо значение. Наши алгоритмы организованы так, чтобы определить ценность для пользователей. В большинстве случаев, конечно, платные ссылки менее значимы, чем естественные. Больше внимания уделяется контексту ссылки, чем тому, платная она или нет.

Давай поговорим о том, как вы обрабатываете мета-тег noindex?

NoIndex на странице означает, что контент не будет проиндексирован и страница не найдется в поисковой системе ни по одному из терминов в HTML.

А как быть, если множество людей ссылаются на эту страницу, которая noindex и все ссылки релевантные. Также на этой странице могут быть ссылки, будут ли они передавать вес?

Мы индексируем страницу и показываем её URL в поисковой системе, если она сильно взаимосвязана с web, даже если не имеет noindex тег. Бывает такое, что мы показываем URL страницы в результатах поиска именно из-за анкоров, которые ссылаются на неё, но не из-за текста на странице.

А что по поводу мета-тега nofollow?

NoFollow тег означает, что мы не будем использовать ссылки на странице для вклада в ранжирование, но можем использовать для обнаружения новых страниц. То же самое касается аттрибута ссылки rel=nofollow.

Ну и на последок о robots.txt. Допустим, кто-то использует его для запрета индексации страниц. Возможно ли таким страницам попасть в индекс другими способами?

Да. Файл robots.txt говорит о том, чтобы мы не обращались к страницам. Однако, если в кто-либо будет ссылаться на эти страницы, мы уделим этому внимание для определенных запросов и страница покажется в поисковой выдаче.

Например, в прошлом, библиотека конгреса имела robots.txt файл, запрещающий доступ к страницам, однако страницы показывались в серпе, так как пользователи хотели этого. То есть, страница будет показываться лишь при определенном количестве анкоров в Web, предлагающих её для определенного релевантного запроса.

При этом мы не показываем сниппетов для подобных страниц. Мы даже не берем заголовок страницы; заголовок формируется из других информационных источников.

Что Yahoo делаеть с дублированным контентом?

Наша цель предоставить пользователям качественный контент и обеспечить максимальным количеством релевантной информации для каждого запроса. Таким образом, наши силы постоянно направлены на определение источников дублированного контента, определить автора как можно точнее. Допустим, что сайт Б имеет контент, который сдублирован с сайта А, и мы определили, что А является оригиналом, тогда он будет выше по запросам, связанным с контеном. Но если запрос скажет, что он хочет получить контент с сайта Б, тогда мы попробуем обработать и его.

Однако, это не так просто определить кто является источником

Это правда, но наши алгоритмы для этого используют множество сигналов, хотя не всегда возможно определить оригинал контента.

Также мы имеем хорошо отработанный процесс решения проблем с нарушением авторских прав. При подаче заявки, вопрос рассматривается специальной коммандой, и если сайт действительно нарушает законодательство, мы снимаем этот контент.

Ну и на последок, можешь ли ты что-нибудь порекомендовать SEOшникам?

Основным принципом остается, как и было упомянуто раннее, забота о пользователях. Прежде всего думайте о ваших посетителях.

  • 0 Нет
  • 3 Да
  • Мне понравилось!

Если вам понравилась статья, вы можете подписаться на RSS или E-mail рассылку. Для получения обновлений по электронной почте, введите ваш e-mail адрес в эту форму (Доставка от FeedBurner):