Сайт дня: Все необходимые фрилансеру договора.
Что можно сделать с сайтом, не трогая контент (допустим, в случае, когда нет доступа к администраторской части), чтобы поисковые системы уделяли ему больше внимания и благодарили хорошими позициями в серпе и, соответственно, давали больше траффика? Ниже я привел несколько простых советов, как быстро улучшить позиции своего сайта.
Файл robots.txt, который должен находится в главной папке, может содержать в себе ряд полезных правил:
– Закрытие ненужных страниц (разделов) от индексации роботом.
Все разделы, которые не должны попасть в индекс, например, в случае дублирования контента или разделов, в которые может попасть только авторизованный пользователь (приватный форум) или же админка, необходимо (очень желательно) закрыть в файле robots.txt. При этом, с одной стороны, вы уменьшаете нагрузку на сервер и, с другой стороны, поисковый робот берет только нужный контент.
Пример подобного файла можно посмотреть тут: http://www.yandex.ru/robots.txt.
– Указание пути к xml карте сайта.
Подробней о карте сайта написано в следующем пункте.
– Время задержки между запросами робота.
Яндекс и Bing поддерживают эту директиву – Crawl-delay, которая указывает в секундах задержку между двумя обращениями робота к серверу. Очень полезно, когда робот поисковой системы сильно нагружает сервер. Как эта директива влияет на позиции сайта? Лишь косвенно, влияя на скорость отдачи страниц сервером.
Более подробно о том, как использовать файл robots.txt читайте в разделе помощи яндекса, и также у google.
Вот пример файла robots.txt в одном из самых простых случаев:
# Zdravstvui, robot, dorogoi –
# Golova iz vaty.
# Vot opyat ty k nam prishol
# S vidom vorovatym…
#
# Indeksirui vse podrad
# Pravdy ne skryvaya –
# Chtoby pishno rascvetal
# Saitik nash prekrasniy!
#
# Chtoby kazhdyi ohlamon
# S silnym zudom pyatok
# Mog vezde naiti legko
# Fotki, fil’mi, babok!User-agent: *
Disallow:
crawl-delay: 30Sitemap: http://myspace-webgraphics-software.net/sitemap.xml
Поисковые системы должны знать о том, по каким адресам находятся страницы вашего сайта, какой контент на них расположен и насколько он важен для посетителей. Если у вас простая навигация, когда любая страница доступна в 1-2 клика от главной, тогда sitemap может и не понадобится. В других случаях, когда структура сайта очень сложная и ресурс имеет множество разделов, желательно создать карту сайта в виде sitemap.xml или на крайний случай в виде sitemap.html.
Об использовании sitemap очень подробно описано в разделах помощи у яндекса или у google.
Вот пример карты сайта гугла: http://www.google.com/sitemap.html в HTML формате и в XML формате (грузится долго, наберитесь терпения).
Скорость, с которой отдаются страницы сайта сервером, уже является одним из факторов ранжирования в Google, а также косвенно влияет на другие факторы ранжирования во всех поисковых системах (например, среднее время нахождения пользователя на сайте, процент отказов и т.д.).
Как проверить скорость и при необходимости ускорить свой сервер?
Прежде всего, откройте главную страницу и попробуйте походить по ссылкам, используя навигацию. Устраивает ли вас скорость загрузки, как пользователя? Для точной проверки скорости в мозиле имеется множество плагинов (Tamper Data, Firebug и др.). Лучше всего использовать Firebug, в котором можно отследить количество загружаемых скриптов и их время загрузки, определяя, что больше всего тормозит на странице.
Ускорить сервер можно, переехав на хороший хостинг, добавив кеширование страниц, например, используя smarty в связке с apc (alternative php cache) и оптимизируя код страниц, убрав с них всё лишнее.
У многих сайтов в индексе страницы без www префикса дублируются аналогичными с www. Проверить это можно, используя специальные операторы поиска (url: в яндексе и site: в Google).
Когда-то вы ставили на свой сайт ссылки с www префиксом, сейчас без него, поэтому в ссылочном графе неразбериха и необходимо в нём навести порядок. Когда вы склеите оба сайта (варианта), прописав главный из них в файле robots.txt в директиве Host, то виц ресурса повысится, объединив виц каждого из них и, таким образом, вы можете ещё немного подняться в выдаче по своим запросам.
Для Google и других поисковых систем (кроме Яндекса) склейка происходит с помощью 301-го редиректа.
Возможно, у вас имеются ряд зеркал и они не склеены между собой. Для повышения виц лучше будет, если вы их склеите по описанному выше методу. Также склейка домена с более трастовым доменом повысит авторитетность ресурса и поможет подняться ещё немного выше в серпе.
Дополнительно про траст можно почитать здесь.
В яндексе это делается в панели для вебмастеров, в Google тоже можно указать принадлежность домена, если он не имеет ярко выраженную гео-зону в названии. Если вы не присвоите домену регион, то Яндекс или другой поисковик сделает это за вас (по нескольким признакам), не всегда его выбор может совпадать с вашим желанием. Поэтому, если вы хотите, чтобы вас находили в нужном регионе, присвойте своему ресурсу тот, в котором вы продвигаете свой сайт. Если вы продвигаете товар или услугу по всем регионам (многим), то ищите другие выходы (например, сделайте под каждый регион свой раздел).
Хорошей манерой является создание такого кода сайта, когда скрипты и стили вынесены в отдельные файлы. С одной стороны, они перестают засорять код, а с другой, уменьшают размер страницы, позволяя серверу быстрее отдавать её посетителям (и в том числе роботам поисковых систем). Уделяйте много внимания дизайну (внешнему виду) сайта, но также уделяйте достаточно внимания коду (внутреннему виду) сайта, он тоже влияет (пусть в некоторых случаях и косвенно) на ранжирование и позицию ресурса в серпе.
С одной стороны, когда посетитель ввел несуществующий адрес вашего сайта, необходимо выдать ему соответствующее сообщение, это будет корректно по отношению к посетителю, но с другой стороны, можно не спрашивая, направить его на нужную страницу или, если нету таковой, на главную страницу сайта. То есть, избавившись от 404-ых ошибок, заменив их 301-ыми редиректами на существующие, мы повысим вес последних страниц (склеив несуществующие с существующими), а это поможет нам еще чуть-чуть в общей задаче – повысить траффик с поисковых систем.
Самый простой пример кросспостинга – настроить FeedBurner и дублировать анонсы в сервис микроблогов Твиттер. Также вы можете кросспостить материалы сайта (статьи, новости и обсуждения) на другие блог-платформы. Это, безусловно, улучшит видимость вашего сайта в сети и увеличит количество обратных ссылок, что повлечет за собой очередное повышение рейтинга в серпе.
Если у вас имеются дополнительные методы улучшения ранжирования без изменения контента сайта – поделитесь ими с нами в комментариях.
Сломалась кофемашина и Вы остались без любимого кофе? Специалисты “ЭлитСервис” выполнят ремонт кофемашины в кротчайший срок. А на время ремонта выдадут Вам другую кофемашину.
Найдите нужного исполнителя через каталог seo-компаний Рунета.
30 Ответов
апреля 21, 2010 at 03:57
1> Закрытие ненужных страниц (разделов) от индексации роботом
Эх, всё равно они ходят по закрытым разделам, проверено неоднократно :-(
> Замените 404-ые ошибки на 301-ые
Я сейчас пруфлинк не найду, но где-то читал, что Гугл очень не рекомендует (не рекомендовал?) так делать. Одна из контрмер – Гугл генерирует случайный URL и запрашивает его с сервера, а потом смотрит, что сервер отдаёт. Но, честно говоря, я не знаю, какие санкции влечет невозврат 404 ошибки.
Не знаю, относится ли к делу или нет, но у меня был такой опыт: одно время в логах сервера были такие запросы:
GET /&usg-дикая-строка-в-base64/что/нибудь/еще/
возвращавшие 404 ошибки. Я не знаю, где гугл находил такие ссылки, но запрашивал он их с завидной регулярностью. А потом жаловался в GWT на эти ошибки. Однажды меня это достало, и я поставил проверку, что если запрос начинается с /&usg, выдавать 301 редирект на главную страницу. Гугл походил некоторое время по таким ссылкам, а потом взял и забил на сайт вообще. Т.е. если до этого он приходил буквально через несколько минут после публикации статьи, после такого эксперимента с редиректом он мог не приходить две недели :-( Пришлось убирать редирект и закрывать /&usg в robots.txt. Не знаю, совпадение или нет, но через некоторое время все пришло в норму.
апреля 21, 2010 at 04:09
2Комментарии в роботсе и лишние пустые строки – явный косипор.
На кроул диллэй все роботы срать хотели
апреля 21, 2010 at 09:03
3У меня на все так и сделано. Хорошо бы еще склейку с трастовым доменом сделать. Кросспостинг у меня идет в , в facebook , фриндфид и много других соц платформ. Есть кнопочка “сохранить” для ВКонтакте, но пока для ранжирования это ничего не дает )
апреля 21, 2010 at 09:40
4По поводу склейки – никак не могу понять:
1. Ввожу в Яндексе url:mysite.ru – вижу результат – 1 – мой сайт.
2. Ввожу в Яндексе url:www.mysite.ru – результатов не найдено
Как понять есть склейка или нет?
в Гугле соответственно выдает:
1. site:sitename.ru результатов – 339
2. site:www.sitename.ru результатов – 120
Подскажите как вообще понять склейку
апреля 21, 2010 at 09:42
5Присоединюсь к Shift: использовать пустые строки (и комментарии) в роботах – навлекать на сайт потенциальные проблемы из-за того, что, к примеру, тот же Яндекс дюже не любит подобного (сейчас не вспомню, но есть примеры, что та же несклейка www по “Host: mysite” – была из-за пустрой строки перед этой директивой).
Так же и по crawl-delay – где бы увидеть подтверждение, кто РЕАЛЬНО (не в документации, а на самом деле) их поддерживает? :)
>Для Google и других поисковых систем (кроме Яндекса) склейка происходит с помощью 301-го редиректа.
Не соглашусь. Для Google основной вариант (WWW/без) написания ЗАДАЁТСЯ В АДМИНКЕ. А уже 301-й редирект, если вчитаться в help – рекомендуется, т.к. ДРУГИЕ поисковики не имеют подобной возможности (задавать основной вариант в админке).
Итого: 301-й редирект как раз НЕ для Google, а для “остальных“ (в которые, как правильно сказано, Яндекс не входит, т.к. у него это задаётся директивой Host).
апреля 21, 2010 at 10:03
6>>> Эх, всё равно они ходят по закрытым разделам, проверено неоднократно :-(
Они могут и ходить там, но не индексируют закрытые разделы.
апреля 21, 2010 at 11:59
7Кросспостинг – это конечно хорошо, только лучше его делать после того, как поисковики уже проиндексируют эту страницу на основном сайте, иначе поисковики могут воспринять ее как дубликат статьи с блог-платформы и она попадет под фильтр.
апреля 21, 2010 at 12:06
8а что мешает делать кроспостинг анонсами со ссылкой на свой пост в своем блоге? )
апреля 21, 2010 at 12:16
9Я не спорю насчет анонсов, просто в статье не указано что кросспостинг в блог-платформы нужно делать в виде анонсов, написано только про Твиттер ). А так, конечно, кросспостинг в виде анонсов самое то.
апреля 21, 2010 at 12:18
10@Vladimir
>> Эх, всё равно они ходят по закрытым разделам, проверено неоднократно :-(
У меня на одном сайте была проблема, когда Yahoo! грузил сервер, сначала пришлось оптимизировать скрипты, но потом решил закрыть от него вообще сайт пока не решил проблему с сервером. User-agent: Slurp и Disallow: / помогло :) Хотя согласен, некоторые поисковики гузят сервак, несмотря на эти правила, хотя, как правильно заметил Rulaf, страницы в индекс не добавляют.
>> где-то читал, что Гугл очень не рекомендует (не рекомендовал?) так делать
Логи так не анализировал, может действительно googl простукивает несуществующие страницы. Если он при этом выдает их тебе в wmt, то там должны быть ссылки, где он эти страницы нашел. Знаю только по опыту, что схема 404 > 301 > 200 улучшала ситуацию, особенно когда меняешь движок сайта. Надо бы дополнительный эксперимент провести над гуглом…
@Shift, @nofollow
Комментарии в примере это всего лишь юмор. Кто не заценил, я не виноват :) По поводу crawl-delay, не согласен на счет всех роботов, в частности с msn у меня раньше все работало, подразумеваю что bing это дело тоже учитывает и yahoo тоже. Очень полезная фича, учитывая, что яху любит частенько подгрузить сервак своими запросами.
@Ted
Если только один вариант в выдаче, то все нормально. Если же в выдаче варианты и с www и без, тогда проблема. Например, в вашем примере, Яндекс сайт видит единственным способом, а Google дублирует страницы. Укажите в панели для вебмастеров главный адрес сайта (как упомянул выше nofollow).
апреля 21, 2010 at 12:39
11@Devaka
Ну вот например такой запрос: имя_сайта/&usg=ALkJrhhwloGmXoXmNEV0gQotGJrE0AnWig%2Fpage%2F25%2F%2Fpage%2F55%2F/page/54/
Реферер не указан, поиск по такому тексту в гугле тоже результатов не даёт. Прямо не знаю, где он его такой взял.
>> Хотя согласен, некоторые поисковики гузят сервак, несмотря на эти правила
Да тот же гугл ходит по запрещенным местам. Я ставил в такое место тестовый скрипт, который смотрит, что за IP у посетителя. Ну и reverse lookup указал на гуглобота.
апреля 21, 2010 at 12:49
12Mail.ru, Aport, Begun – точно не учитывают crawl-delay, при чём первые два часто просто устраивают DDOS-атаку, если придут (особенно если вместе). :)
апреля 21, 2010 at 01:12
13@Vladimir
Я посмотрел логи своих сайтов. там &usg параметр используется при поиске по картинкам (например, вот). Правда в данном случае в реферере, наверное у гугла где-то глюки есть в отображении ссылок или у некоторых браузеров. В общем, не понятно с этим вопросом. При этом ip адреса принадлежат разным юзерам, из разных стран.
Информация по reverse lookup с тестовыми скриптами интересная, спасибо!
апреля 21, 2010 at 04:37
14“Склейте домены с www и без www”
а можно поподробнее, как это сделать через файл robots.txt
апреля 21, 2010 at 09:46
15@Ярослав, Host : ваш сайт.ru , если нужно с www то добавте www. Следует еще затронуть – Last-Modified чтоб корректно отдавал дату последнего изменения на сайте. Джумла не отдает её(отдает текущее по запросу). Поднял тему на форуме джумлаводов, модеры сказали оно вам надо? лучше не лезте…Кто нить знает решение?
апреля 22, 2010 at 05:30
16Хорошая статья, ретвитнул =)
апреля 23, 2010 at 01:01
17пост называется, а напишу ка я не о чем..
апреля 23, 2010 at 09:03
18Не стоит трогать 404 ошибку. Если бот часто запрашивает такую страницу, например на каком-то сайте неправильно написали адрес, то стоит специально создать эту страницу ;)
апреля 27, 2010 at 03:47
19«То есть, избавившись от 404-ых ошибок, заменив их 301-ыми редиректами на существующие, мы повысим ВЕС последних страниц (склеив несуществующие с существующими)»
О каком весе идет речь? И откуда он возьмется?
мая 3, 2010 at 03:16
20Склейте домены-а как их склеить, можно узнать?!
У меня блог на blogspot – на этой платформе по умолчанию адрес с http: и я заметил что в поиске уменя идёт дублирование страниц!
И можно ли указать роботу закрытые определённых слов в постах, например ярлыки, комментарии-т.е. что бы робот их не видел?!
мая 3, 2010 at 09:09
21WhiteSEO, вес передается с ссылающейся страницы. Так этот вес идет в заглушку. т.е. 404 ошибку
мая 8, 2010 at 05:41
22Сергей, спасибо не обращал внимания, а сейчас перечитал и ошибку вроде у себя нашел и устранил
мая 11, 2010 at 09:25
23Очень интересен п.8 (404=>301).
А все ли поисковики положительно к такому отнесутся ?
мая 13, 2010 at 09:06
24Большое спасибо за статью! Многие интересующие меня вопросы автор четко осветил с разных сторон. Надеюсь, что эта статья поможет мне избежать ошибок!
мая 30, 2010 at 09:05
25Ну чтож в статье достаточно полно описанны все способы. Но вот интересно дейсвует ли деректива crawl-delay на самом деле и какое время устанавливать. если вы указали 30 в секунадах, то вы можете перегрузить свой сервер.
июня 2, 2010 at 09:09
26А про 8 пункт можно подробнее, что где и как заменить, или мб код к примеру покажите
июня 7, 2010 at 09:59
27Еще нужно избавляться от полных и неполных дублей страниц ( сессии, версии для печати, сортировки и тд.)
июня 16, 2010 at 09:08
28п.3 Кроме плагина для Лиса давно и успешно использую сервис
http://site-perf.com
Есть очень много возможностей, в частности проверка на разных скоростях, для разных браузеров и др.
июля 20, 2010 at 11:31
298 пункт можно подробнее
июля 31, 2010 at 06:46
30Субъективно кажецццо мне, что яндекс, при добавлени в индексацию (в каталог пр.) исполбзует человеческий фактор …!?
Ответить