
Для запрета индексации вашего сайта или определенных разделов ресурса поисковыми ботами используется два метода: добавление мета тегов на страницу либо создание файла robots.txt. Часто вебмастера сталкиваются с вопросом о юзер-агенте ботов той или иной поисковой системы. Зная значения User-agent для поисковых ботов, можно запретить, либо наоборот, открыть доступ тому или иному боту, например следующими строками:
User-agent: *
Disallow: /User-agent: Mediapartners-Google
Disallow:
Верхние строки запретят всем ботам индексировать контент, кроме бота AdSense (если на сайте показываются объявления AdSense).
Ниже приведен список наиболее часто встречаемых ботов, принадлежащих известным поисковым системам.
| Поисковик | URL | User-agent |
|---|---|---|
| http://www.google.com | Googlebot | |
| Yahoo! | http://www.yahoo.com | Slurp Yahoo! Slurp |
| AOL | http://www.aol.com | Slurp |
| MSN | http://www.msn.com | MSNBot |
| Live | http://www.live.com | MSNBot |
| Ask | http://www.ask.com | Teoma |
| AltaVista | http://www.altavista.com | Scooter |
| Alexa | http://www.alexa.com | ia_archiver |
| Lycos | http://www.lycos.com | Lycos |
| Яндекс | http://www.ya.ru | Yandex |
| Рамблер | http://www.rambler.ru | StackRambler |
| Мэйл.ру | http://mail.ru | Mail.Ru |
| Aport | http://www.aport.ru | Aport |
| Вебальта | http://www.webalta.ru | WebAlta WebAlta Crawler/2.0 |
Примечание:
У некоторых крупных поисковых систем помимо основных поисковых ботов существуют также роботы для индексации блогов, новостей, изображений и т.д. Вот некоторые из них:
Googlebot-Mobile выполняет обход страниц для включения их в индекс для мобильных устройств.
Googlebot-Image сканирует страницы для включения в индекс картинок.
Mediapartners-Google сканирует страницы для определения содержания AdSense объявлений.
Adsbot-Google сканирует страницы для определения качества целевых страниц AdWords.
MSNBot-NewsBlogs – сканирует для поиска новостей в сети Интернет.
MSNBot-Products – сканирует для поиска продуктов, которые можно приобрести в Интернете.
MSNBot-Media – сканирует страницы для поиска мультимедийных файлов.
Ссылки по теме поисковых ботов:


wizi
Апрель 28, 2009 at 03:12
1мне очень помогло, теперь я их сразу вижу
Машенька
Июль 4, 2009 at 19:03
2А зачем вообще запрещать индексировать свой сайт поисковикам? Я ведь сделала сайт для людей, и люди могут его найти через поиск в гугле/яндексе/рамблере… Что-то идею я не поняла…
AlexDIXI
Июль 27, 2009 at 18:19
3Спасибо огромное. Помогла в работе.. Успехов..
Снайпер
Август 14, 2009 at 02:57
4Сайт от роботов закрывают так как это например служебная страница.. Вот например не хочу я чтобы страничку авторизации или страницу восстановления пароля не индексировали ибо там уникального контента по сути нет!
brother
Октябрь 18, 2009 at 15:41
5Devaka, выложите, пожалуйста, весь список юзер-агентов ботов. + список ботов, которые скачивают сайты целиком.. Было бы очень полезно..
brother
Октябрь 18, 2009 at 15:47
6Кстати, вы в курсе, что вас кто-то дублирует?
http://bobrdobr.ru/b813
serg
Декабрь 15, 2009 at 10:54
7Спасибо, я так понял чтобы закрытся от ботов полностью надо написать
User-agent: *
Disallow: /
Так?
сапер
Декабрь 15, 2009 at 20:18
8brother, вообще то это интернет каталог сайтов
JIepdyn
Апрель 1, 2010 at 16:27
9а у мня антивирь nod32 арет на webalta.ru
Oleg
Август 15, 2010 at 12:25
10Об изменениях юзер агентов бота яндекса в 2010 году.
http://webmaster.ya.ru/replies.xml?item_no=7783
Lexx
Октябрь 19, 2010 at 22:14
11У яндекса бот ГАД!!! Чего не надо – индексит, что надо – игнорит…
Sam
Июль 14, 2011 at 12:36
12Lexx, тоже можно и про гугла сказать – загружает sitemap каждый день, а в индекс только ерунду выпускает!
Юрист
Ноябрь 6, 2011 at 16:23
13Нде, тоже самое стоит Агент юзер закрыт, а для яндекса Аллоу, интеретсно как повлияет на все остальное.