В сети существует достаточно много разработанных серверных скриптов и десктопных приложений для извлечения информации (парсинга) каталога яндекса (ЯК). В данной статье не является целью привести примеры онлайн сервисов для парсинга ЯК, их можно найти в поисковой системе по ключу парсер яндекс каталога. Пролистав страницу, ниже вы найдете ссылку для скачивания серверной версии граббера, которую можно установить на денвере.
Яндекс Каталог, или просто ЯК, это сборник самых хороших, качественных (по мнению редакторов самого каталога) ресурсов русского интернета, сгруппированных по тематическим категориям. В каталоге ЯК ресурсы отсортированы в порядке убывания их тематического индекса цитирования (тИЦ), который среди SEOшников считается одним из показателей качественного сайта. Более подробно о яндекс-каталоге вы можете почитать здесь.
Парсер — это синтаксический анализатор. В нашем случае парсер, или граббер, это анализатор кода. Обычно это программа, или часть программы, которая извлекает из заданной структуры необходимые данные. Парсер яндекс каталога это программа, которая извлекает из страниц ЯКа урлы сайтов в заданной тематике (категории).
Есть несколько целей использования информации о сайтах, полученных в результате парсинга каталога. Ниже приводится две наиболее распространенных из них.
Наверняка, комментарии излишни. Если вам нужен парсер каталога ЯК, вы попали именно туда, куда следует.
Для скачивания парсера кликните ссылку ниже:
YacaParser.zip [11.39KB]
ТРЕБОВАНИЯ
УСТАНОВКА
Перепишите папку YacaParser на свой сервер в любое место, доступное из web. Папка files должна быть доступна для записи. Если вы записали на сайт site.ru, тогда запустите парсер, введя в строку браузера путь http://site.ru/YacaParser/
ИСПОЛЬЗОВАНИЕ
При использовании скрипта необходимо задать категорию, которую требуется спарсить. Поддерживается два формата категории:
1. Категория/Подкатегория
Например, для парсинга категории “Недвижимость”, необходимо ввести путь
Business/Realty
2. Полный путь
Например,
http://yaca.yandex.ru/yca/cat/Business/Realty/
При переходе по страницам Яндекс Каталога используется задержка в 1 секунду (строка 48 файла class.Grabber.php). Этот параметр можно менять, задавая целое число секунд. Регулярные выражения для работы со структурой кода страниц каталога можно изменять в файле config.php.
ВНИМАНИЕ
При большом количестве запросов к яндекс каталогу ваш IP адрес может быть забанен на сутки. Обычно, не более 1000 запросов (страниц) в час это нормально.
Все замечания по поводу скрипта вы можете оставлять в комментариях к данному посту. Скрипт распространяется свободно, но если вы захотите отблагодарить автора, он всегда рад. Реквизиты можно найти на странице контактов. Успехов в продвижении!
Найдите нужного исполнителя через каталог seo-компаний Рунета.
42 Ответов
ноября 14, 2008 at 08:00
1А под парсинг блогов к примеру сможешь ?
ноября 14, 2008 at 08:29
2Запросто :) Только нужна четкая задача: что на входе и что на выходе + какие параметры настройки?
ноября 14, 2008 at 09:49
3Смотри. Мне к примеру нужено чтобы из ретинга станционарных блогов выдирал все имеющиеся ссылки блогов. То есть на входе у нас: http://blogs.yandex.ru/top/standalone/ а на выходе что то виде http://blog.blog.com и все. Если не затрудни то на нулледе в той же теме отпишись о результатх. Буду признателен ) Заранее спс. Только хайд ставь не менее 500
ноября 15, 2008 at 01:08
4Хорошо, сделаем… а зачем такой большой хайд ставить, ведь пару человек всего скачать смогут?! =)
ноября 15, 2008 at 03:14
5Да мало, зато яндекс не будет ничего менять и куча школьников не кинется парсить для спама
ноября 15, 2008 at 03:15
6Спасибо кстати=)
декабря 8, 2008 at 08:24
7нормально так украл скрипт
февраля 23, 2009 at 02:08
8Спасибо. очень полезно
мая 6, 2009 at 09:43
9Скачаю, нада как раз спарсить сайты из Яки
Спасибо)
июня 12, 2009 at 11:10
10А можно ли весь каталог сразу запарсить?
августа 3, 2009 at 11:39
11Супер плагин. Очень помогли! Ставлю на Вас вечную ссылку :)
сентября 17, 2009 at 02:07
12Скажите, а парсить выдачу Я.каталога он может? а то у меня что-то не получилось… ввел страничку с выдачей, процесс вроде пошел, только файл не создался с урлами.
PS все в кракозябрах было.
октября 2, 2009 at 11:16
13Сергей, большое спасибо за скрипт!
Единственное чего не хватает, т.к. это поддержка работы с прокси.
Не планируете сделать?
октября 2, 2009 at 04:21
14Огромное спасибо!
октября 6, 2009 at 09:51
15Огромное пасиба за парсер, буду мучать яндекс =)
октября 20, 2009 at 10:54
16Сергей отлично!
Как раз такой скрипт искал на той недели, но скачивал глючные.
Ваш работает.
Спарсил около 4000 ссылок. Поставил задержку в 150 сек. И IP добавил в сервис хороших роботов Яндекса. Не банит :).
ноября 3, 2009 at 01:46
17Хорошая штука, спасибо. Имхо, это в первую очередь для тИЦа, потом для выдачи, как думаете?
ноября 3, 2009 at 09:09
18Отличный парсер. Отпарсил нужную категорию из каталога без проблем. У кого есть голова сможет и региональную выдачу посмотреть. Огромное спасибо.
ноября 18, 2009 at 11:12
19а под какой движок этот парсер?
ноября 25, 2009 at 12:00
20Хороший парсер. На Денвере не заработал, но вот на дешевеньком хостинге вполне хорошо отработал. Установить и заюзать данный парсер каталога Яндекса сможет даже ребенок :) Порекомендовал на своей блоге. Спасибо.
декабря 10, 2009 at 06:15
21Что-то перестал работать. Белый экран и все. В чем может быть проблема?
декабря 13, 2009 at 07:41
22Здравствуйте Сергей Анатольевич!
Огромное спасибо Вам за отличный парсер!
тока на Денвере не заработал… и не подскажите, как переделать это скрипт на “www.uz” узбекский каталог!
Огромное спасибо.
декабря 17, 2009 at 04:32
23И у меня что то перестал работать
Сразу пишет после задания категории “вы можете скачать файл”
В чем может быть дело?
декабря 21, 2009 at 02:35
24Здравствуйте! Действительно чего то перестал парсер работать, думаю не только я был бы вам признателен за исправление сего полезного инструмента.
декабря 21, 2009 at 07:37
25Ребята, спасибо за обратную связь. Поверю и исправлю проблему в ближайшее время. Видимо, Яндекс поменял формат сниппетов после снежинска.
декабря 26, 2009 at 09:24
26Подключаюсь к просящим, было бы очень хорошо подправить скрипт
декабря 31, 2009 at 08:45
27С новым годом!
Заодно присоединяюсь к просьбе подправить скрипт)
марта 16, 2010 at 09:22
28Да уж, пожалуйста подправьте!
апреля 1, 2010 at 05:02
29Похоже скрипт до сих пор не работает. Сразу после указания категории и нажатия кнопки получить, выдает – “теперь вы можете скачать файл” (и битая ссылка). Исправьте пожалуйста.
апреля 20, 2010 at 04:35
30К сожалению, скрипт до сих пор не работает.
Автор, когда можно ждать апдейт?
апреля 22, 2010 at 04:17
31Парсер не работает, почему?
апреля 23, 2010 at 09:03
32Похоже у Сергея просто пока не хватает времени подправить скрипт. Будем надеяться.
мая 4, 2010 at 12:59
33тоже хотелось бы чтобы скрипт заработал
мая 5, 2010 at 01:01
34Серегааа, услышь наши молитвы )))
мая 7, 2010 at 03:06
35А у меня заработал. Настроил у себя на http://buzzman.ru/parser-yandeks-kataloga/ – используйте на здоровье =)
На деле больше времени ушло на разбор чужого кода нежели на исправление – проблема была в регулярных выражениях.
Спасибо, Devaka
мая 10, 2010 at 01:11
36Я уже сам починил его)) Фантазию то врубите уже
мая 10, 2010 at 08:36
37Devaka, скажи, а почему мой комментарий то не опубликовал. Я сделал что-то неправомерное починив твой скрипт и выложив у себя в блоге?
мая 11, 2010 at 12:24
38buzzman, все в порядке, комментарий одобрен (он должен был пройти модерацию из-за ссылки, а я сейчас за границей).
В скрипте загвоздка только в регулярном выражении в конфиге, так как яша поменял внутреннюю структуру серпа яка.
июня 26, 2010 at 06:56
39Не работает :(
июня 27, 2010 at 07:39
40frebasic, выше же сказали уже об этом и ссылку дали на рабочую версию.
Спасибо Всем!
июля 21, 2010 at 06:51
41А когда эту версию скрипта отремонтируют? Или как самому ее отремонтировать? Что и где поменять :)?
августа 21, 2010 at 10:08
42Если использовать этот парсер только для отбора сайтов в сапе, то не проще ли в сапо-фильтре указывать “сайты в ЯК” и выбирать категорию?
Ответить