03 ноя
Автор: Сергей Кокшаров в SEO Новости
Сканер – хорошая вещь. Каждый день люди со всего мира выкладывают отсканированные документы онлайн — все от отчетов правительства и до академических статей. Эти документы обычно имеют изображения текста (сканированный текст) вместо самого текста. Однако, все они имеют общую вещь: кто-то захотел выложить документы в общий доступ, подразумевая, что они будут представлять ценность для пользователей сети Интернет.
Раньше сканированные документы редко попадали в индекс поисковой системы, так как был неясен их контент. Были только некоторые теги из ссылок на эти документы и можно было в серпе наблюдать лишь заголовок без сниппета. Недавно это изменилось. Теперь Google использует технологию OCR (Optical Character Recognition – оптическое распознавание образов) для чтения сканированных документов в PDF формате, найденных в сети.
Имеются, конечно, некоторые недостатки при сканировании документов, так как вероятность распознавания не всегда равна 100 процентам. Однако, это существенный шаг для огранизации информации в сети Интернет более доступной и полезной.
Вот некоторые запросы, приведенные в качестве примеров, где можно наблюдать сниппеты:
[repairing aluminum wiring]
[spin lock performance]
[Mumps and Severe Neutropenia]
[Steady success in a volatile world]
В качестве спонсора для Google выступило свободное OCR ПО, называемое OCRopus. OCRopus является современной системой анализа документов и распознавания образов, включающая анализ макета, распознавание символов, статистическое моделирование языка и мультиязычные возможности. Изначально эта система предназначалась для конвертации документов большого объема с высокой производительностью.
Имеются также некоторые минусы в новшестве поисковой системы Google. Во-первых, некоторые выкладывают PDF документы, зараннее зная, что они не будут доступны в сети, нынешняя ситуация заставляет пересмотреть свою стратегию. Ну а также тем, кто искал отсканированный готовый контент в сети и публиковал в виде текста у себя на сайте теперь прийдется искать новые способы добычи контента.
Ссылки по теме:
http://googleblog.blogspot.com/…/picture-of-thousand-words.html
http://googlesystem.blogspot.com/…/google-uses-ocr-to-index-pdf-files.html
Найдите нужного исполнителя через каталог seo-компаний Рунета.
2 Ответов
ноября 3, 2008 at 05:34
1Честно говоря, могу только порадоваться. Меньше всякой ерунды в сети будет
мая 20, 2010 at 07:08
2Подскажите, есть ли санкции поисковиков, в частности и гугла на не уникальный контент в формате PDF, который размещается на сайте. Например, есть сайт о продаже кондиционеров на которых я хочу разместить каталоги производителей в PDF, которые уже есть в сети на официальных сайтах производителей. Может ли это плохо повлиять на поисковую выдачу сайта? Спасибо
Ответить