PDF OCR from Google Сканер – хорошая вещь. Каждый день люди со всего мира выкладывают отсканированные документы онлайн — все от отчетов правительства и до академических статей. Эти документы обычно имеют изображения текста (сканированный текст) вместо самого текста. Однако, все они имеют общую вещь: кто-то захотел выложить документы в общий доступ, подразумевая, что они будут представлять ценность для пользователей сети Интернет.

Раньше сканированные документы редко попадали в индекс поисковой системы, так как был неясен их контент. Были только некоторые теги из ссылок на эти документы и можно было в серпе наблюдать лишь заголовок без сниппета. Недавно это изменилось. Теперь Google использует технологию OCR (Optical Character Recognition – оптическое распознавание образов) для чтения сканированных документов в PDF формате, найденных в сети.

Имеются, конечно, некоторые недостатки при сканировании документов, так как вероятность распознавания не всегда равна 100 процентам. Однако, это существенный шаг для огранизации информации в сети Интернет более доступной и полезной.

Вот некоторые запросы, приведенные в качестве примеров, где можно наблюдать сниппеты:
[repairing aluminum wiring]
[spin lock performance]
[Mumps and Severe Neutropenia]
[Steady success in a volatile world]

В качестве спонсора для Google выступило свободное OCR ПО, называемое OCRopus. OCRopus является современной системой анализа документов и распознавания образов, включающая анализ макета, распознавание символов, статистическое моделирование языка и мультиязычные возможности. Изначально эта система предназначалась для конвертации документов большого объема с высокой производительностью.

Имеются также некоторые минусы в новшестве поисковой системы Google. Во-первых, некоторые выкладывают PDF документы, зараннее зная, что они не будут доступны в сети, нынешняя ситуация заставляет пересмотреть свою стратегию. Ну а также тем, кто искал отсканированный готовый контент в сети и публиковал в виде текста у себя на сайте теперь прийдется искать новые способы добычи контента.

Ссылки по теме:
http://googleblog.blogspot.com/…/picture-of-thousand-words.html
http://googlesystem.blogspot.com/…/google-uses-ocr-to-index-pdf-files.html

Если вам понравилась статья, вы можете подписаться на RSS или E-mail рассылку. Для получения обновлений по электронной почте, введите ваш e-mail адрес в эту форму (Доставка от FeedBurner):