Как сообщили сегодня на официальном блоге Яндекс, сервис Яндекс.Картинки научились находить одинаковые изображения в сети Интернет.

Поиск точных копий изображений никогда не был сложным для поисковых систем алгоритмом, однако незначительные модификации, изменение размеров картинки, добавление надписей или же обычное пережатие JPG файла помогали изображению стать уникальным и попасть в результаты поиска в виде дубликата (клона).

Компания Яндекс провели исследование картинок Рунета и оказалось, что из 600 млн. изображений половина уникальна (300 млн.), вторая же половина формируется в отношении 3:1, 200 из 300 млн. имеют дубликаты только на своем ресурсе.

iPhone - 174 дубликата (клона)

Когда мы начали решать задачу поиска дубликатов, мы просто хотели “почистить” выдачу от повторяющихся картинок и сделать выдачу более разнообразной. Но впоследствии мы поняли, что в наших руках оказалось нечто большее. Веб-мастера не любят в свои страницы вставлять картинки, которые загружаются с других сайтов, они их копируют, и зачастую меняют размеры, чтобы вписать в свой дизайн. Каждой копии картинки доставалось меньше подписей, поэтому не всегда просто было понять, насколько картинка соответствует запросу?

Склейка дублей позволила определить тот небольшой процент изображений, который интересен многим веб-мастерам и, соответственно, пользователям. Для таких картинок имеется множество подписей, их можно сравнить между собой и с запросом для того, чтобы понять, насколько картинка правильно ему соответствует.

Один из многочисленных типов картинок — это пары: исходное изображение и его уменьшенная копия (тумбнейл), расположенные на одном ресурсе. Как оказалось, маленькие картинки чаще хорошо подписывают, однако они не попадают на первые страницы результатов поиска из-за своих размеров.

Благодаря новой технологии мы научились находить маленькую картинку, а показывать ее большой оригинал. На странице просмотра картинки мы показываем табличку копий картинки на разных сайтах.

Показ таблицы копий картинок на различных ресурсах помогает пользователям догадаться, что иногда через поиск по картинкам можно также найти ресурс с интересующей информацией. Также, веб-мастерам предоставляется информация о сайтах, использующих изображения авторов. Для этого достаточно только найти свою картинку в поиске.

Дмитрий Михалёв, Федор Романенко. Яндекс.Картинки

Если вам понравилась статья, вы можете подписаться на RSS или E-mail рассылку. Для получения обновлений по электронной почте, введите ваш e-mail адрес в эту форму (Доставка от FeedBurner):