Яндекс.Диск научился искать по тексту на изображениях
Компания Яндекс сообщила о новой возможности своего облачного хранилища. В Яндекс.Диске появилась возможность искать изображения форматов JPEG, GIF и PNG, содержащие текст поискового запроса. Достаточно ввести в поисковую строку нужное слово, и система найдёт на Диске картинки, на которых оно встретится. В результатах поиска пользователи также увидят файлы и папки, в названиях и описаниях которых есть это слово, и документы, в тексте которых оно содержится.
Когда на Диске тысячи фотографий, разложенных по разным папкам, поиск по текстам позволит быстро найти среди них нужную. Например, скан договора с названием вроде scan723.JPG или фотографию визитки человека, с которым понадобилось связаться. Искать можно не только документы, но и любые фотографии, которые сделаны для того, чтобы сохранить текст, передает www.ferra.ru.
Система состоит из двух частей — классификатора картинок и модуля распознавания. Конечно, точность распознавания текста (а значит, и успех поиска) зависит от типа изображения, его чёткости, фона, на котором находится текст, и многих других факторов.
Например, для отсканированных документов точность распознавания текстов на русском языке составляет около 80%, для фотографий с надписями — 63,2%, а для скриншотов приближается к 100%. Помимо русского языка, система также распознаёт английский, украинский и турецкий. Точность распознавания текстов всего потока изображений более 70%.