+7(499) 638-3883, +7(812) 240-17-18

«Яндекс» запустил функцию распознавания текста на картинках

Компания «Яндекс» объявила о запуске сервиса, который позволит пользователям «Яндекс.Диска» распознавать текст на загруженных изображениях. Об этом сообщается в блоге «Яндекса». С помощью этой функции можно будет легко находить нужные изображения форматов JPEG, GIF и PNG, содержащие текст поискового запроса.

«Когда на Диске тысячи фотографий, разложенных по разным папкам, поиск по текстам позволит быстро найти среди них нужную. Например, скан договора с названием вроде scan723.JPG или фотографию визитки человека, с которым понадобилось связаться. Искать можно не только документы, но и любые фотографии, которые сделаны для того, чтобы сохранить текст, будь то объявление на двери подъезда или любопытный рекламный плакат в метро», — говорится в публикации.

Сообщается, что в основе поиска текстов на изображениях лежит технология оптического распознавания символов, способная распознавать текст на разных по виду, содержанию и качеству картинках.

Система включает в себя классификатор картинок и модуль распознавания. Сначала классификатор анализирует все изображения, отбирая те, на которых обнаруживается текст. Когда изображения с текстом отобраны, алгоритм находит на них линии, предположительно содержащие текст, а затем отбираются только те линии текста, в которых алгоритм уверен.

На следующем этапе модуль распознавания разбивает линии текста на отдельные символы. Для каждого символа выбирается несколько наиболее вероятных вариантов распознавания. После этого в дело вступает языковая модель — алгоритм принимает решение, какой из символов-кандидатов подходит лучше всего.

Языковая модель опирается на словари и учитывает не только сходство символов с теми, что знает система, но и контекст. Если из нескольких вероятных символов складывается известное системе слово, то она принимает решение, что на картинке написано именно оно, даже в том случае, если некоторые символы-кандидаты в этом слове менее вероятны.

В сообщении отмечается, что точность распознавания текста зависит от типа изображения, его четкости, фона, на котором находится текст, и многих других факторов. Например, для отсканированных документов точность распознавания текстов на русском языке составляет около 80%, для фотографий с надписями — 63,2%, а для скриншотов приближается к 100%.

Помимо русского языка система также распознает английский, украинский и турецкий. Точность распознавания текстов всего потока изображений составляет свыше 70%, и в компании обещают улучшить этот показатель.

Оставить комментарий

Я не робот.

JSantispam

В Вашем браузере отключена поддержка JavaScript! Для корректной работы Вам необходимо включить поддержку JavaScript и обновить данную страницу.

Stars-Media
Rambler's Top100
©Все права защищены. Net-Systems 2004-2019