Новый алгоритм использует для распознавания не четырехугольные области, а трубчатое представление рамок текста.
Разработчики разрабатывают системы оптического распознавания символов (OCR) с начала 1970-х годов. Современные проблемы этого направления — распознавание сложных шрифтов и рукописного текста.
Программисты Amazon разработали технологию TextTubes, которая заключается в моделировании текста в виде трубок вокруг их средней оси.
В статье, опубликованной на arxiv.org авторы подробно описывают свое решение. В отличие от традиционных методик новый алгоритм использует для распознавания не четырехугольные области, а трубчатое представление рамок текста.
Разработчики протестировали технологию на наборах данных CTW-1500 (1500 изображений) и Total-Text (около 1255 изображений). Все тестовые изображения содержали хотя бы по одной надписи, написанной изогнутым шрифтом.
Технология TextTubes показала себя существенно лучше традиционных подходов: 83,65% против 75,6%.
Поделитесь этим с друзьями!
Будьте первым, кто оставит комментарий
Пожалуйста, авторизируйтесь для возможности комментировать