• 1987 (Том 1)

МАКСИМАЛЬНАЯ НЕВЯЗКА НАПРАВЛЕНИЙ КАК КРИТЕРИЙ ТОЧНОСТИ ПРОЕКТИВНОЙ НОРМАЛИЗАЦИИ ИЗОБРАЖЕНИЯ ПРИ ОПТИЧЕСКОМ РАСПОЗНАВАНИИ ТЕКСТА

© 2020 г. И. А. Коноваленко1,2, Д. В. Полевой2,3,4,5, Д. П. Николаев1,2

1Институт проблем передачи информации РАН 127051 Москва, Большой Каретный переулок, д. 19, Россия
konovalenko@iitp.ru
2Smart Engines Service LLC 117312 Москва, проспект 60-летия Октября, д. 9, Россия
3Федеральный исследовательский центр “Информатика и управление” РАН 117312 Москва, проспект 60-летия Октября, д. 9, Россия
4Национальный исследовательский технологический университет “МИСиС” 119049 Москва, Ленинский проспект, д. 4, Россия
5Московский физико-технический институт 141701 г. Долгопрудный, Институтский переулок, д. 9, Россия

Поступила в редакцию 08.10.2019 г.

Общепринято применение проективной нормализации (частный случай ортокоррекции) к фотографиям документов для их дальнейшего оптического распознавания. На сегодняшний день известен ряд критериев точности проективной нормализации. Почти все они характеризуют только невязку координат. Однако текстовые поля документов обычно имеют вытянутую форму, так что даже при небольших невязках координат возможны большие невязки направлений, которые значительно влияют на качество сегментации поля и распознавания отдельных символов в нем. Проблема точной коррекции невязок направлений стоит и в задачах томографии, если для измерения используется спиральная схема сканирования или проекции регистрируются в схемах томосинтеза. Для описания точности проективной нормализации изображения в точке предлагается поточечная максимальная невязка направлений. В качестве критерия точности проективной нормализации всего изображения предлагается максимальная невязка направлений, равная максимальной по области интереса поточечной максимальной невязке направлений. Получено аналитическое решение задачи вычисления поточечной максимальной невязки направлений. Выдвинута и численно подтверждена гипотеза о том, что поточечная максимальная невязка направлений – квазивыпуклая функция. Доказана теорема о том, что супремум квазивыпуклой функции на ограниченном замкнутом множестве равен супремуму на крайних точках его выпуклой оболочки. На основании гипотезы и теоремы предложено аналитическое решение задачи вычисления максимальной невязки направлений на полиэдральной области интереса.

Ключевые слова: ортокоррекция, коррекция перспективы, проективная нормализация изображений, критерии точности, невязка направлений, оптическое распознавание символов, математическое программирование

DOI: 10.31857/S0235009220020079

Цитирование для раздела "Список литературы": Коноваленко И. А., Полевой Д. В., Николаев Д. П. Максимальная невязка направлений как критерий точности проективной нормализации изображения при оптическом распознавании текста. Сенсорные системы. 2020. Т. 34. № 2. С. 131–146. doi: 10.31857/S0235009220020079
Цитирование для раздела "References": Konovalenko I. A., Polevoy D. V., Nikolaev D. P. Maksimalnaya nevyazka napravlenii kak kriterii tochnosti proektivnoi normalizatsii izobrazheniya pri opticheskom raspoznavanii teksta [Maximal directions discrepancy as accuracy criterion of images projective normalization for optical text recognition]. Sensornye sistemy [Sensory systems]. 2020. V. 34(2). P. 131–146 (in Russian). doi: 10.31857/S0235009220020079

Список литературы:

  • Балицкий А.М., Савчик А.В., Гафаров Р.Ф., Коноваленко И.А. О проективно инвариантных точках овала с выделенной внешней прямой. Проблемы передачи информации. 2017. Т. 53. № 3. С. 84–89.
  • Березский О.Н., Березская К.М. Количественная оценка качества сегментации изображений на основе метрик. Управляющие системы и машины. 2015. № 6. С. 59–65.
  • Болотова Ю.А., Спицын В.Г., Осина П.М. Обзор алгоритмов детектирования текстовых областей на изображениях и видеозаписях. Компьютерная оптика. 2017. Т. 41. № 3. С. 441–452.
  • Бузмаков А.В., Асадчиков В.Е., Золотов Д.А., Чукалина М.В., Ингачева А.С., Кривоносов Ю.С. Лабораторные рентгеновские микротомографы: методы предобработки экспериментальных данных. Известия РАН. Серия физическая. 2019. Т. 83 (2). С. 194–197. https://doi.org/10.1134/S0367676519020066
  • Ефимов А.И., Новиков А.И. Алгоритм поэтапного уточнения проективного преобразования для совмещения изображений. Компьютерная оптика. 2016. Т. 40. № 2. С. 258–265. https://doi.org/10.18287/2412-6179-2016-40-2-258-265
  • Зейналов Р., Велижев А., Конушин А. Восстановление формы страницы текста для коррекции геометрических искажений. Международная конференция Графикон. М.: 2009. С. 125–128.
  • Катаманов С.Н. Автоматическая привязка изображений геостационарного спутника MTSAT-1R. Современные проблемы дистанционного зондирования Земли из космоса. 2007. Т. 1. № 4. С. 63–68.
  • Николаев П.П. Проективно инвариантное описание неплоских гладких фигур. 1. Предварительный анализ задачи. Сенсорные системы. 2016. Т. 30. № 4. С. 290–311.
  • Притула Н.Е., Николаев П.П., Шешкус А.В. Сравнение двух алгоритмов проективно-инвариантного распознавания плоских замкнутых контуров с единственной вогнутостью. Сборник трудов ИТИС-14. 2014. С. 367–373.
  • Путятин Е.П., Прокопенко Д.О., Печеная Е.М. Вопросы нормализации изображений при проективных преобразованиях. Радиоэлектроника и информатика. 1998. № 2 (3). С. 82–86.
  • Рокафеллар Р. Выпуклый анализ. М.: Мир, 1973. Т. 472. С. 34–39.
  • Савчик А.В., Николаев П.П. Метод проективного сопоставления для овалов с двумя отмеченными точками. Информационные технологии и вычислительные системы. 2018. № 1. С. 60–67.
  • Холопов И.С. Алгоритм коррекции проективных искажений при маловысотной съемке. Компьютерная оптика. 2017. Т. 41. № 2. С. 284–290.
  • Шапиро Л., Стокман Д., Богуславский А.А., Соколов С.М. Компьютерное зрение. М.: БИНОМ, 2013. 763 с.
  • Шемякина Ю.А., Жуковский А.Е., Фараджев И.А. Исследование алгоритмов вычисления проективного преобразования в задаче наведения на планарный объект по особым точкам. Искусственный интеллект и принятие решений. 2017. № 1. С. 43–49.
  • Юдин Д.Б. Математические методы управления в условиях неполной информации. Издательская группа URSS, М. 2010. 400 с.
  • Arlazarov V.V., Slavin O.A.E., Uskov A.V.E., Janiszewski I.M. Modelling the flow of character recognition results in video stream. Bulletin of the South Ural State University. Ser. Mathematical Modelling, Programming and Computer Software. 2018. V. 11. № 2. P. 14–28. https://doi.org/10.14529/mmp180202
  • Arvind C.S., Mishra R., Vishal K., Gundimeda V. Vision based speed breaker detection for autonomous vehicle. Tenth International Conference on Machine Vision (ICMV): International Society for Optics and Photonics. 2018. V. 106960E. P. 1–9. https://doi.org/10.1117/12.2311315.
  • Awal A.M., Ghanmi N., Sicre R., Furon T. Complex document classification and localization application on identity document images. 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). IEEE. 2017. V. 1. P. 426–431. https://doi.org/10.1109/ICDAR.2017.77.
  • Bezmaternykh P.V., Nikolaev D.P., Arlazarov V.L. Textual blocks rectification method based on fast Hough transform analysis in identity documents recognition. Tenth International Conference on Machine Vision (ICMV): International Society for Optics and Photonics. 2018. V. 1069606. P. 1–6. https://doi.org/10.1117/12.23 10162.
  • Calore E., Pedersini F., Frosio I. Accelerometer based horizon and keystone perspective correction. 2012 IEEE International Instrumentation and Measurement Technology Conference Proceedings. 2012. P. 205–209. https://doi.org/10.1109/I2MTC.2012.6229434.
  • Chen H., Sukthankar R., Wallace G., Li K. Scalable alignment of large-format multi-projector displays using camera homography trees. Proceedings of the conference on Visualization'02. IEEE Computer Society. 2002. P. 339–346.
  • Dubuisson M.P., Jain A.K. A modified Hausdorff distance for object matching. Proceedings of 12th international conference on pattern recognition. IEEE. 1994. V. 1. P. 566–568. https://doi.org/10.1109/ICPR.1994.576361.
  • Fréchet M.M. Sur quelques points du calcul fonctionnel. Rendiconti del Circolo Matematico di Palermo (1884–1940). 1906. V. 22. № 1. P. 1–72.
  • Hsu S.C., Sawhney H.S. Influence of global constraints and lens distortion on pose and appearance recovery from a purely rotating camera. Proceedings Fourth IEEE Workshop on Applications of Computer Vision. WACV'98 (Cat. No. 98EX201). 1998. P. 154–159. https://doi.org/10.1109/ACV.1998.732873.
  • Huttenlocher D.P., Klanderman G.A., Rucklidge W.J. Comparing images using the Hausdorff distance. IEEE Transactions on pattern analysis and machine intelligence. 1993. V. 15. № 9. P. 850–863. https://doi.org/10.1109/34.232073
  • Jaccard P. Étude comparative de la distribution florale dans une portion des Alpes et des Jura. Bull Soc Vaudoise Sci Nat. 1901. V. 37. P. 547–579.
  • Jesorsky O., Kirchberg K.J., Frischholz R.W. Robust face detection using the hausdorff distance. International conference on audio-and video-based biometric person authentication. 2001. P. 90–95.
  • Karpenko S., Konovalenko I., Miller A., Miller B., Nikolaev D. UAV control on the basis of 3D landmark bearing-only observations. Sensors. 2015. V. 15. № 12. P. 29802–29820. https://doi.org/10.3390/s151229768
  • Konovalenko I.A., Shemiakina J.A. Error values analysis for inaccurate projective transformation of a quadrangle. Journal of Physics: Conference Series. – IOP Publishing. 2018. V. 1096. № 1. P. 1–9. https://doi.org/10.1088/1742-6596/1096/1/012038
  • Kunina I.A., Gladilin S.A., Nikolaev D.P. Blind radial distortion compensation in a single image using fast Hough transform. Computer optics. 2016. V. 40. P. 395–403. https://doi.org/10.18287/2412-6179-2016-40-3-395-403
  • Kunina I.A., Terekhin A.P., Gladilin S.A., Nikolaev D.P. Blind radial distortion compensation from video using fast Hough transform. International Conference on Robotics and Machine Vision. 2017. V. 10253. № 1025308. P. 1–7. https://doi.org/10.1117/12.2254867.
  • Legge G.E., Pelli D.G., Rubin G.S., Schleske M.M. Psychophysics of reading–I. Normal vision. Vision research. 1985. V. 25. № 2. P. 239–252. https://doi.org/10.1016/0042-6989(85)90117-8
  • Povolotskiy M.A., Kuznetsova E.G., Khanipov T.M. Russian license plate segmentation based on dynamic time warping. European Conference on Modelling and Simulation. 2017. P. 285–291.
  • Rodríguez-Piñeiro J., Comesaña-Alfaro P., PérezGonzález F., Malvido-García A. A new method for perspective correction of document images. Document Recognition and Retrieval XVIII. International Society for Optics and Photonics. 2011. V. 787410. P. 1–12.
  • Sim D.G., Kwon O.K., Park R.H. Object matching algorithms using robust Hausdorff distance measures. IEEE Transactions on image processing. 1999. V. 8. № 3. P. 425–429. https://doi.org/10.1109/83.748897
  • Orrite C., Herrero J.E. Shape matching of partially occluded curves invariant under projective transformation. Computer Vision and Image Understanding. 2004. V. 93. № 1. P. 34–64. https://doi.org/10.1016/j.cviu.2003.09.005
  • Skoryukina N., Chernov T., Bulatov K., Nikolaev D.P., Arlazarov V. Snapscreen: TV-stream frame search with projectively distorted and noisy query. Ninth International Conference on Machine Vision (ICMV): International Society for Optics and Photonics. 2017. V. 103410Y. P. 1–5. https://doi.org/10.1117/12.2268735.
  • Skoryukina N., Shemiakina J., Arlazarov V.L., Faradjev I. Document localization algorithms based on feature points and straight lines. International Society for Optics and Photonics. 2018. V. 106961H. P. 1–5. https://doi.org/10.1117/12.2311478
  • Takezawa Y., Hasegawa M., Tabbone S. Camera-captured document image perspective distortion correction using vanishing point detection based on Radon transform. 23rd International Conference on Pattern Recognition (ICPR). IEEE. 2016. P. 3968–3974. https://doi.org/10.1109/ICPR.2016.7900254.
  • Wei H., Wang Y., Forman G., Zhu Y. Map matching by Fréchet distance and global weight optimization. Technical Paper, Departement of Computer Science and Engineering. 2013. P. 19–30.
  • Xie Y., Tang G., Hoff W. Geometry-based populated chessboard recognition. Tenth International Conference on Machine Vision (ICMV): International Society for Optics and Photonics. 2018. V. 1069603. P. 1–5.
  • Zhang Z., He L.W. Whiteboard scanning and image enhancement. Digital Signal Processing. 2007. V. 17. № 2. P. 414–432. g/10.1016/j.dsp.2006.05.006
  • Zhukovsky A., Nikolaev D., Arlazarov V., Postnikov V., Polevoy D., Skoryukina N., Chernov T., Shemiakina J., Mukovozov A., Konovalenko I. Segments graph-based approach for document capture in a smartphone video stream. IAPR International Conference on Document Analysis and Recognition (ICDAR). 2017. №1. P. 337–342. https://doi.org/10.1109/ICDAR.2017.63.