В работе исследуется задача сравнения оцифрованных страниц деловых документов. Такая задача возникает при сравнении двух
экземпляров документов, подписанных двумя сторонами с целью найти возможные модификации, внесенные одной стороной.
Данная задача является практически значимой в банковской сфере при заключении договоров в бумажной форме. Предложен
способ сравнения двух оцифрованных экземпляров на основе алгоритмов распознавания текста, состоящий в сравнении наборов
слов, полученных в результате применения такого рода алгоритмов к эталонной и тестовой страницам. Описанные эксперименты
были проведены с использованием OCR Tesseract. Достоинствами предложенного способа является универсальность алгоритма
сравнения и высокая точность сравнения. В качестве главного недостатка предложенного алгоритма можно отметить –
зависимость от гарнитуры и размера шрифта, использованного для печати.
Ключевые слова:
алгоритмы сравнения оцифрованных копий документов, автоматическое распознавание текста, расстояние Левенштейна
DOI: 10.7868/S0235009218010067
Цитирование для раздела "Список литературы":
Андреева Е. И., Манжиков Т. В., Славин О. А.
Сравнение оцифрованных страниц деловых документов на основе распознавания.
Сенсорные системы.
2018.
Т. 32.
№ 1.
С. 35-41. doi: 10.7868/S0235009218010067
Цитирование для раздела "References":
Andreeva E. I., Manzhikov T. V., Slavin O. A.
Sravnenie otsifrovannykh stranits delovykh dokumentov na osnove raspoznavaniya
[Comparison of the digitized pages of business documents by means of recognition].
Sensornye sistemy [Sensory systems].
2018.
V. 32(1).
P. 35-41
(in Russian). doi: 10.7868/S0235009218010067
Список литературы:
- Булатов К.Б., Ильин Д.А., Полевой Д.В., Чернышова Ю.С. Проблемы распознавания машиночитаемых зон с использованием малоформатных цифровых камер мобильных устройств. Труды Института Системного Анализа Российской Академии Наук. 2015. Т. 65. № 3. С. 85–94.
- Славин О.А. Метод классификации распознанных страниц деловых документов на основе метода template matching. Труды Седьмой Международной конференции “Системный анализ и информационные технологии” САИТ – 2017. 2017. С. 667–671.
- Смирнов С.В. Технология и система автоматической корректировки результатов при распознавании архивных документов. Канд. дисс. СПб. 2015. 130 с.
- Khanipov Т.М., Nikolaev D.P. Issledovanie metoda slijanija oblastej v zadache cvetovoj segmentacii [Investigation of the regions fusion method in the problem of color segmentation]. Proceedings of the conference Information Technologies and Systems ITaS. 2010. Р. 151–155. [in Russian])."
- Usilin S., Nikolaev D., Postnikov V. Structural Compression of Document Images with PDF/A. Proc. 24th European Conf. Modelling and Simulation. 2010. P. 242–246.