В работе рассматривается использование метрических нейронных сетей в задаче распознавания изображений слов. Подход к
распознаванию слов, основанный на распознавании отдельных букв, хорошо изучен, но плохо применим к некоторым видам
текста. Действительно, рукописные, написанные арабским языком или имеющие лигатуры тексты трудно сегментируются на
буквы. Кроме этого, в тексте могут появляться слипшиеся символы, если изображения сильно зашумлены и/или искажены из-за
несовершенства камеры. Все эти проблемы возникают в системах распознавания текста с заданным шаблоном, где набор слов
может быть ограничен. В таких случаях разумно распознавать слова целиком, хотя словарь ответов может быть большим и не
обязательно известным на этапе обучения. Для решения задачи распознавания изображений слов мы предлагаем использовать
метрическую нейронную сеть. В работе приводится сравнение качества распознавания метрической нейронной сети со
стандартной классифицирующей на словах, собранных с поля “пол” паспорта гражданина РФ. Параметры всех слоев, кроме
последнего, у метрической и классифицирующей сетей были сделаны одинаковыми для обеспечения чистоты эксперимента.
Результаты показывают пригодность метрических нейронных сетей для решения задачи распознавания слов. Основными
преимуществами предлагаемого метода являются возможность расширения алфавита сети уже после обучения и отсутствие
необходимости сегментировать слово на символы.
Ключевые слова:
распознавание текста, свёрточные нейронные сети, глубокое обучение, сиамские нейронные сети, обучение метрики
DOI: 10.1134/S0235009219010049
Цитирование для раздела "Список литературы":
Чирвоная А. Н., Лынченко А. Е., Чернышова Ю. С., Шешкус А. В.
Сравнение классифицирующей и метрической свёрточных сетей на примере распознавания поля “пол” паспорта гражданина рф.
Сенсорные системы.
2019.
Т. 33.
№ 1.
С. 65-69. doi: 10.1134/S0235009219010049
Цитирование для раздела "References":
Chirvonaya A. N., Lynchenko A. E., Chernyshova Y. S., Sheshkus A. V.
Sravnenie klassifitsiruyushchei i metricheskoi svertochnykh setei na primere raspoznavaniya polya “pol” pasporta grazhdanina rf
[Comparison of the classifying and similarity metric-based neural networks through the recognition of the filed “gender” in russian federation passport].
Sensornye sistemy [Sensory systems].
2019.
V. 33(1).
P. 65-69
(in Russian). doi: 10.1134/S0235009219010049
Список литературы:
- Арлазаров В.В., Жуковский А.Е., Кривцов В.Е., Николаев Д.П., Полевой Д.В. Анализ особенностей использования стационарных и мобильных малоразмерных цифровых видеокамер для распознавания документов. Информационные технологии и вычислительные системы. 2014. № 3. С. 71–81.
- Лёзин И.А., Соловьёв А.В. Сжатие изображений с использованием многослойного персептрона. Известия Самарского научного центра РАН. 2016. Т. 18. №4. С. 770–773.
- Прохоров В.Г. Использование свёрточных нейронных сетей для распознавания рукописних символов. Проблеми програмування. 2008. № 2-3. С. 669-674.
- Чернов Т.С., Ильин Д.А., Безматерных П.В., Фараджев И.А., Карпенко С.М. Исследование методов сегментации изображений текстовых блоков документов с помощью алгоритмов структурного анализа и машинного обучения. Вестник РФФИ. 2016. № 4 (92). С. 55–71. doi 10.22204/2410-4639-2016-092-04-55-71
- Bulatov K., Arlazarov V.V., Chernov T., Slavin O., Nikolaev D.P. Smart IDReader: Document Recognition in Video Stream. The 14th IAPR International Conference on Document Analysis and Recognition. 2018. P. 39–44. doi 10.1109/ICDAR.2017.34710.1109/ICDAR.2017.347
- Chernyshova Y., Gayer A., Sheshkus A. Generation method of synthetic training data for mobile OCR system. Proc. SPIE 10696, Tenth International Conference on Machine Vision. 2018. P. 1–7. doi 10.1117/12.2310119.10.1117/12.2310119
- Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. New York. Springer-Verlag, 2009. 745 p.
- Jaderberg M., Simonyan K., Vedaldi A., Zisserman A. Synthetic Data and Artificial Neural Networks for Natural Scene Text Recognition. NIPS Deep Learning Workshop. 2014. P. 1–10.
- Koch G., Zemel R., Salakhutdinov R. Siamese Neural Networks for One-shot Image Recognition. Proceedings of the 32 International Conference on Machine Learning. 2015. V. 2. 8 p.
- Lecun Y., Bottou L., Bengio Y., Haffner P. Gradient-based learning applied to document recognition. Intelligent Signal Processing. New York. IEEE Press, 2001. P. 306–351.
- Liu Y., Wang Z., Jin H., Wassel I. Synthetically supervised feature learinig for scene text recognition. The European Conference on Computer Vision. 2018. P. 435–451.
- Venkata Rao N., Sastry A.S.C.S., Chakravarthy A.S.N., Kalyanchakravarthi P. Optical character recognition technique algorithms. Journal of Theoretical and Applied Information Technology. 2016. V. 83. P. 275–282.