В работе рассматривается алгоритм синтеза данных для обучения сверточных нейронных сетей. Эта проблема актуальна, так
как получить достаточное количество данных естественным путем зачастую бывает сложно или попросту невозможно. Мы
рассмотрели существующие методы генерации датасетов и разработали собственный генератор данных на основе набора шрифтов
и фонов, а также провели эксперименты по обучению сетей на полученных датасетах. В статье представлено сравнение
результатов обучения на настоящих и искусственных данных в виде символов полей паспорта РФ. Предложенный подход показал
свою эффективность – точность обучения на синтезированном датасете сравнима с таковой на натуральных данных.
Ключевые слова:
OCR системы, машинное обучение, сверточные нейронные сети, синтез обучающей выборки
DOI: 10.1134/S023500921803006X
Цитирование для раздела "Список литературы":
Гайер А. В., Чернышова Ю. С., Коноваленко И. А.
Генерация искусственной обучающей выборки для задачи распознавания символов полей паспорта рф.
Сенсорные системы.
2018.
Т. 32.
№ 3.
С. 230-235. doi: 10.1134/S023500921803006X
Цитирование для раздела "References":
Gayer A. V., Chernyshova Y. S., Sheshkus A. V.
Generatsiya iskusstvennoi obuchayushchei vyborki dlya zadachi raspoznavaniya simvolov polei pasporta rf
[Artificial training data generation for the task of character recognition of fields of russian passport].
Sensornye sistemy [Sensory systems].
2018.
V. 32(3).
P. 230-235
(in Russian). doi: 10.1134/S023500921803006X
Список литературы:
- Арлазаров В.В., Постников В.В., Шоломов Д.Л. Cognitive Forms – система массового ввода структурированных документов. Труды ИСА РАН. 2002. С. 35–46.
- Арлазаров В.В., Жуковский А.Е., Кривцов В.Е., Николаев Д.П., Полевой Д.В. Анализ особенностей использования стационарных и мобильных малоразмерных цифровых видео камер для распознавания документов. Информационные технологии и вычислительные системы. 2014. Т. 3. С. 71–81.
- Иванова А., Кузнецова Е., Николаев Д. Прикладные особенности обучения нейросетевых классификаторов в индустриальных задачах распознавания образов. Информационные технологии и системы (ИТиС'15): сборник трудов конференции. 2015. С. 1169–1184.
- Моисеев Б., Чигорин А. Классификация автодорожных знаков на основе свёрточной нейросети, обученной на синтетических данных. The 22nd International Conference on Computer Graphics and Vision. 2012. P. 284–287.
- Николаев Д.П., Полевой Д.В., Тарасова Н.А. Синтез обучающей выборки в задаче распознавания текста в трехмерном пространстве. Информационные технологии и вычислительные системы. 2014. Т. 3. С. 82–88.
- Полевой Д.В. Актуальные задачи создания систем массового ввода с использованием оптического распознавания для преобразования сложно структурированных бумажных документов в гибридных информационных системах. Системный анализ и информационные технологии (САИТ). 2011. Т. 2. С. 192–195.
- Goodfellow I., Pouget-Abadie J., Mirza M., Xu B., Warde-Farley D., Ozair S., Courville A., Bengio Y. Generative adversarial nets. In Proc. NIPS. 2014.
- Gupta A., Vedaldi A., Zisserman A. Synthetic Data for Text Localisation in Natural Images. Computer Vision and Pattern Recognition (CVPR). 2016. P. 2315–2324.
- Ilin D., Krivtsov V. Creating training datasets for OCR in mobile device video stream. Proc. 29th European Conference on Modelling and Simulation. 2015. P. 516–520.
- Jaderberg M., Simonyan K., Vedaldi A., Zisserman A. Synthetic Data and Artificial Neural Networks for Natural Scene Text Recognition. Computer Vision and PatternRecognition (CVPR). 2014.
- Postnikov V.V., Sholomov D.L., Marchenko A.E. Flexi-Docs: The Template Driven Document Recognition Technology. Proceedings of the 6th German-Russian Workshop on Pattern Recognition and Image Understanding (OGRW-6). 2003.
- Shrivastava A., Pfister T., Tuzel O., Susskind J., Wang W., Webb R. Learning from Simulated and Unsupervised Images through Adversarial Training. Computer Vision and Pattern Recognition (CVPR). 2017. P. 2242–2251.
- Wood E., Baltrusaitis T., Morency L., Robinson P., Bulling A. Learning an Appearance-Based Gaze Estimator from One Million Synthesised Images. ETRA, Proceedings of the Ninth Biennial ACM Symposium on Eye Tracking Research & Applications. 2016. P. 131–138.