The paper presents a method for detecting false responses of localization and identification algorithms. The method considers matching image characteristics that cannot be described by local features stably and completely. It is proposed to use image zones containing such features, describe them and use them to assess the validity of the algorithm response. In the work we demonstrate how the algorithm works on ID documents. Possible features are images of the coats of arms and flags of countries, background filling and text unique to the considered document type. To illustrate the proposed algorithm, the MIDV-500 and MIDV-LAIT datasets were taken. The first is used to show that the rejector does not reject correct system responses, the second - that it rejects the incorrect ones. We test several methods of zone description. The experimental results show that false type selection decreases with the use of any description type and the local CNN-descriptor shows the best performance. The increase of classes with marked zones is shown to improve the filtration of false responses. The experiments show the improvement from by 13% with one type with zones to by 4 times with 10 types.
Идентификаторы и классификаторы
Recognition systems are an important component of RPA solutions with data entry automation. Various organizations, both government establishments and private companies, use such solutions to improve the processes efficiency, incl. document flow. The use of recognition systems for document images not only speeds the input up, but also provides the ability to check documents for authenticity. Although the problem of document recognition has been studied for more than 50 years, it remains relevant due to development of mobile devices, remote servers and anti-fraud methods.
Список литературы
1. Arlazarov, V.L., Arlazarov, V.V., Bulatov, K.B., & et al. (2022). Mobile ID Document Recognition-Coarse-to-Fine Approach. Pattern Recognit, Image Anal, 32, 89-108. DOI: 10.1134/S1054661822010023 EDN: EUCPGK
2. Attivissimo, F., Giaquinto, N., Scarpetta, M., & Spadavecchia, M. (2019). An Automatic Reader of Identity Documents. 2019 IEEE International Conference on Systems, Man and Cybernetics (SMC), 3525-3530,. DOI: 10.1109/SMC.2019.8914438 EDN: MLXKEH
3. Das Neves, R. B., Felipe Vercosa, L., Macedo, D., Dantas Bezerra, B. L., & Zanchettin, C. (2020). A Fast Fully Octave Convolutional Neural Network for Document Image Segmentation. 2020 International Joint Conference on Neural Networks (IJCNN). DOI: 10.1109/IJCNN48605.2020.9206711
4. Augereau, O., Journet, N., & Domenger, J.-P. (2013). Semistructured document image matching and recognition. Document Recognition and Retrieval XX. DOI: 10.1117/12.2003911
5. Awal, A. M., Ghanmi, N., Sicre, R., & Furon, T. (2017). Complex Document Classification and Localization Application on Identity Document Images. 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). DOI: 10.1109/icdar.2017.77
6. Skoryukina, N., Arlazarov, V., & Nikolaev, D. (2019). Fast Method of ID Documents Location and Type Identification for Mobile and Server Application. 2019 International Conference on Document Analysis and Recognition (ICDAR). DOI: 10.1109/icdar.2019.00141 EDN: OSPPYL
7. Bay, H., Ess, A., Tuytelaars, T., & Van Gool, L. (2008). Speeded-Up Robust Features (SURF).Computer Vision and Image Understanding, 110(3), 346-359. DOI: 10.1016/j.cviu.2007.09.014
8. Lowe, D. G. (2004). Distinctive Image Features from ScaleInvariant Keypoints.International Journal of Computer Vision, 60(2), 91-110. doi:10.1023/B:VISI.0000029664.99615.94. EDN: FOWIVJ
9. Fischler, M. A., & Bolles, R. C. (1981). Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography. Communications of the ACM, 24(6), 381-395. DOI: 10.1145/358669.358692
10. Bin Fan, Qingqun Kong, Trzcinski, T., Zhiheng Wang, Chunhong Pan, & Fua, P. (2014). Receptive Fields Selection for Binary Feature Description. IEEE Transactions on Image Processing, 23(6), 2583-2595. DOI: 10.1109/TIP.2014.2317981
11. Dalal, N., & Triggs, B. (n.d.). Histograms of Oriented Gradients for Human Detection. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05). DOI: 10.1109/CVPR.2005.177
12. Suárez, I., Sfeir, G., Buenaposada, J. M., & Baumela, L. (2020). BEBLID: Boosted Efficient Binary Local Image Descriptor. Pattern Recognition Letters. DOI: 10.1016/j.patrec.2020.04.005 EDN: NTSTJG
13. Bay, H., Ferraris, V., & Van Gool, L.(2005). Wide-Baseline Stereo Matching with Line Segments. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 1, 329336. DOI: 10.1109/CVPR.2005.375
14. Muja, M., & Lowe, D. G. (2009). Fast approximate nearest neighbors with automatic algorithm configuration. VISAPP (1), 2(331-340), 2. DOI: 10.5220/0001787803310340
15. Raguram, R., Chum, O., Pollefeys, M., Matas, J., & Frahm, J.-M. (2013). USAC: A Universal Framework for Random Sample Consensus. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(8), 2022-2038. DOI: 10.1109/TPAMI.2012.257
16. Chiron, G., Ghanmi, N., & Awal, A. M. (2021). ID documents matching and localization with multi-hypothesis constraints. 2020 25th International Conference on Pattern Recognition (ICPR). DOI: 10.1109/ICPR48806.2021.9412437 EDN: XBHIIF
17. Chiron, G., Ghanmi, N., & Awal, A. M. (2021). ID documents matching and localization with multi-hypothesis constraints. 2020 25th International Conference on Pattern Recognition (ICPR). DOI: 10.1109/ICPR48806.2021.9412437 EDN: XBHIIF
18. 9.Rusiñol, M., & Lladós, J. (2009). Logo Spotting by a Bagof-words Approach for Document Categorization. 2009 10th International Conference on Document Analysis and Recognition. DOI: 10.1109/ICDAR.2009.103
19. Arlazarov, V. V., Bulatov, K., Chernov, T., & Arlazarov, V. L. (2019). MIDV-500: A Dataset for Identity Document Analysis and Recognition on Mobile Devices in Video Stream. Computer Optics, 43(5), 818-824. DOI: 10.18287/2412-6179-2019-43-5-818-824 EDN: WISHND
20. Chernyshova, Y., Emelianova, E., Sheshkus, A., & Arlazarov, V.V. (2021). MIDV-LAIT: a challenging dataset for recognition of IDs with Perso-Arabic, Thai, and Indian scripts. The 16th International Conference on Document Analysis and Recognition (ICDAR). DOI: 10.1007/978-3030-86331-9_17 EDN: DOLBAS
21. Trzcinski, T., Christoudias, M., Fua, P., & Lepetit, V. (2013). Boosting Binary Keypoint Descriptors. 2013 IEEE Conference on Computer Vision and Pattern Recognition. DOI: 10.1109/CVPR.2013.370
22. Sheshkus, A., Chirvonaya, A., & Arlazarov, V.L.(2022). Tiny CNN for feature point description for document analysis: approach and dataset.Computer Optics, 46(3), 429435. DOI: 10.18287/2412-6179-CO-1016 EDN: CSLIUX
Выпуск
Другие статьи выпуска
The article presents the results of research on fractal (self-similar) graphs in relation to elastic computing. A characteristic feature of such graphs is their ability to unfold (increase dimensionality) and fold (decrease dimensionality). Two approaches to forming fractal graphs are considered: based on Kronecker product and fractal algebra. The interrelationship of algebraic operations of forming fractal graphs (linear graphs, grids, hypercubes, and trees) with tensor operations and tensor representation based on the integration of adjacency matrices and event vectors of elastic systems is presented. Definitions of corre-sponding types of dynamically changing tensors are introduced. An analysis of the properties of elastic fractal graphs and related tensor models is conducted
В статье рассматривается деятельность лесопромышленного предприятия без собственных источников сырья в лице делян, которое ставит себе целью найти оптимальное решение в конце горизонта планирования, основываясь на данных об уже реализованных сделках. В качестве источника сырья рассматривается товарно-сырьевая биржа, где лоты появляются каждый день в разных регионах добытчиках в случайном порядке. В работе представлена математическая модель, позволяющая оценить оптимальную траекторию значений прибыли на всем горизонте планирования и отличающуюся тем, что позволяет учитывать долю полезного объема сырья, которое по зачислению на склад можно использовать в производстве ОСБ плит и время лота в пути в условиях неопределенностей. Модель протестирована на данных товарно-сырьевой биржи России и одного из предприятий Приморского края. Проведен анализ полеченных решений.
В статье рассматриваются результаты работы наиболее распространенных алгоритмов стеганографии. Численным моделированием показана возможность противостоять атакам стегоанализа на различных этапах, связанных с объемом встраивания информации. Показано, что наиболее приемлемым можно считать адаптивные алгоритмы стеганографии.
Предлагается формальное определение компьютерной модели сложной системы, как рода структуры в смысле Н. Бурбаки - род структуры «модель». Класс математических объектов, определяемый этим родом структуры, обладает следующими двумя свойствами: комплекс, созданный объединением математических объектов рода структуры «модель» по определенным правилам, сам является математическим объектом этого рода структуры. Организация вычислительного процесса для всех математических объектов рода структуры «модель» однотипна и поэтому может быть реализована единой универсальной программой, притом ориентированной на параллельные вычисления. Наличие этих двух свойств позволяет построить сквозную технологию разработки, описания, синтеза и программной реализации моделей сложных систем - Модельно-ориентированное (МО) программирование.
Machine learning (ML) environments offer a variety of methods and tools that help to solve problems in different areas, including software engineering (SE). Currently, a large number of researchers are interested in the possibilities of using various machine learning techniques in software engineering. This paper provides an overview of machine learning techniques used in each stage of the software development life cycle (SDLC). The contribution of this review is significant. Firstly, by analyzing sources from bibliographic and abstract databases, it was found that the topic of integrating machine learning techniques into software engineering is relevant. Secondly, the article poses questions and reviews the methodology of this research. In addition, machine learning methods are systematized according to their application at each stage of software development. Despite the vast amount of research work on the use of machine learning techniques in software engineering, further research is required to achieve comprehensive comparisons and synergies of the approaches used, meaningful evaluations based on detailed practical implementations that could be adopted by the industry. Thus, future efforts should be directed towards reproducible research rather than isolated new ideas. Otherwise, most of these applications will remain poorly realized in practice.
В статье описывается разработанный программный сервис, предназначенный для автоматизации процесса предварительной обработки и фильтрации данных сигнала ЭЭГ с синхронизированной видеозаписью для анализа континуальных процессов мозга. Представление сигнала осуществляется в форме матрицы топографических карт распределения мощности сигнала по эпохам заданной длительности в заданных частотных диапазонах, позволяющей пользователю производить сравнительный анализ нескольких записей ЭЭГ во времени. Сервис предоставляет возможность детального анализа выбранного фрагмента записи, включающую оценку динамики изменения параметров фрагмента записи во времени. Сервис позволяет выполнять такой анализ с использованием синхронизированной видеозаписи участника с видеотрекингом его физиологических параметров, таких как частота дыхания, кровяное давление, пульс, насыщение крови кислородом, движения головы, открытость/закрытость рта и глаз. Данная аналитика обеспечивает гибкую систему фильтрации и предварительной обработки данных ЭЭГ. Апробация сервиса по обработке и анализу данных ЭЭГ выполнена на примере автоматизации метода распознавания медитативного состояния человека, характеризующегося направлением внимания в ощущения тела и абстрагированием от внешних стимулов.
Рассматриваются алгоритмические принципы внедрения нелинейных функций эффективности в когнитивную модель слабоформализованной системы. С точки зрения прозрачности теоретического взгляда в качестве такой нелинейной функции использовалась функция типа ReLU. Сложная система представляется в виде ориентированного графа, вершин и ребрамов, которым соответствуют настройки настроек. В определении нелинейная процедура расчета значений элементов системы (внутренних вершин) на графе в зависимости от внешних факторов (входных вершин) и, соответственно, расчета коэффициентов работы во всем мире. Показано, что в отличие от линейного случая, наблюдавшегося ранее, в нелинейном случае коэффициенты имеют лучшее развитие от результатов вершин - элементов системы. В связи с двумя простыми моделями, описывающими основные тенденции мировой энергетики и воздействия некоторых вирусных инфекций на производственный процесс, показаны проявления более богатого набора наблюдаемых ситуаций по сравнению с линейным развитием событий.
В статье рассмотрена актуальная проблема уязвимости технологий искусственного интеллекта на основе нейронных сетей в задаче распознавания образов. Показано, что применение нейронных сетей порождает множество уязвимостей. Приведены конкретные примеры таких уязвимостей: некорректная классификация изображений, содержащих вредоносный шум или заплатки, отказ распознающих систем при наличии на изображении особых узоров, в том числе нанесенных на объекты реального мира, отравление обучающей выборки и др. На основе проведенного анализа показана необходимость улучшения безопасности технологий искусственного интеллекта и даны предложения, способствующие этому улучшению
Предложены определения гибких и жестких документов, используемые в технологиях ввода в компьютер деловых документов. Рассмотрены особенности создания, оцифровки и анализа жестких форм и жестких документов. Описаны границы применимости модели привязки изображений жестких документов, искаженных при оцифровке. Рассмотрена модель для привязки гибких документов, основанная на распознанных словах и графических примитивах, связанных набором отношений порядка. Классификация основана на различных способах подготовки деловых документов для печати. Описаны особенности привязки полей и распознавания для нескольких типов документов, таких как условно-жесткие документы, гибкие документы, продуцированные одной формой, гибкие документы, продуцированные малым и большим числом форм. Рассмотрен случай распознавания условно-жестких документов с применением технологий ввода гибких документов. Проведенные эксперименты показывают, что для некоторых полей пометок в условиях сильного зашумления и значительных искажений доля ошибок уменьшается в два раза.
В статье предлагается методика оценки качества текстов машинных переводов на основе энтропийно-информационного подхода. Дается анализ дисперсионного и энтропийного коэффициентов конкордации, используемых для оценки согласованности мнений экспертов при близких ранжировках различных объектов. Обосновывается перспективность применения энтропийного коэффициента конкордации, позволяющего зафиксировать факт разделения мнений на две противоположные группы. Это положение важно для проводимого исследования, поскольку в данной методике экспертной оценки переводов текстов важен учет разных мнений нескольких экспертов, привлеченных к экспертизе. Приводятся примеры расчета энтропийного коэффициента конкордации с изменяющейся ранговой системой, числом экспертов и ранжируемых объектов оценивания.
В статье представлена распределенная система для организации потоковых вычислений. Система включает в себя сервер для управления данными, управляющий сервис (супервизор), набор узлов-рабочих, на которых производится выполнение задач, и базу данных. Для абстрагирования от конкретных языков программирования и инструментов, используемых при вычислениях, реализации алгоритмов (задачи) упаковываются и выполняются в контейнерах Docker. Для эффективной работы при высокой нагрузке система поддерживает несколько стратегий приоритизации задач. Для работы с системой пользователю достаточно построить образ docker-контейнера, описать набор входных данных в JSON-файле и загрузить их через веб-интерфейс. Система может быть развернута в любом общедоступном облаке. В статье подробно описана архитектура системы и приведены численные результаты, полученные при вычислениях на различных облачных и локальных платформах. В работе изучено влияние различных стратегий приоритизации на длительность вычислений при умеренной нагрузке.
Издательство
- Издательство
- ИУ РАН
- Регион
- Россия, Москва
- Почтовый адрес
- 119333, Москва, Вавилова, д.44, кор.2
- Юр. адрес
- 119333, Москва, Вавилова, д.44, кор.2
- ФИО
- Соколов Игорь Анатольевич (Директор)
- E-mail адрес
- frccsc@frccsc.ru
- Контактный телефон
- +7 (499) 1356274