Предложены определения гибких и жестких документов, используемые в технологиях ввода в компьютер деловых документов. Рассмотрены особенности создания, оцифровки и анализа жестких форм и жестких документов. Описаны границы применимости модели привязки изображений жестких документов, искаженных при оцифровке. Рассмотрена модель для привязки гибких документов, основанная на распознанных словах и графических примитивах, связанных набором отношений порядка. Классификация основана на различных способах подготовки деловых документов для печати. Описаны особенности привязки полей и распознавания для нескольких типов документов, таких как условно-жесткие документы, гибкие документы, продуцированные одной формой, гибкие документы, продуцированные малым и большим числом форм. Рассмотрен случай распознавания условно-жестких документов с применением технологий ввода гибких документов. Проведенные эксперименты показывают, что для некоторых полей пометок в условиях сильного зашумления и значительных искажений доля ошибок уменьшается в два раза.
Идентификаторы и классификаторы
Задача распознавания документов по-прежнему является актуальной по причине роста объемов напечатанных на бумаге деловых документов и документов, удостоверяющих личность. Например, объемы потоков входящих и исходящих документов в крупных организациях могут достигать нескольких сотен страниц в день. В данной работе рассматриваются деловые документы, предназначенные для обмена данными с организациями и физическими личностями [1]. Мы будем определять документ как совокупность полей и статической информации. В работе рассматриваются деловые документы. Деловые документы характеризуются относительно простой структурой и ограниченным словарем статических текстов. Статическими элементами, прежде всего, являются слова статического текста. Статические слова группируются в строки, заголовки, абзацы и параграфы. Поля могут определяться как объект, который ограничен несколькими статическими элементами, такими как:
слова статического текста;
отрезки (линии подчеркивания);
бар-коды,
пометки (чек-боксы). Извлечение информации из распознанных деловых документов имеет ряд особенностей:
Список литературы
1. Rusiñol M., Frinken V., Karatzas, D., Bagdanov, A. D., Lladós, J.: Multimodal page classification inadministrative document image streams. In: IJDAR. 17(4), 331-341 (2014). DOI: 10.1007/s10032-014-0225-8 EDN: QFHEEV
2. Postnikov V. V.: Identification and Recognition of Documents with a Predefined Structure // Pattern Recognition and Image Analysis. 13(2), 332-334 (2003). EDN: DTAIIT
3. Jain, R., Wigington, C.: Multimodal Document Image Classification. 71-77 (2019). DOI: 10.1109/ICDAR.2019.00021
4. Qasim, S.Rukh., Mahmood, H., Shafait, F.: Rethinking Table Recognition using Graph Neural Networks. 142-147 (2019). DOI: 10.1109/ICDAR.2019.00031
5. Vasiliev, S.S., Korobkin, D.M., Kravets, A.G., Fomenkov, S.A., Kolesnikov, S.G.: Extraction of cyber-physical systems inventions’ structural elements of russian-language patents. Stud. Syst. Springer, Decis. Control, 259, 55-68 (2020). DOI: 10.1007/978-3-030-32579-4_5 EDN: TIWWZB
6. Zlobin, P., Chernyshova, Y., Sheshkus A., Arlazarov V. V.: Character sequence prediction method for training data creation in the task of text recognition. Proc. SPIE 12084, Fourteenth International Conference on Machine Vision (ICMV 2021), 120840R (2022). DOI: 10.1117/12.2623773 EDN: FNSBEY
7. Augereau, O., Journet, N., Domenger, J.-P.: Semi-structured document image matching and recognition/ IS&T/SPIE Electronic Imaging., 13-24 (2013). DOI: 10.1117/12.2003911
8. Skoryukina, N, Arlazarov, V, Nikolaev, D.: Fast Method of ID Documents Location and Type Identification for Mobile and Server Application. IEEE International Conference on Document Analysis and Recognition (ICDAR): 850-857 (2019). DOI: 10.1109/ICDAR.2019.00141 EDN: OSPPYL
9. Bellavia, F.: SIFT Matching by Context Exposed. IEEE Transactions on Pattern Analysis and Machine Intelligence. (2022). DOI: 10.1109/TPAMI.2022.3161853 EDN: OMAKNL
10. Skoryukina, N., Faradjev, I., Bulatov, K., Arlazarov, V. Impact of geometrical restrictions in RANSAC sampling on the ID document classification. Proc. SPIE 11433, Twelfth International Conference on Machine Vision (ICMV 2020), 1143306R (2020). DOI: 10.1117/12.2559306 EDN: FTAOHV
11. Slavin, O., Arlazarov, V., Tarkhanov, I. Models and Methods Flexible Documents Matching Based on the Recognized Words. Cyber-Physical Systems: Advances in Design & Modelling. Springer Nature Switzerland AG. 350, 173-184. (2021). DOI: 10.1007/978-3-030-67892-0_15 EDN: IWWARW
12. Bay, H., Tuytelaars, T., Van Gool, Luc.: SURF: Speeded Up Robust Features. Computer Vision and Image Understanding - CVIU. 110(3), 404-417 (2006).
13. Matas, J., Galambos, C., Kittler, J.: Robust Detection of Lines Using the Progressive Probabilistic Hough Transform, Computer Vision and Image Understanding, 78(1), 119-137 (2000). DOI: 10.1006/cviu.1999.0831
14. Grompone von Gioi R., Jakubowicz J., Morel J.-M., Randall G.: LSD: A Fast Line Segment Detector with a False Detection Control / IEEE Transactions on Pattern Analysis and Machine Intelligence. 32(4), 722-732 (2010). DOI: 10.1109/TPAMI.2008.300
15. Emaletdinova, L. & Nazarov, M.: Construction of a Fuzzy Model for Contour Selection. Construction of a Fuzzy Model for Contour Selection. In: Kravets, A.G., Bolshakov, A.A., Shcherbakov, M. (eds) Cyber-Physical Systems: Intelligent Models and Algorithms. Studies in Systems, Decision and Control, 417, 243-246 (2022). DOI: 10.1007/978-3-030-95116-0_20 EDN: JZAXQR
16. Palm, R. B., Winther, O., Laws F.: CloudScan - A Configuration-Free Invoice Analysis System Using Recurrent Neural Networks. 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), Kyoto, Japan, 406-413 (2017). DOI: 10.1109/ICDAR.2017.74
17. Pegu, B., Singh, M., Agarwal, A., Mitra, A., Singh, K.: Table Structure Recognition Using CoDec Encoder-Decoder. In: Barney Smith, E.H., Pal, U. (eds) Document Analysis and Recognition - ICDAR 2021 Workshops. Lecture Notes in Computer Science, 12917, 66-80 (2021). DOI: 10.1007/978-3-030-86159-9_5 EDN: RCMNNU
18. Slavin, O. A.: Using Special Text Points in the Recognition of Documents. Studies in Systems, Decision and Control. Springer Nature Switzerland AG., 259, 43-53 (2020). DOI: 10.1007/978-3-030-32579-4_4 EDN: CQTZJE
19. Smart Document Engine - automatic analysis and data extraction from business documents for desktop, server and mobile platforms. https://smartengines.com/ocr-engines/document-scanner. Last access 16 may 2023.
20. Awal, A.M., Ghanmi, N., Sicre, R., Furon, T.: Complex Document Classification and Localization Application on Identity Document Images. Proc. 14th IAPR International Conference on Document Analysis and Recognition. 427432 (2017). https://doi. DOI: 10.1109/ICDAR.2017.77
Выпуск
Другие статьи выпуска
The article presents the results of research on fractal (self-similar) graphs in relation to elastic computing. A characteristic feature of such graphs is their ability to unfold (increase dimensionality) and fold (decrease dimensionality). Two approaches to forming fractal graphs are considered: based on Kronecker product and fractal algebra. The interrelationship of algebraic operations of forming fractal graphs (linear graphs, grids, hypercubes, and trees) with tensor operations and tensor representation based on the integration of adjacency matrices and event vectors of elastic systems is presented. Definitions of corre-sponding types of dynamically changing tensors are introduced. An analysis of the properties of elastic fractal graphs and related tensor models is conducted
В статье рассматривается деятельность лесопромышленного предприятия без собственных источников сырья в лице делян, которое ставит себе целью найти оптимальное решение в конце горизонта планирования, основываясь на данных об уже реализованных сделках. В качестве источника сырья рассматривается товарно-сырьевая биржа, где лоты появляются каждый день в разных регионах добытчиках в случайном порядке. В работе представлена математическая модель, позволяющая оценить оптимальную траекторию значений прибыли на всем горизонте планирования и отличающуюся тем, что позволяет учитывать долю полезного объема сырья, которое по зачислению на склад можно использовать в производстве ОСБ плит и время лота в пути в условиях неопределенностей. Модель протестирована на данных товарно-сырьевой биржи России и одного из предприятий Приморского края. Проведен анализ полеченных решений.
В статье рассматриваются результаты работы наиболее распространенных алгоритмов стеганографии. Численным моделированием показана возможность противостоять атакам стегоанализа на различных этапах, связанных с объемом встраивания информации. Показано, что наиболее приемлемым можно считать адаптивные алгоритмы стеганографии.
Предлагается формальное определение компьютерной модели сложной системы, как рода структуры в смысле Н. Бурбаки - род структуры «модель». Класс математических объектов, определяемый этим родом структуры, обладает следующими двумя свойствами: комплекс, созданный объединением математических объектов рода структуры «модель» по определенным правилам, сам является математическим объектом этого рода структуры. Организация вычислительного процесса для всех математических объектов рода структуры «модель» однотипна и поэтому может быть реализована единой универсальной программой, притом ориентированной на параллельные вычисления. Наличие этих двух свойств позволяет построить сквозную технологию разработки, описания, синтеза и программной реализации моделей сложных систем - Модельно-ориентированное (МО) программирование.
Machine learning (ML) environments offer a variety of methods and tools that help to solve problems in different areas, including software engineering (SE). Currently, a large number of researchers are interested in the possibilities of using various machine learning techniques in software engineering. This paper provides an overview of machine learning techniques used in each stage of the software development life cycle (SDLC). The contribution of this review is significant. Firstly, by analyzing sources from bibliographic and abstract databases, it was found that the topic of integrating machine learning techniques into software engineering is relevant. Secondly, the article poses questions and reviews the methodology of this research. In addition, machine learning methods are systematized according to their application at each stage of software development. Despite the vast amount of research work on the use of machine learning techniques in software engineering, further research is required to achieve comprehensive comparisons and synergies of the approaches used, meaningful evaluations based on detailed practical implementations that could be adopted by the industry. Thus, future efforts should be directed towards reproducible research rather than isolated new ideas. Otherwise, most of these applications will remain poorly realized in practice.
В статье описывается разработанный программный сервис, предназначенный для автоматизации процесса предварительной обработки и фильтрации данных сигнала ЭЭГ с синхронизированной видеозаписью для анализа континуальных процессов мозга. Представление сигнала осуществляется в форме матрицы топографических карт распределения мощности сигнала по эпохам заданной длительности в заданных частотных диапазонах, позволяющей пользователю производить сравнительный анализ нескольких записей ЭЭГ во времени. Сервис предоставляет возможность детального анализа выбранного фрагмента записи, включающую оценку динамики изменения параметров фрагмента записи во времени. Сервис позволяет выполнять такой анализ с использованием синхронизированной видеозаписи участника с видеотрекингом его физиологических параметров, таких как частота дыхания, кровяное давление, пульс, насыщение крови кислородом, движения головы, открытость/закрытость рта и глаз. Данная аналитика обеспечивает гибкую систему фильтрации и предварительной обработки данных ЭЭГ. Апробация сервиса по обработке и анализу данных ЭЭГ выполнена на примере автоматизации метода распознавания медитативного состояния человека, характеризующегося направлением внимания в ощущения тела и абстрагированием от внешних стимулов.
Рассматриваются алгоритмические принципы внедрения нелинейных функций эффективности в когнитивную модель слабоформализованной системы. С точки зрения прозрачности теоретического взгляда в качестве такой нелинейной функции использовалась функция типа ReLU. Сложная система представляется в виде ориентированного графа, вершин и ребрамов, которым соответствуют настройки настроек. В определении нелинейная процедура расчета значений элементов системы (внутренних вершин) на графе в зависимости от внешних факторов (входных вершин) и, соответственно, расчета коэффициентов работы во всем мире. Показано, что в отличие от линейного случая, наблюдавшегося ранее, в нелинейном случае коэффициенты имеют лучшее развитие от результатов вершин - элементов системы. В связи с двумя простыми моделями, описывающими основные тенденции мировой энергетики и воздействия некоторых вирусных инфекций на производственный процесс, показаны проявления более богатого набора наблюдаемых ситуаций по сравнению с линейным развитием событий.
В статье рассмотрена актуальная проблема уязвимости технологий искусственного интеллекта на основе нейронных сетей в задаче распознавания образов. Показано, что применение нейронных сетей порождает множество уязвимостей. Приведены конкретные примеры таких уязвимостей: некорректная классификация изображений, содержащих вредоносный шум или заплатки, отказ распознающих систем при наличии на изображении особых узоров, в том числе нанесенных на объекты реального мира, отравление обучающей выборки и др. На основе проведенного анализа показана необходимость улучшения безопасности технологий искусственного интеллекта и даны предложения, способствующие этому улучшению
The paper presents a method for detecting false responses of localization and identification algorithms. The method considers matching image characteristics that cannot be described by local features stably and completely. It is proposed to use image zones containing such features, describe them and use them to assess the validity of the algorithm response. In the work we demonstrate how the algorithm works on ID documents. Possible features are images of the coats of arms and flags of countries, background filling and text unique to the considered document type. To illustrate the proposed algorithm, the MIDV-500 and MIDV-LAIT datasets were taken. The first is used to show that the rejector does not reject correct system responses, the second - that it rejects the incorrect ones. We test several methods of zone description. The experimental results show that false type selection decreases with the use of any description type and the local CNN-descriptor shows the best performance. The increase of classes with marked zones is shown to improve the filtration of false responses. The experiments show the improvement from by 13% with one type with zones to by 4 times with 10 types.
В статье предлагается методика оценки качества текстов машинных переводов на основе энтропийно-информационного подхода. Дается анализ дисперсионного и энтропийного коэффициентов конкордации, используемых для оценки согласованности мнений экспертов при близких ранжировках различных объектов. Обосновывается перспективность применения энтропийного коэффициента конкордации, позволяющего зафиксировать факт разделения мнений на две противоположные группы. Это положение важно для проводимого исследования, поскольку в данной методике экспертной оценки переводов текстов важен учет разных мнений нескольких экспертов, привлеченных к экспертизе. Приводятся примеры расчета энтропийного коэффициента конкордации с изменяющейся ранговой системой, числом экспертов и ранжируемых объектов оценивания.
В статье представлена распределенная система для организации потоковых вычислений. Система включает в себя сервер для управления данными, управляющий сервис (супервизор), набор узлов-рабочих, на которых производится выполнение задач, и базу данных. Для абстрагирования от конкретных языков программирования и инструментов, используемых при вычислениях, реализации алгоритмов (задачи) упаковываются и выполняются в контейнерах Docker. Для эффективной работы при высокой нагрузке система поддерживает несколько стратегий приоритизации задач. Для работы с системой пользователю достаточно построить образ docker-контейнера, описать набор входных данных в JSON-файле и загрузить их через веб-интерфейс. Система может быть развернута в любом общедоступном облаке. В статье подробно описана архитектура системы и приведены численные результаты, полученные при вычислениях на различных облачных и локальных платформах. В работе изучено влияние различных стратегий приоритизации на длительность вычислений при умеренной нагрузке.
Издательство
- Издательство
- ИУ РАН
- Регион
- Россия, Москва
- Почтовый адрес
- 119333, Москва, Вавилова, д.44, кор.2
- Юр. адрес
- 119333, Москва, Вавилова, д.44, кор.2
- ФИО
- Соколов Игорь Анатольевич (Директор)
- E-mail адрес
- frccsc@frccsc.ru
- Контактный телефон
- +7 (499) 1356274