Работа посвящена решению задачи сегментации текстовых изображений, целью которой является выделение на изображении документа текстовых блоков, соответствующих колонкам, заголовкам, колонтитулам и т. д. Проводится обзор существующих методов сегментации изображений, в том числе предназначенных и для поиска и выделения на изображениях текстовых блоков. Анализируются как классические методы, так и методы, основанные на использовании искусственных нейронных сетей. Для решения поставленной задачи предлагается подход на основе свёрточных нейронных сетей и модели U-Net. Описывается метод автоматической генерации обучающих примеров для обучения нейронной сети. Рассматривается процессы настройки модели, её обучения и тестирования. Приводятся результаты численного исследования обученных моделей на реальных данных.
Идентификаторы и классификаторы
Сегментация – это процесс разделения изображения на несколько множеств пикселей (сегментов), то есть присвоения таких меток каждому пикселю, что пиксели с одинаковыми метками имеют общие визуальные характеристики, например, принадлежат изображению одного и того же объекта. К классическим методам сегментации изображений относятся: пороговые методы [3]; методы, основанные на кластеризации [4]; методы разрезания графов [5]; методы выделения границ [6] и т. д. Применение классических методов для сегментации текстовых блоков, однако, выглядит мало перспективным, так как практически все эти методы направлены прежде всего на поиск и выделение структурной информации на изображениях, т. е. в контексте рассматриваемой задачи могут применяться, например, для выделения отдельных символов текста. Текстовые блоки имеют, вообще говоря, слабо выраженную структуру с размытыми границами и характеризуются больше своей текстурой, что позволяет нам легко визуально выделять такого рода блоки даже на документах на незнакомых нам языках.
Список литературы
1. Shapiro L. G.Computer Vision / L. G. Shapiro, G. C. Stockman. Prentice Hall, 2001.
2. Ronneberger O., Fischer P., Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation // Medical Image Computing and Computer-Assisted Intervention, MICCAI 2015. Vol. 935. P. 234-241. DOI: 10.1007/978-3-319-24574-4_28
3. Sezgin M., Sankur B. Survey over image thresholding techniques and quantitative performance evaluation // Journal of Electronic Imaging. 2004. Vol. 13 (1). P. 146-168. DOI: 10.1117/1.1631315
4. Comaniciu D., Meer P. Mean Shift: A Robust Approach Toward Feature Space Analysis // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2002. Vol. 24, No. 5. P. 603-619. DOI: 10.1109/34.1000236
5. Shi Jianbo, Malik J. Normalized Cuts and Image Segmentation // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2000. Vol. 22, No. 8. P. 888-905. DOI: 10.1109/34.868688
6. Barghout L. Visual Taxometric approach Image Segmentation using Fuzzy-Spatial Taxon Cut Yields Contextually Relevant Regions // Communications in Computer and Information Science (CCIS). Springer-Verlag. 2014.
7. Badrinarayanan V., Kendall A., Cipolla R. SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2017. Vol. 39, No. 12. P. 2481-2495. DOI: 10.1109/TPAMI.2016.2644615
8. Vision AI: Image & Visual AI Tools | Google Cloud. URL: https://cloud.google.com/vision (дата обращения: 10.06.2024).
9. docWizz | CCS. CCS Content Conversion Specialists Gmb, [2024]. URL: https://content-conversion.com/software/docwizz/(дата обращения: 10.06.2024).
10. Book Scan Processing Print Press Edition | АЛАНИС Софтвер. URL: https://alanissoftware.wordpress.com/bsp-ppe-book-scan-processing-print-press-edition/(дата обращения: 10.06.2024).
11. The Newspaper Navigator Dataset: Extracting And Analyzing Visual Content from 16 Million Historic Newspaper Pages in Chronicling America / B. Lee, J. Mears, E. Jakeway [et al.] // arXive.org e-Print archive. DOI: 10.48550/arXiv.2005.01583
12. U-NET for brain MRI | PyTorch. The Linux Foundation, [2024]. URL: https://pytorch.org/hub/mateuszbuda_brain-segmentation-pytorch_unet/(дата обращения: 10.06.2024).
13. GitHub - AnnaBurikova / TextBlocksDetection. GitHub, Inc., 2024. URL: https://github.com/AnnaBurikova/TextBlocksDetection (дата обращения: 10.06.2024).
Выпуск
Другие статьи выпуска
В статье рассматриваются методы прогнозирования сложности учебных курсов на основе логистической регрессии с использованием оценок по обеспечивающим дисциплинам. Основной объект исследования - курс «Программирование на Python», для которого ключевыми обеспечивающими дисциплинами выбраны математика, информатика и английский язык. Целью исследования является разработка модели, позволяющей адаптировать учебные задания к индивидуальным потребностям студентов, повышая эффективность образовательного процесса. Для реализации модели использованы синтетические данные, что обусловлено ограничениями доступа к реальным образовательным данным. Применение методов машинного обучения, в частности логистической регрессии, позволяет получить не только классификацию курсов по сложности (легкий, средний, сложный), но и вероятностные оценки, отражающие степень уверенности модели в своих предсказаниях. Авторы рассматривают весовые коэффициенты признаков, что позволяет понять вклад каждой обеспечивающей дисциплины в прогнозирование сложности. Прогнозирование сложности курсов и заданий способствует более точному подбору учебных материалов, что улучшает качество образования и способствует развитию персонализированных образовательных траекторий. Таким образом, статья вносит вклад в развитие методов образовательной аналитики и подчеркивает необходимость перехода от прогнозирования успеваемости студентов к прогнозированию сложности курсов, что открывает новые перспективы для персонализации образовательного процесса и повышения его эффективности.
Обсуждается развитие новых видов интеллектуальной когнитивной робототехники с учетом возрастающих потребностей применения роботизированных социотехнических систем в промышленных / непромышленных сферах (особенно для применения в катастрофических ситуациях типа техногенных аварий или коронавирус) и развития квантовых сквозных ИТ. Промышленная революция «Индустрия 4.0» и третья квантовая революция «Квантовая программная инженерия» предопределили развитие нового направления - интеллектуальное когнитивное управление роботизированными социотехническими системами как основы проекта «Индустрия 5.0». Одной из основных проблем стала необходимость исследования взаимодействия человека-оператора с роботом и перераспределения зон ответственности между роботами в коллективе (толпе - swarm) роботов, человеком - оператором и роботом, а также выявления предельных возможностей допустимой работоспособности (Affordance / Kansei / Kawaii Engineering) роботов в различных проблемно-ориентированных областях. Проведен анализ развития моделей роботизированных социотехнических систем и построения образовательных процессов с нестандартной логикой подготовки ИТ-специалистов нового поколения в условиях стремительного разрыва между образовательными процессами и требованиями к базовым знаний в области квантовых сквозных ИТ. Представлена методология, разработанная в ЛИТ им. М. Г. Мещерякова ОИЯИ, по подготовки ИТ-специалистов нового поколения для управления физическими экспериментами, квантового интеллектуального управления физическими установками в мегасайнс проектах типа NICA, роботов - беспилотников радиационного контроля окружающей среды и др.
В работе проведен анализ текстов описаний товарных позиций ТН ВЭД для обуви, определены признаки, влияющие на классификацию. Предложена систематизация признаков, доступных для визуального распознавания и формализации из документации. Приведены возможности использования методов искусственного интеллекта для решения задач классификации, приведен опыт построения экспертной системы.
Семантическая сегментация - операция в компьютерном зрении, заключающаяся в классификации и попиксельной локализации объектов на цифровом изображении. Данная статья содержит в себе обзор существующих модификаций классической архитектуры сверточной нейронной сети, направленных на решение проблемы искажения информации с исходного изображения. Проведено сравнение эффективности рассмотренных моделей в условиях бинарной и множественной семантической сегментации. Статья может быть полезной для ML/DL-разработчиков, желающих изучить проблематику сегментации изображений в рамках своей предметной области.
В статье представлены способы применения фрактальной геометрии при исследовании речной системы Волги. Дан обзор алгоритмов вычисления фрактальной размерности и приведены примеры расчетов, а также описаны пути трактовки и применения полученных результатов.
Автоматическая идентификация и классификация нейронов в микропрепаратах нервной ткани имеет важное значение при изучении воздействия ионизирующего излучения на головной мозг. Оценка состояния клеток ЦНС специалистом вручную является трудоемким и субъективным процессом, в то время как алгоритмы машинного обучения показали потенциал в автоматизации этой задачи. В данной работе были использованы 81 фотоизображение препаратов гиппокампа мышей, на которых выделяли клетки без видимых повреждений, легко-измененные и дистрофические. Для каждой клетки вычислялись следующие параметры: Площадь, Округлость и Структурная сложность ядра. Данные параметры использовались для обучения классификатора RandomForestClassifier с использованием библиотеки scikit learn. Точность классификации составила 68%, при этом наиболее значимым признаком оказалась структурная сложность ядра. Предложенный классификатор может служить основой для автоматической системы анализа нейронов в микропрепаратах головного мозга.
Издательство
- Издательство
- ДУБНА
- Регион
- Россия, Дубна
- Почтовый адрес
- 141980 г.Дубна Московской обл., ул.Университетская, 19
- Юр. адрес
- 141980 г.Дубна Московской обл., ул.Университетская, 19
- ФИО
- Деникин Андрей Сергеевич (ИСПОЛНЯЮЩИЙ ОБЯЗАННОСТИ РЕКТОРА)
- E-mail адрес
- rector@uni-dubna.ru
- Контактный телефон
- +8 (496) 2166001