ISSN 2071-0216 · EISSN 2308-0256
Языки: ru · en

ВЕСТНИК ЮЖНО-УРАЛЬСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА. СЕРИЯ: МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ И ПРОГРАММИРОВАНИЕ

ТЕХНОЛОГИЯ РАСПОЗНАВАНИЯ ТАБЛИЦ В НАЛОГОВЫХ ДОКУМЕНТАХ РФ (2024)

Рассматривается известная задача распознавания ячеек таблиц на изображении. Исследуется обработка налогового российского документа 2-НДФЛ. Несмотря на простую структуру таблиц, способ печати основан на гибком шаблоне. Гибкость формы наблюдается как в части модификаций текстовой информации, так и в области таблиц. Гибкость таблиц состоит в изменении числа и размеров столбцов. Для детектирования таблиц был предложен структурный метод. Входными данными метода являются детектированные горизонтальные и вертикальные отрезки. Поиск отрезков проводился механизмами, реализованными в системе Smart Document Reader. Апробация и внедрение предложенного метода также осуществлялось в системе Smart Document Reader. Кроме детектирования области предполагаемого размещения таблиц решены следующие задачи: поиск ячеек таблиц, именование ячеек таблиц, валидация области таблицы. Валидация области таблицы проводилась для отдельных таблиц, а также для совокупностей таблиц. Применение описаний совокупностей таблиц обеспечило высокую надежность привязки набора таблиц.

Тип: Статья
Автор (ы): Славин Олег Анатольевич
Ключевые фразы: РАСПОЗНАВАНИЕ ТАБЛИЦ, ДЕТЕКТИРОВАНИЕ ОТРЕЗКА, РАСКЛАДКА ТАБЛИЦ

Идентификаторы и классификаторы

УДК
004.932.72. Объекты на изображениях
eLIBRARY ID
67205360
Текстовый фрагмент статьи