В статье представлена многозадачная нейронная сеть на основе модифицированной архитектуры U-Net для совместной семантической и инстанс-сегментации объектов на аэрофотоснимках. Модель использует симметричный энкодер-декодер с skip-коннекторами и оснащена двумя параллельными выходными головами. Семантическая голова выполняет пиксельную классификацию, а эмбеддинговая генерирует дискриминативные векторные представления для каждого пикселя. Применение специализированной дискриминативной функции потерь обеспечивает компактность кластеров эмбеддингов внутри объектов и их разделение между разными экземплярами. На этапе постобработки кластеризация эмбеддингового поля позволяет однозначно выделить маски отдельных объектов. Эксперименты проводились на специализированном датасете аэрофотоснимков, содержащем 23 076 размеченных объектов пяти классов. Для ключевого класса «Building» на валидационной выборке достигнуты значения IoU = 0.812 и F1-score = 0.880. Сравнение с современными методами (Mask2Former, OneFormer, SAM 2 с LoRA-адаптацией, MR-DeepLabv3+) подтверждает конкурентоспособность модели по балансу точности и скорости инференса. Модель демонстрирует эффективность для задач автоматического картографирования и анализа застройки по данным дистанционного зондирования.
В статье приведены результаты формирования, обучения и оценки качества работы моделей с архитектурами Encoder-Decoder и Sequence-To-Sequence (Seq2Seq) для решения задачи дополнения неполных текстов. Задачи такого типа достаточно часто возникают при восстановлении содержимого документов по их некачественным изображениям. Проведённые в работе исследования ориентированы на решение практической задачи формирования электронных копий отсканированных документов ППК «Роскадастр», распознавание которых стандартными средствами затруднительно или невозможно. Формирование и исследование моделей осуществлялось на языке Python с использованием высокоуровневого API пакета Keras. С целью обучения и исследования моделей был сформирован набор данных, состоящий из нескольких тысяч пар. Каждая пара этого набора представляла собой неполный и соответствующий ему полный тексты. Для оценки качества работы моделей осуществлялось вычисление значений функции потерь loss и метрик accuracy, BLEU и ROUGE-L. Loss и accuracy позволили оценить эффективность моделей на уровне предсказания отдельных слов. Метрики BLEU и ROUGE-L использовались для оценки сходства между полными и восстановленными текстами. Полученные результаты показали, что обе модели Encoder-Decoder и Seq2Seq справляются с задачей восстановления текстовых последовательностей из их фиксированного множества, однако модель на основе трансформера Seq2Seq позволяет достичь лучших результатов по скорости и качеству обучения.
В статье исследуется применение свёрточно-рекуррентных нейронных сетей (CRNN) для распознавания изображений кадастровых координат объектов на отсканированных документах ППК «Роскадастр». Комбинированная архитектура CRNN, объединяющая свёрточные нейронные сети (CNN) и рекуррентные нейронные сети (RNN), позволяет использовать преимущества каждой из них для обработки изображений и распознавания содержащихся в них непрерывных цифровых последовательностей. При проведении экспериментальных исследований были формированы изображения, состоящие из заданного количества цифр, построена и исследована CRNN модель. Формирование изображений цифровых последовательностей заключалось в предобработке и конкатенации изображений образующих их цифр из собственного набора данных. Анализ значений функции потерь и метрик Accuracy, Character Error Rate (CER) и Word Error Rate (WER) показал, что использование предложенной CRNN модели позволяет достичь высокой точности распознавания кадастровых координат на их отсканированных изображениях.
В работе проведено сравнительное исследование моделей Mask R-CNN с различными предобученными backbone-архитектурами для реализации инстанс-сегментации объектов недвижимости на аэрофотоснимках. Модели дообучались на специализированном наборе данных ППК «Роскадастр». Анализ точности детектирования ограничивающих рамок и масок сегментации объектов выявил предпочтительные архитектуры — трансформеры Swin (Swin-S и Swin-T) и свёрточная сеть ConvNeXt-T. Высокая точность этих моделей объясняется их способностью учитывать глобальные контекстные зависимости между элементами изображения. Результаты исследования позволяют сформулировать следующие рекомендации по выбору архитектуры backbone: для систем мониторинга в реальном времени, где критична скорость работы, целесообразно применение легковесных моделей (EfficientNetB3, ConvNeXt-T, Swin-T), для offline задач, требующих максимальной точности (таких как картирование объектов недвижимости), рекомендована крупномасштабная модель Swin-S.
Маски, полученные с использованием модели глубокого обучения Mask R-CNN, в ряде случаев могут содержать фрагментированные контуры, неровные границы, ложные сращивания соседних объектов и участки с пропущенной сегментацией. Чем больше объектов детектирования на изображении и меньше их размер, тем более чаще встречаются различного вида недостатки их масок. Примерами таких изображений могут являться аэрофотоснимки коттеджных и садовых товариществ и кооперативов, характеризующихся высокой плотности застройки. Для коррекции указанных недостатков предлагается использовать модель генеративно-состязательной сети, выполняющую постобработку предсказанных Mask R-CNN масок. Качественная оценка сформированной в работе модели продемонстрировала, что она способна на приемлемом уровне восстанавливать целостность контуров, заполняет пропущенные области и разделять ошибочно объединенные объекты. Количественный анализ по метрикам IoU, precision, recall и F1-score показал статистически значимое улучшение качества сегментации по сравнению с исходными масками Mask R-CNN. Полученные результаты подтвердили, что предложенный подход позволяет довести точность формирования масок объектов до уровня, удовлетворяющего требованиям их практического применения в системах автоматизированного анализа аэрофотоснимков.
Массовое появление незаконных и незарегистрированных в Едином Государственном Реестре Недвижимости (ЕГРН) объектов недвижимости осложняет кадастровый учёт для многих субъектов территориального и административного уровня. Традиционные методы выявления объектов подобных типов, основанные на ручном анализе геопространственных данных, трудоёмки и требуют значительного времени. Для повышения эффективности этого процесса предлагается автоматизировать обнаружение объектов на аэрофотоснимках путём решения задачи инстанс-сегментации с использованием модели глубокого обучения Mask R-CNN. В статье описана подготовка набора данных для этой модели, исследованы основные метрики качества и проанализированы полученные результаты. Показана эффективность модели Mask R-CNN при обнаружении объектов недвижимости, не имеющих регистрации в ЕГРН.