В статье представлена многозадачная нейронная сеть на основе модифицированной архитектуры U-Net для совместной семантической и инстанс-сегментации объектов на аэрофотоснимках. Модель использует симметричный энкодер-декодер с skip-коннекторами и оснащена двумя параллельными выходными головами. Семантическая голова выполняет пиксельную классификацию, а эмбеддинговая генерирует дискриминативные векторные представления для каждого пикселя. Применение специализированной дискриминативной функции потерь обеспечивает компактность кластеров эмбеддингов внутри объектов и их разделение между разными экземплярами. На этапе постобработки кластеризация эмбеддингового поля позволяет однозначно выделить маски отдельных объектов. Эксперименты проводились на специализированном датасете аэрофотоснимков, содержащем 23 076 размеченных объектов пяти классов. Для ключевого класса «Building» на валидационной выборке достигнуты значения IoU = 0.812 и F1-score = 0.880. Сравнение с современными методами (Mask2Former, OneFormer, SAM 2 с LoRA-адаптацией, MR-DeepLabv3+) подтверждает конкурентоспособность модели по балансу точности и скорости инференса. Модель демонстрирует эффективность для задач автоматического картографирования и анализа застройки по данным дистанционного зондирования.
The article presents a multi-task neural network based on a modified U-Net architecture for joint semantic and instance segmentation of objects in aerial imagery. The model employs a symmetric encoder-decoder structure with skip connections and is equipped with two parallel output heads. The semantic head performs pixel-wise classification, while the embedding head generates discriminative vector representations for each pixel. The application of a specialized discriminative loss function ensures compact embedding clusters within objects and separation between different instances. In the post-processing stage, clustering the embedding field allows for unambiguous extraction of individual object masks. Experiments were conducted on a specialized aerial imagery dataset containing 23,076 annotated objects across five classes. For the key class «Building» the validation set achieved IoU = 0.812 and F1-score = 0.880. A comparison with state-of-the-art methods (Mask2Former, OneFormer, SAM 2 with LoRA fine-tuning, MR-DeepLabv3+) confirms the model’s competitiveness in terms of the balance between accuracy and inference speed. The model demonstrates effectiveness for automated mapping and urban structure analysis tasks using remote sensing data.