Поперечнослойное разделение искусственных нейронных сетей для классификации изображений (2024)
В статье рассматриваются задачи модульного обучения искусственных нейронных сетей, а также исследуются возможности частичного использования модулей в условиях ограниченных вычислительных ресурсов. Предлагаемый метод основывается на свойствах
вейвлет-преобразования по разделению информации на высокочастотную и низкочастотную части. Используя наработки по вейвлет-преобразованию на основе сверточного слоя, авторы осуществляют поперечнослойное разделение сети на модули для дальнейшего частичного использования их на устройствах с малой вычислительной мощностью. Теоретическое обоснование такого подхода в статье подкрепляется экспериментальным разделением базы MNIST на 2 и 4 модуля и их последовательным использованием с замером точности и производительности. Выигрыш в производительности составил 2 и более раза при использовании отдельных модулей. Также с помощью AlexNet-подобной сети с использованием набора данных GTSRB проверены предложенные теоретические положения, при этом выигрыш производительности одного модуля составил 33 % без потери точности.
Идентификаторы и классификаторы
- Префикс DOI
- 10.18287/2412-6179-CO-1278.
Интерес к модульной организации искусственных нейронных сетей (ИНС) значительно возрос в последние годы. Это связано с ростом интереса к ИНС в самых разных областях, в том числе и для решения задач в условиях ограниченных вычислительных ресурсов. В настоящее время стали развиваться периферийные вычисления, позволяющие анализировать и фильтровать данные с использованием конечных устройств, т.е. ближе к пользователю, к источнику данных. Такой подход позволяет построить распределенную систему обработки данных, адаптированную к различным вычислительным устройствам. По прогнозам компании «Juniper Research», к 2025 году 59 % данных, создаваемых устройствами Интернета вещей, будет обрабатываться при помощи технологии периферийных вычислений.
Список литературы
- Kussul ME. A modular representation of neural networks [In Russian]. Mathematical Machines and Systems 2006; 4: 51-62.
- Rykov VP. The modular principle of artificial neural network training using known neural network topologies as an example [In Russian]. Bulletin of Tambov State University 2014; 19(2): 583-586.
- Andreas J, Rohrbach M, Darrell T, Klein D. Neural module networks. Proc IEEE Conf on Computer Vision and Pattern Recognition (CVPR) 2016: 39-48.
- Auda G, Kamel M, Raafat H. Modular neural network architectures for classification. Proc Int Conf on Neural Networks (ICNN’96) 1996; 2: 1279-1284. DOI: 10.1109/ICNN.1996.549082.
- Auda G, Kamel M, Raafat H. Voting schemes for cooperative neural network classifiers. IEEE Conf on Neural Networks (ICNN’95) 1995; 3: 1240-1243.
- Lu Z, Pu H, Wang F, Hu Z, Wang L. The expressive power of neural networks: A view from the width. 31st Conf on Neural Information Processing Systems (NIPS 2017) 2017: 6232-6240.
- Kidger P, Lyons T. Universal approximation with deep narrow networks. 33rd Annual Conf on Learning Theory 2020: 1-22.
- Kim JS, Cho Y, Lim TH. Prediction of locations in medical images using orthogonal neural networks. Eur J Radiol Open 2021; 8: 100388.
- Jamal A, Ashour M, Helmi R, Fong S. A wavelet–neural networks model for time series. 11th IEEE Symposium on Computer Applications Industrial Electronics (ISCAIE) 2021: 325-330. DOI: 10.1109/ISCAIE51753.2021.9431777.
- D’Amario V, Sasaki T, Boix X. How modular should neural module networks be for systematic generalization? arXiv Preprint. 2022. Source: arXiv:2106.08170v2.
- Smolencev NK. Basics of wavelet theory. Wavelets in MATLAB [In Russian]. Moscow: “DMK Press” Publisher; 2019. ISBN: 5-94074-415-X.
- Ahmed N, Rao KR. Orthogonal transfarms for digital signal processing. Springer-Verlag; 1975.
- McCulloch WS, Pitts W. A logical calculus of the ideas immanent in nervous activity. Bull Math Biophys 1943; 5(4): 115-133.
- Vershkov NA, Kuchukov VA, Kuchukova NN, Babenko M. The wave model of artificial neural network. Proc 2020 IEEE Conf of Russian Young Researchers in Electrical and Electronic Engineering (EIConRus) 2020: 542-547.
- Vershkov N, Babenko M, Tchernykh A, et al. Optimization of artificial neural networks using wavelet transforms. Program Comput Soft 2022; 48: 376-384. DOI: 10.1134/S036176882206007X.
- Haar A. Zur theorie der orthogonalen funktionensysteme. Gottingen: Georg-August Universitat; 1909.
- PyTorch. Source: https://pytorch.org/.
- PyWavelets. Source: https://pypi.org/project/PyWavelets/.
- Qiao Y. THE MNIST DATABASE of handwritten digits. 2007. Source: http://www.gavo.t.u-tokyo.ac.jp/~qiao/database.html.
- GTSRB - German traffic sign recognition benchmark. 2023. Source: https://www.kaggle.com/datasets/meowmeowmeowmeowmeow/gtsrb-german-traffic-sign.
- Ushakov YA, Polezhaev PN, Shukhman AE, Ushakova MV. Distribution of the neural network between mobile device and cloud infrastructure services [In Russian]. Modern Information Technology and IT-education 2018; 14(4): 903-910. DOI: 10.25559/SITITO.14.201804.903-910.
- Rytov SM, Kravtsov YuA, Tatarsky VI. Introduction to statistical radiophysics. Part 2. Random fields [In Russian]. Moscow: “Nauka” Publisher; 1978.
- Minkin AS, Nikolaeva OV, Russkov AA. Hyperspectral data compression based upon the principal component analysis. Computer Optics 2021; 45(2): 235-244. DOI: 10.18287/2412-6179-CO-806.
- Zenkov IV, Lapko AV, Lapko VA, Kiryushina EV, Vokin VN, Bakhtina AV. A method of sequentially generating a set of components of a multidimensional random variable using a nonparametric pattern recognition algorithm. Computer Optics 2021; 45(6): 926-933. DOI: 10.18287/2412-6179-CO-902.
Выпуск
Другие статьи выпуска
Статья посвящена рассмотрению свойств гармонического метода имитации в рамках спектральной теории и оценке качества этого метода. Проведён обзор литературы о существующих методах моделирования многомерных случайных полей, позволивший выполнить сравнение этих методов, при этом критериями сравнения были сложность алгоритма, вычислительные затраты и требования к памяти, требования к ковариационной функции и сетке. Выявлены слабые места, такие как недостаточная точность и высокая вычислительная сложность, характерные для спектральных методов имитации, к которым относится гармонический метод. Рассмотрены формы сымитированного гармоническим методом сигнала для разных базисов: обнаружено свойство центросимметричности для квадратных сигналов в базисе Фурье, подобное ему свойство для прямоугольных сигналов в базисе Фурье, свойство симметричности квадратного сигнала в базисе Хартли и отсутствие подобных свойств у прямоугольного сигнала, сымитированного в базисе Хартли. Проведён сравнительный анализ точности имитации двумерных сигналов, как частного случая многомерных, гармоническим методом в базисах Фурье и Хартли. Демонстрируется, что в зависимости от характеристик дискретизации сымитированный сигнал в базисе Фурье отличается от этого же сигнала, сымитированного в базисе Хартли, по точности. Как следствие выполненного исследования, сформированы рекомендации по выбору базиса в конкретной задаче имитации двумерных сигналов. Описано влияние обнаруженных свойств на вычислительную сложность метода. Предложены способы применения этих свойств для имитации произвольных двумерных сигналов.
It is a novel approach to linking landscape ecological risk (LER) and ecosystem services (ESs) for environmental management and sustainable development, since it enables real-time ecisionmaking. This study used 12 natural factors relevant to LER and 11 ESs factors to analyze spatiotemporal changes and establish a relationship between them in Tatarstan, Russia, for the years 2010, 2015, and 2020. The statistical tests (Global Moran’s I, Getis-Ord Gi*), analysis of habitat vulnerability, and ecological loss in the ArcGIS platform reveal a consistent variance in factor clustering and pattern as well as the impact of governmental policies in the studied area. According to analysis findings, 2015 had the best ecological conditions of the three years because 44.79 % of the research area had decreased landscape ecological risk, which increased ecosystem services. Additionally, the results show that both maps have significant spatial disparities and that LER and ESs are negatively impacted by high human-socioeconomic activity. The integration of LER and ESs through the overlap of both maps provides a significant amount of spatial information for mapping, monitoring, management, and the protection of the fragile environment for sustainable landscape development and management.
В горнодобывающих работах на открытых карьерах активно используются взрывные технологии. При этом появляется задача оценки качества взрывных работ, которая определяется размерами фрагментов горной породы, полученных в результате взрывов. В связи с этим возникает задача оценки числа фрагментов горной породы и их размеров (задача фрагментации). В настоящее время популярны подходы к решению таких задач на основе систем компьютерного зрения с использованием нейронных сетей семантической или экземплярной сегментации. При этом оказывается, что для их работы требуется существенное привлечение компьютерных ресурсов. В связи с этим использование альтернатив – алгоритмов быстрого обнаружения объектов на цифровых изображениях взорванной породы является актуальным. В статье изучены особенности использования нейронных сетей глубокого обучения с архитектурой YOLO, которая, как ожидалось, будет иметь более высокую скорость обработки видеоинформации. На основе проведённого исследования обоснован выбор в качестве базовой архитектуры использовать YOLOv7x. Для обучения нейронных сетей выбранной архитектуры был использован размеченный авторами набор данных, составленный из цифровых фотографий фрагментов горной породы, образовавшихся в результате взрыва в открытом карьере. Полученные результаты позволили обосновать выбор в качестве метрики оценки качества взрывных работ геометрические размеры описанного прямоугольника вокруг выделенного на изображении фрагмента породы.
Основная проблема использования стандартных методов оптимизации заключается в необходимости изменять все параметры шагами одинакового размера, независимо от поведения градиента. Более эффективный способ оптимизации нейронной сети состоит в том, чтобы установить адаптивные размеры шага для каждого параметра. Стандартные методы основаны на квадратных корнях экспоненциальных оценок моментов квадратов прошлых градиентов и не используют локальное изменение градиентов. В работе представлены методы адаптивной невыпуклой и доверительной оптимизации с положительно-отрицательной оценкой моментов с соответствующими теоретическими гарантиями сходимости. Данные подходы позволяют более точно сходиться функции потери в области глобального минимума за меньшее количество итераций. Использование преобразований положительно-отрицательной оценки момента и дополнительного параметра, регулирующего размер шага, позволяют обходить локальные экстремумы для достижения более высокой производительности по сравнению с аналогичными методами. Внедрение разработанных алгоритмов в процесс обучения различных архитектур мультимодальных нейросетевых систем анализа гетерогенных данных позволило повысить точность распознавания пигментных новообразований кожи на 2,33 – 5,69 процентных пункта по сравнению с известными методами оптимизации. Мультимодальные нейросетевые системы анализа разнородных дерматологических данных, обученные с применением предложенных алгоритмов оптимизации, могут использоваться в качестве инструмента вспомогательной медицинской диагностики, который позволит сократить потребление финансовых и трудовых ресурсов, задействованных в медицинской отрасли, а также повысить шанс раннего выявления пигментных онкопатологий.
В связи с малым количеством размеченных наборов данных радиолокационных изображений перспективным представляется использование оптических изображений для обучения нейронных сетей, предназначенных для обнаружения объектов на радиолокационных изображениях. Однако оптические изображения имеют ряд существенных отличий от радиолокационных изображений, что приводит к необходимости более глубокого экспериментального исследования вопроса. В работе была исследована применимость такого подхода и показано, что в случае задачи обнаружения кораблей достижимы высокие результаты. Кроме того, показано, что предварительная фильтрация спекл-шума позволяет дополнительно улучшить ситуацию.
A computer vision based real-time object detection on low-power devices is economically attractive, yet a technically challenging task. The paper presents results of benchmarks on popular deep neural network models, which are often used for this task. The results of experiments provide insights into trade-offs between accuracy, speed, and computational efficiency of MobileNetV2 SSD, CenterNet MobileNetV2 FPN, EfficientDet, YoloV5, YoloV7, YoloV7 Tiny and YoloV8 neural network models on Raspberry Pi 4B, Raspberry Pi 3B and NVIDIA Jetson Nano with TensorFlow Lite. We fine-tuned the models on our custom dataset prior to benchmarking and used post-training quantization (PTQ) and quantization-aware training (QAT) to optimize the models’ size and speed. The experiments demonstrated that an appropriate algorithm selection depends on task requirements. We recommend EfficientDet Lite 512×512 quantized or YoloV7 Tiny for tasks that require around 2 FPS, EfficientDet Lite 320×320 quantized or SSD Mobilenet V2 320×320 for tasks with over 10 FPS, and EfficientDet Lite 320×320 or YoloV5 320×320 with QAT for tasks with intermediate FPS requirements.
В статье представлен метод акустооптической мультиспектральной регистрации изображений, основанный на выборе наиболее информативных спектральных каналов и формировании многооконной функции пропускания акустооптического фильтра. Разработанный алгоритм позволяет выбрать сочетания спектральных каналов, которые обеспечивают высокий контраст для заданной совокупности объектов и фонов с известными спектрами. Метод апробирован экспериментально на примере контрастной визуализации 20 разных, но близких по цветовому тону пар объект–фон. Результаты эксперимента демонстрируют эффективность предложенного метода и алгоритма.
Рассмотрены дисперсионные характеристики оптических стекол. Предложен подход к исследованию дисперсионных характеристик оптических стекол, требующий измерения показателя преломления только на трех длинах волн, что упрощает процесс измерений по сравнению с применением широко распространенной дисперсионной формулы Селлмейера. Предложена аппроксимирующая функция для показателя преломления оптических стекол, рассчитана погрешность аппроксимации для различных марок стекла, предложен способ коррекции погрешности аппроксимации. Проведены измерения показателя преломления образцов оптических стекол на 3 длинах волн He-Ne и Ar-Cr лазеров, рассчитаны значения показателя преломления для спектральных линий, необходимые для определения дисперсионных характеристик. Значение погрешности расчета показателя преломления при этом не превысило ±1×10-5, что доказывает перспективу применения предложенной аппроксимирующей функции для исследования дисперсионных характеристик оптических стекол.
Обоснована необходимость разработки малогабаритного рефрактометра с дифференциальной кюветой Андерсона для экспресс-контроля состояния жидких сред с высокой точностью в реальном времени. Обозначены проблемы, которые возникают при определении оптимальных параметров конструкции оптической части рефрактометра для уменьшения погрешности измерения показателя преломления в диапазоне от 1,2300 до 2,2300. Впервые выведено уравнение для исследования изменения траектории оси лазерного излучения как в кювете Андерсона, так и за её пределами от различных её параметров, значений показателей преломления эталонной ns и исследуемой nm жидкой среды. Отмечено, что для решения задачи определения оптимальных параметров дифференциальной кюветы Андерсона необходимо получить аналитическое выражение для показателя преломления nm исследуемой среды от изменения всех параметров оптической части рефрактометра. Разработана конструкция малогабаритного рефрактометра дифференциального типа для проведения измерений, и представлены результаты исследования различных жидких сред. Экспериментально подтверждена погрешность измерения показателя преломления 0,0002 в разработанной конструкции рефрактометра. Определены направления исследований для уменьшения погрешности измерения показателя преломления, чтобы использовать разработанную конструкцию дифференциального рефрактометра для научных исследований и в качестве поверочной схемы в метрологии.
На примере разработки двух простых по конструкции двухдиапазонных монофокальных ИК-объективов продемонстрированы подходы к компоновке и расчету их оптических схем в зависимости от того, требуется или не требуется компенсация эффектов воздействия изменения температуры на оптические характеристики этих объективов. Показано, что в случае, когда термокомпенсация не требуется, высокие оптические характеристики могут быть достигнуты у простого триплета, у которого плоская поверхность фронтальной рефракционной линзы несет дифракционную микроструктуру. В случае же пассивной атермализации оптическая схема объектива усложняется и состоит из рефракционных двухлинзовых силового и коррекционного компонентов, в последнем из которых плоская поверхность одной из линз несет дифракционную микроструктуру. Благодаря высокоэффективным дифракционным микроструктурам продольный хроматизм у обоих объективов снижен практически до дифракционного предела, и в совокупности с низким уровнем остаточных монохроматических аберраций при высокой светосиле обеспечивается предельная для используемых в качестве матричных приёмников неохлаждаемых микроболометров разрешающая способность.
В статье в кратком виде излагается математическая модель распознавания контуров объектов интереса на растровом изображении. Более детально раскрывается процесс ее дискретизации в рамках разработки численных методов, которые позволяют реализовать указанную модель на современных средствах вычислительной техники. Приведены явные математические выкладки, пригодные для написания кодов прикладного программного обеспечения, получена оценка вычислительной сложности, подтверждающая возможность достижения производительности режима реального времени. Представлены результаты численного эксперимента по восстановлению спиральных пучков света.
В данной работе исследуется передача мод высших порядков, в том числе оптических вихрей, через волокно, эванесцентно спаренное с вертикальным массивом кольцевых резонаторов – пакетным многокольцевым резонатором. Показано, что кривые пропускания оптических вихрей имеют характерную структуру, наличие которой мы объясняем проявлением зонной структуры бесконечной стопки связанных кольцевых резонаторов. Показана принципиальная возможность использования вертикальных массивов кольцевых резонаторов в качестве элементов линий задержки для волоконно-оптической связи на состояниях с орбитальным угловым моментом. Показано, что вертикальный массив кольцевых резонаторов способен служить элементом линии задержки для чётных и нечётных мод Лагерра–Гаусса.
In our earlier works, we investigated a relationship between the formation of vortices in the transverse component of the Poynting vector of core modes and the regimes of strong localization of these modes in solid core micro-structured optical fibers. In this paper, we consider the behavior of the orbital part of the Poynting vector of fundamental and high-order modes in hollow-core fibers, and make comparisons with similar fundamental core mode behavior in solid core micro-structured optical fibers. We then demonstrated the impact of the “negative” curvature of the core-cladding boundary of a hollow-core fiber on the behavior of the orbital part of the Poynting vector of the air-core modes.
В данной работе численно с помощью формул Ричардса–Вольфа была промоделирована острая фокусировка векторных пучков с азимутальной поляризацией и пучков с V-линией неопределённости поляризации. Было продемонстрировано, что в остром фокусе для этих пучков отсутствует продольная составляющая напряженности электрического поля. Ранее подобный эффект демонстрировался только для азимутально-поляризованных пучков. Была рассчитана продольная составляющая спинового углового момента для этих пучков и показана возможность создания секторных азимутально-поляризованных пучков с помощью векторных волновых пластинок.
В работе рассмотрен новый пучок Лагерра–Гаусса, который отличается от обычных модовых пучков Лагерра–Гаусса, сохраняющих с точностью до масштаба структуру распределения интенсивности. Этот пучок не сохраняет свою структуру при распространении в свободном пространстве, но обладает интересными свойствами. Этот пучок Фурьеинвариантный и имеет в начальной плоскости (в плоскости перетяжки) и в дальней зоне дифракции увеличенную область темного. То есть диаметр центрального темного круга в сечении пучка может быть больше, чем у обычных пучков Лагерра–Гаусса. При сохранении топологического заряда пучка, меняя индексы многочлена Лагерра, можно увеличивать или уменьшать эффективный диаметр центрального темного пятна интенсивности. Кроме того, данный пучок обладает свойством автофокусировки, то есть на расстоянии Рэлея от перетяжки распределение интенсивности имеет вид светового кольца (при любом значении радиального индекса) с минимальным диаметром и максимальной интенсивностью на кольце.
Данный пучок можно применять для манипулирования микрочастицами без использования дополнительной сферической линзы для его фокусировки.
Разработан и экспериментально воплощен ABCD матричный формализм для описания структурных преобразований и орбитального углового момента структурированных Лагерр–Гауссовых пучков в астигматической оптической системе, содержащей цилиндрическую и корректирующую сферическую линзу. Показано, что матричный формализм не только хорошо согласуется с методом интегральных астигматических преобразований, но и значительно расширяет область его применения. Выявлено, что корректирующая сферическая линза способна не только разделять вихревую и астигматическую составляющие орбитального углового момента, но и превращать структурно неустойчивый астигматический Лагерр–Гауссов пучок после цилиндрической линзы в структурно устойчивый, при условии сохранения формы быстрых осцилляций и всплесков орбитального углового момента.
Издательство
- Издательство
- КРИСТАЛЛОГРАФИЯ И ФОТОНИКА РАН
- Регион
- Россия, Москва
- Почтовый адрес
- 119333, г. Москва, Ленинский проспект, д. 59
- Юр. адрес
- 117342, г Москва, р-н Коньково, ул Бутлерова, д 17А
- ФИО
- Алексеева Ольга Анатольевна (ДИРЕКТОР)
- E-mail адрес
- office@crys.ras.ru
- Контактный телефон
- +7 (499) 1356311
- Сайт
- https:/kif.ras.ru