ViSL One-shot: генерация набора данных вьетнамского языка жестов (2024)
Разработка методов автоматического распознавания объектов в видеопотоке, в частности
распознавания жестового языка, требует больших объемов видеоданных для обучения.
Устоявшимся методом обогащения данных для машинного обучения является искажение и зашумление.
Отличие языковых жестов от других жестов состоит в том, что небольшие изменения позы могут радикально менять смысл жеста.
Это накладывает специфические требования к вариативности данных.
Метод:
Новизна метода состоит в том, что вместо искажений кадров с помощью афинных преобразований изображений используется векторизация позы сурдодиктора с последующим зашумлением в виде случайных отклонений элементов скелета.
Для реализации управляемой вариативности жестов с помощью библиотеки MediaPipe жест преобразуется в векторный формат, где каждый вектор соответствует элементу скелета.
Далее выполняется восстановление изображения фигуры из векторного формата. Достоинством предложенного метода является возможность управляемого искажения
жестов, соответствующего реальным отклонениям поз сурдодиктора.
Основные результаты. Разработанный метод обогащения видеоданных протестирован на наборе из 60 слов индийского языка жестов (общего для всех языков и диалектов, распространенных на территории Индии), представленных 782 видеофрагментами.
Для каждого слова выбран наиболее репрезентативный жест и сгенерировано 100 вариаций.
Остальные, менее репрезентативные жесты, использованы в качестве тестовых данных. В результате получена модель классификации и распознавания на уровне слов с использованием нейронной сети GRU-LSTM с точностью выше 95 %.
Метод апробирован на наборе данных из 4364 видео на вьетнамском языке жестов для трех регионов Северного, Центрального и Южного Вьетнама.
Сгенерировано 436 400 образцов данных, из которых 100 образцов представляют значения слов, которые могут использоваться для разработки и совершенствования методов распознавания языка жестов на вьетнамском языке за счет генерации множества вариаций жестов с разной с
The development of methods for automatic recognition of objects in a video stream, in particular, recognition of sign language, requires large amounts of video data for training. An established method of data enrichment for machine learning is distortion and noise. The difference between linguistic gestures and other gestures is that small changes in posture can radically change the meaning of a gesture. This imposes specific requirements for data variability. The novelty of the method lies in the fact that instead of distorting frames using affine image transformations, vectorization of the sign language speaker’s pose is used, followed by noise in the form of random deviations of skeletal elements. To implement controlled gesture variability using the MediaPipe library, we convert to a vector format where each vector corresponds to a skeletal element. After this, the image of the figure is restored from the vector representation. The advantage of this method is the possibility of controlled distortion of gestures, corresponding to real deviations in the postures of the sign language speaker. The developed method for enriching video data was tested on a set of 60 words of Indian Sign Language (common to all languages and dialects common in India), represented by 782 video fragments.
For each word, the most representative gesture was selected and 100 variations were generated. The remaining, less representative gestures were used as test data. The resulting word-level classification and recognition model using the GRU-LSTM neural network has an accuracy above 95 %. The method tested in this way was transferred to a corpus of 4364 videos in Vietnamese Sign Language for all three regions of Northern, Central and Southern Vietnam. Generated
436,400 data samples, of which 100 data samples represent the meaning of words that can be used to develop and improve Vietnamese sign language recognition methods by generating many variations of gestures with varying degrees of deviation from the standards. The disadvantage o
Идентификаторы и классификаторы
Список литературы
- Li D., Yu X., Xu C., Petersson L., Li H. Transferring Cross-domain Knowledge for Video Sign Language Recognition // Proc. of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020. P. 6204–6213. https://doi.org/10.1109/
cvpr42600.2020.00624 - Li D., Opazo C.R., Yu X., Li H. Word-level deep sign language recognition from video: A new large-scale dataset and methods comparison // Proc. of the IEEE Winter Conference on Applications of Computer Vision (WACV). 2020. P. 1448–1458. https://doi. org/10.1109/WACV45572.2020.9093512
- Camgoz N.C., Hadfield S., Koller O., Ney H., Bowden R. Neural sign language translation // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2018. P. 7784–7793. https://doi.org/10.1109/CVPR.2018.00812
- Sridhar A., Ganesan R.G., Kumar P., Khapra M. INCLUDE: A large scale dataset for indian sign language recognition // Proc. of the 28th ACM International Conference on Multimedia. 2020. P. 1366–1375. https://doi.org/10.1145/3394171.3413528
- Ying X. An overview of overfitting and its solutions // Journal of Physics: Conference Series. 2019. V. 1168. N 2. P. 022022. https:// doi.org/10.1088/1742-6596/1168/2/022022
- Creswell A., White T., Dumoulin V., Arulkumaran K., Sengupta B., Bharath A. Generative adversarial networks: An overview // IEEE Signal Processing Magazine. 2018. V. 35. N 1. P. 53–65. https://doi. org/10.1109/MSP.2017.2765202
- Gupta K., Singh S., Shrivastava A. PatchVAE: Learning local latent codes for recognition // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020. P. 4745–
- https://doi.org/10.1109/CVPR42600.2020.00480
- Karras T., Aila T., Laine S., Lehtinen J. Progressive growing of GANsfor improved quality,
stability, and variation // Proc. of the ICLR 2018 Conference Blind Submission. 2018. - Ma L., Jia X., Sun Q., Schiele B., Tuytelaars T., Van Gool L. Pose guided person image generation // Proc. of the 31st Conference on Neural Information Processing Systems (NIPS 2017). 2017.
- Sushko V., Gall J., Khoreva A. One-shot GAN: Learning to generate samples from single images and videos // Proc. of the IEEE/CVFConference on Computer Vision and Pattern
Recognition Workshops(CVPRW). 2021. P. 2596–2600. https://doi.org/10.1109/
CVPRW53098.2021.00293 - Li J., Jing M., Lu K., Ding Z., Zhu L., Huang Z. Leveraging the invariant side of generative zero-shot learning // Proc. of the IEEE/ CVF Conference on Computer Vision and Pattern Recognition
(CVPR). 2019. P. 7394–7403. https://doi.org/10.1109/ CVPR.2019.00758 - Madrid G.K.R., Villanueva R.G.R., Caya M.V.C. Recognition of dynamic Filipino Sign language using MediaPipe and long short-term memory // Proc. of the 13th International Conference on Computing Communication and Networking Technologies (ICCCNT). 2022.
https://doi.org/10.1109/ICCCNT54827.2022.9984599 - Adhikary S., Talukdar A.K., Sarma K.K. A vision-based system for recognition of words used in Indian Sign Language using MediaPipe // Proc. of the 2021 Sixth International Conference on ImageInformation Processing (ICIIP). 2021. P. 390–394. https://doi.
org/10.1109/ICIIP53038.2021.9702551 - Zhang S., Chen W., Chen C., Liu Y. Human deep squat detection method based on MediaPipe combined with Yolov5 network // Proc. of the 41st Chinese Control Conference (CCC). 2022. P. 6404–6409. https://doi.org/10.23919/CCC55666.2022.9902631
- Quiñonez Y., Lizarraga C., Aguayo R. Machine learning solutions with MediaPipe // Proc. of the 11th International Conference on Software Process Improvement (CIMPS). 2022. P. 212–215. https:// doi.org/10.1109/CIMPS57786.2022.10035706
- Ma J., Ma L., Ruan W., Chen H., Feng J. A Wushu posture recognition system based on MediaPipe // Proc. of the 2nd International Conference on Information Technology and Contemporary Sports( T C S ) . 2 0 2 2 . P. 1 0 – 1 3 . h t t p s : / / d o i . o r g / 1 0 . 1 1 0 9 /
TCS56119.2022.9918744 - Cho K., Merriënboer B., Gulcehre C., Bahdanau D., Bougares F., Schwenk H., Bengio Y. Learning phrase representations using RNN encoder-decoder for statistical machine translation // Proc. of the 2014 Conference on Empirical Methods in Natural Language Processing
(EMNLP). 2014. P. 1724–1734. https://doi.org/10.3115/v1/D14-1179 - Dey R., Salem F.M. Gate-variants of Gated Recurrent Unit (GRU) neural networks // Proc. of the IEEE 60th International Midwest Symposium on Circuits and Systems (MWSCAS). 2017. P. 1597– 1600. https://doi.org/10.1109/MWSCAS.2017.8053243
- Kothadiya D., Bhatt C., Sapariya K., Patel K., Gil-González A.-B., Corchado J.M. Deepsign: Sign language detection and recognition using deep learning // Electronics. 2022. V. 11. N 11. P. 1780. https:// doi.org/10.3390/electronics11111780
- Verma U., Tyagi P., Kaur M. Single input single head CNN-GRULSTM architecture for recognition of human activities // Indonesian Journal of Electrical Engineering and Informatics (IJEEI). 2022. V. 10. N 2. P. 410–420. https://doi.org/10.52549/ijeei.v10i2.3475
- Li D., Yu X., Xu C., Petersson L., Li H. Transferring Cross-domain Knowledge for Video Sign Language Recognition. Proc. of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020, pp. 6204–6213. https://doi.org/10.1109/
cvpr42600.2020.00624 - Li D., Opazo C.R., Yu X., Li H. Word-level deep sign language recognition from video: A new large-scale dataset and methods comparison. Proc. of the IEEE Winter Conference on Applications ofComputer Vision (WACV), 2020, pp. 1448–1458. https://doi.
org/10.1109/WACV45572.2020.9093512 - Camgoz N.C., Hadfield S., Koller O., Ney H., Bowden R. Neural sign language translation. Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018, pp. 7784–7793. https://doi. org/10.1109/CVPR.2018.00812
- Sridhar A., Ganesan R.G., Kumar P., Khapra M. INCLUDE: A large scale dataset for indian sign language recognition. Proc. of the 28th ACM International Conference on Multimedia, 2020, pp. 1366–1375. https://doi.org/10.1145/3394171.3413528
- Ying X. An overview of overfitting and its solutions. Journal of Physics: Conference Series, 2019, vol. 1168, no. 2, pp. 022022. https://doi.org/10.1088/1742-6596/1168/2/022022
- Creswell A., White T., Dumoulin V., Arulkumaran K., Sengupta B., Bharath A. Generative adversarial networks: An overview. IEEE Signal Processing Magazine, 2018, vol. 35, no. 1, pp. 53–65. https:// doi.org/10.1109/MSP.2017.2765202
- Gupta K., Singh S., Shrivastava A. PatchVAE: Learning local latent codes for recognition. Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020, pp. 4745–
- https://doi.org/10.1109/CVPR42600.2020.00480
- Karras T., Aila T., Laine S., Lehtinen J. Progressive growing of GANs for improved quality, stability, and variation. Proc. of the ICLR 2018 Conference Blind Submission, 2018.
- Ma L., Jia X., Sun Q., Schiele B., Tuytelaars T., Van Gool L. Pose guided person image generation. Proc. of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
- Sushko V., Gall J., Khoreva A. One-shot GAN: Learning to generate samples from single images and videos. Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2021, pp. 2596–2600. https://doi.org/10.1109/
CVPRW53098.2021.00293 - Li J., Jing M., Lu K., Ding Z., Zhu L., Huang Z. Leveraging the invariant side of generative zero-shot learning. Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 7394–7403. https://doi.org/10.1109/CVPR.2019.00758
- Madrid G.K.R., Villanueva R.G.R., Caya M.V.C. Recognition of dynamic Filipino Sign language using MediaPipe and long short-term memory. Proc. of the 13th International Conference on Computing Communication and Networking Technologies (ICCCNT), 2022.
https://doi.org/10.1109/ICCCNT54827.2022.9984599 - Adhikary S., Talukdar A.K., Sarma K.K. A vision-based system for recognition of words used in Indian Sign Language using MediaPipe. Image
Information Processing (ICIIP), 2021, pp. 390–394. https://doi org/10.1109/ICIIP53038.2021.9702551 - Zhang S., Chen W., Chen C., Liu Y. Human deep squat detection method based on MediaPipe combined with Yolov5 network. Proc. of the 2022 41st Chinese Control Conference (CCC), 2022, pp. 6404– 6409. https://doi.org/10.23919/CCC55666.2022.9902631
- Quiñonez Y., Lizarraga C., Aguayo R. Machine learning solutions 11th International Conference on Software Process Improvement (CIMPS), 2022, pp. 212–215. https://
doi.org/10.1109/CIMPS57786.2022.10035706 - Ma J., Ma L., Ruan W., Chen H., Feng J. A Wushu posture recognition system based on MediaPipe. Proc. of the 2nd International Conference on Information Technology and Contemporary Sports (TCS), 2022, pp. 10–13. https://doi.org/10.1109/TCS56119.2022.9918744
- Cho K., Merriënboer B., Gulcehre C., Bahdanau D., Bougares F., Schwenk H., Bengio Y. Learning phrase representations using RNN encoder-decoder for statistical machine translation. Proc. of the 2014 Conference on Empirical Methods in Natural Language Processing
(EMNLP), 2014, pp. 1724–1734. https://doi.org/10.3115/v1/D14-1179 - Dey R., Salem F.M. Gate-variants of Gated Recurrent Unit (GRU) neural networks. Proc. of the IEEE 60th International Midwest Symposium on Circuits and Systems (MWSCAS), 2017, pp. 1597–
- https://doi.org/10.1109/MWSCAS.2017.8053243
- Kothadiya D., Bhatt C., Sapariya K., Patel K., Gil-González A.-B., Corchado J.M. Deepsign: Sign language detection and recognition using deep learning. Electronics, 2022, vol. 11, no. 11, pp. 1780. https://doi.org/10.3390/electronics11111780
- Verma U., Tyagi P., Kaur M. Single input single head CNN-GRULSTM architecture for recognition of human activities. Indonesian Journal of Electrical Engineering and Informatics (IJEEI), 2022, vol. 10, no. 2, pp. 410–420. https://doi.org/10.52549/ijeei.v10i2.3475
Выпуск
Журнал является одним из старейших научных периодических изданий страны, выходящих на базе технического вуза.
Первый его выпуск (т.1) датируется 1936 годом.
Журнал выходил в течение многих лет под названием «Труды Ленинградского института точной механики и оптики» (отв. редактор Л.Н. Гассовский, Л.-М., Главная редакция литературы по машиностроению и металлообработке. НКТП СССР. Главное управление учебными заведениями).
Выпуск издания возобновлен в 2001 году как периодическое научное и научно-образовательное издание.
Другие статьи выпуска
Представлены результаты исследования восприятия систем поддержки принятия врачебных решений в рамках проведения ежегодной диспансеризации врачами-стоматологами в общеобразовательных организациях Минобороны России (суворовских и нахимовском военных училищах, президентских кадетских училищах и кадетских военных корпусах).
На примере рассматриваемого сценария проведена апробация прототипа системы на основе машинного обучения.
Для оценки восприятия выполнен опрос врачей-стоматологов с демонстрацией результатов работы прототипа и оценкой воспринимаемых характеристик предоставляемых результатов предсказательного моделирования.
Построена модель на основе байесовской сети для оценки рассматриваемых показателей, продемонстрировавшая повышение качества предсказания воспринимаемых показателей с учетом влияния латентных состояний субъективного восприятия оператора.
Предложенный подход в дальнейшем планируется использовать для повышения эффективности взаимодействия врача и системы поддержки принятия врачебных решений.
Исследована проблема срывов сроков релиза в условиях систематического изменения требований рынка к программному продукту. Проведен анализ причин срывов на всех этапах разработки программного продукта и предложен подход, направленный на поиск компромисса между качеством и сроком внедрения разрабатываемого продукта для сокращения времени выхода релиза. Представлены результаты практического применения
данного подхода на примере стартапа по разработке сервиса тест-драйва техники, которые подтвердили его эффективность: время релиза сократилось на 15 %.
Рассмотрено цензурирование обучающих выборок с учетом специфики реализации алгоритмов метода ближайшего соседа.
Процесс цензурирования связан с использованием множества граничных объектов классов по заданной метрике с целью: поиска и удаления шумовых объектов; анализа кластерной структуры обучающей выборки по отношению связанности.
Исследуются специальные условия удаления шумовых объектов и формирования базы прецедентов для обучения алгоритмов.
Распознавание объектов по такой базе должно обеспечивать более высокую точность с минимальными затратами вычислительных ресурсов относительно исходной выборки.
Метод: Разработаны необходимые и достаточные условия для отбора шумовых объектов из множества граничных. Необходимое условие принадлежности граничного объекта к множеству шумовых задается в виде ограничения (порога) на отношение расстояний до ближайшего объекта из своего класса и его дополнения.
Поиск минимального покрытия обучающей выборки эталонами производится на основе анализа кластерной структуры. Эталоны представлены объектами выборки.
Структура отношений связанности объектов по системе гипершаров используется для их группировки.
Состав групп формируется из центров (объектов выборки) для гипершаров, в пересечении которых содержатся граничные объекты.
Значение меры компактности вычисляется как среднее число объектов обучающей выборки за вычетом шумовых, притягиваемое одним эталоном минимального покрытия.
Выполняется анализ связи обобщающей способности алгоритмов при машинном обучении со значением меры компактности.
Наличие связи обосновывается по критерию (регуляризатору) для отбора числа и состава множества шумовых объектов.
Основные результаты: Показана связь между значением меры компактности обучающей выборки и обобщающей способностью алгоритмов распознавания.
Связь выявлена по эталонам минимального покрытия выборки, из которых сформирована база прецедентов.
Обнаружено, что точность распознавания по базе прецедентов выше, чем на исходной выборке.
Минима
Представлен новый метод гладкой кусочно-полиномиальной аналитической аппроксимации экспериментальных данных любой размерности и степени изменчивости.
Альтернативой данному методу являются кубические и бикубические сплайны, которые имеют свои достоинства и недостатки.
Исследования, направленные на создание более гибких методов гладкой аппроксимации больших данных, активно ведутся учеными, но подобного аналога, представленного в настоящей работе, автором не найдено, в том числе и для многомерных зависимостей.
Метод: Экспериментальные данные часто зависят от многих переменных, которые для задач компрессии, прогноза и передачи данных локально могут быть аппроксимированы простыми аналитическими функциями.
Они могут быть локальными полиномами как на интервалах в одномерном случае,
так и на полигонах в многомерных случаях.
Представленный в работе метод гладкого согласования локальных функций между собой может быть расширен с одномерной кусочно-полиномиальной аппроксимации на более
высокие размерности, что имеет множество научных и практических применений.
В данном случае можно сохранять и передавать коэффициенты локальных полиномов или других локальных функций вместо того, чтобы использовать исходные данные, часто имеющие чрезмерно большой объем.
В описываемом методе использовано клеточное разбиение области интереса и на этих клетках определены локальные функции — полиномы низких степеней или другие параметрические функции.
В местах соединения клеток задаются переходные зоны, в которых локальные функции согласуются друг с другом, образуя достаточно гладкий переход между ними.
Количество локальных функций в точке совпадает с ее индексом топологического покрытия.
Результатом является единая, дважды дифференцируемая аналитическая функция.
Для гладкого согласования локальных функций используются базовые функции, основанные на специальных полиномах второй или третьей степени.
Значения этих функций плавно уменьшаются от единицы до нуля.
Значения производной базовой функции на о
Для непрерывного вейвлет-преобразования традиционно используются вейвлеты на основе производных функции Гаусса, а для кратномасштабного анализа — вейвлеты Добеши.
Разработка алгоритмов прямого и обратного непрерывного вейвлет-преобразования в частотной области позволила в настоящей работе синтезировать цифровые фильтры с конечной импульсной характеристикой методом, отличным от существующих.
Качество синтезированных фильтров проверялось декомпозицией и последующей
реконструкцией сигналов.
Для этого синтезировались несколько фильтров, полностью покрывающих частотный
диапазон сигнала.
Так как вейвлеты являются полосовыми фильтрами, авторы назвали фильтры вейвлетами.
Чем точнее реконструированный сигнал повторяет форму оригинального сигнала, тем лучше вейвлет, сконструированный тем или иным методом.
Сравнение точности реконструкции сигналов показывает, что лучший результат преобразования получается при применении именно синтезированных вейвлетов.
Метод: Импульсные характеристики фильтров с конечной импульсной характеристикой синтезируются таким образом, чтобы их амплитудно-частотные характеристики (АЧХ) были схожи на АЧХ вейвлетов на основе производных функции Гаусса большого порядка.
Чем больше порядок фильтра, тем ближе АЧХ к прямоугольной форме.
Основные результаты: Предложены алгоритмы прямого и обратного вейвлет-преобразования сигнала в частотной области с применением вейвлетов на основе производных функции Гаусса.
Профилирование программы синтеза показало, что время вейвлет-преобразования с использованием быстрого преобразования Фурье в 15 000 раз меньше, чем при прямом численном интегрировании для экспериментальной выборки сигнала в 32 768 отсчетов.
Эти алгоритмы можно использовать для вейвлетов с прямоугольной АЧХ.
При этом время численного вычисления уменьшается еще в два раза.
Точность реконструкции сравнивалась для вейвлетов на основе производных второго порядка, вейвлетов Добеши, и вейвлетов с прямоугольной АЧХ. Точность реконструкции оказалась наивысшей для вей
Рассмотрены возможности моделирования течений вязкой несжимаемой жидкости при помощи метода решеточных уравнений Больцмана (Lattice Boltzmann Method, LBM).
В отличие от классического макроскопического подхода, основанного на решении уравнений Навье–Стокса, в методе решеточных уравнений Больцмана используется мезоскопическая модель для моделирования течений жидкости.
Макроскопические параметры жидкости, такие как плотность и скорость, выражаются через моменты дискретной функции распределения.
Метод: Дискретизация решеточного уравнения Больцмана осуществляется при помощи
схем D2Q9 (двумерный случай) и D3Q19 (трехмерный случай). Для моделирования столкновений между псевдочастицами применяется приближение Бхатнагара–Гросса–Крука с одним временем релаксации.
Обсуждаются особенности постановки начальных и граничных условий на различных границах расчетной области.
Основные результаты: Развиваются представления о закономерностях формирования вихревых течений в квадратной каверне, а также пространственных струйных потоков внутри крупномасштабных вихревых структур в пределах замкнутого пространства кубической каверны.
Выполнено сравнение результатов расчетов характеристик течения в квадратной и кубической каверне при различных числах Рейнольдса с данными, имеющимися в литературе и полученными на основе метода конечных объемов.
Исследована зависимость численного решения, а также положения критических точек на стенках кубической каверны от размера сетки.
Выполнено сравнение времени счета со скоростью вычислений в методе конечных разностей и методе конечных объемов.
Обсуждение: Разработанная реализация метода решеточных уравнений Больцмана
представляет интерес для перехода к последующему моделированию неизотермических и высокоскоростных течений.
Возможность быстрого, удобного и точного определения массы груза в вагонах позволяет
повысить безопасность транспорта, а также обеспечить учет активов в железнодорожной инфраструктуре.
Известны трехмерные твердотельные модели участка железнодорожного пути и методики моделирования деформаций, возникающих в рельсах под действием механических нагрузок, передаваемых через вагонные колеса.
В соответствии с этими методиками происходит пересчет возникающих деформаций в вес вагонов.
Температура рельса влияет на его механические свойства и, соответственно, на величину его деформации.
В работе впервые предложена методика, позволяющая учитывать деформацию рельса под действием нагрузки с учетом изменения его температуры при различных граничных условиях.
Метод:
Согласно предложенному подходу, вес вагона определяется по величине деформаций, которые измеряются тензометрическими датчиками, расположенными на шейке рельса.
Разработанные модели включают железнодорожное колесо, шпалы и фрагмент рельса.
Фрагмент рельса, соответствующий участку пути, на котором устанавливаются датчики,
геометрически воспроизводит существующий тип рельса R50 и размещается на шпалах, зафиксированных с нижней стороны.
Модель колеса соответствует существующему типу цельнокатаных вагонных колес
с диаметром по кругу катания 920 мм, благодаря чему в модели сохраняется корректное пятно контакта.
Согласно методике, на разработанные твердотельные модели накладывается конечно-элементная сетка, устанавливаются соединения между фрагментами модели, применяются граничные и температурные условия, а также воздействующие силы.
Последовательно выполняется конечно-элементный анализ для всех возможных
комбинаций координаты колеса, нагружаемой массы и температуры.
Для каждого случая регистрируются значения деформаций в четырех узлах рельса, соответствующих местам установки тензодатчиков.
Проведено сравнение результатов конечно-элементного анализа для двух разработанных твердотельных моделей.
Модели отличаются способом
Изучены симметричные формы потери устойчивости прямоугольной пластинки Кирхгоффа с двумя защемленными и двумя свободными параллельными гранями под действием распределенной сжимающей нагрузки, приложенной к защемленным граням.
Метод:
Функция прогибов пластинки при потере устойчивости представлена двумя гиперболо тригонометрическими рядами с неопределенными коэффициентами, которые
получены при точном удовлетворении всех условий краевой задачи.
Проблема поиска сведена к решению однородной бесконечной системы линейных алгебраических уравнений относительно одной последовательности неопределенных коэффициентов, которая в качестве параметра содержит искомую критическую нагрузку.
Для получения нетривиальных решений определитель системы должен быть равен нулю.
Эта задача на собственные значения имеет бесчисленное множество решений.
Hетривиальные решения системы предложено находить методом последовательных приближений с перебором параметра нагрузки.
Основные результаты:
С помощью компьютерных вычислений найдены первые четыре критические нагрузки (включая эйлерову), приложенные к защемленным параллельным граням квадратной пластинки и дающие симметричные формы потери устойчивости.
Исследовано влияние количества членов, удерживаемых в рядах, и числа итераций на
точность вычислений.
Представлены 3D-изображения найденных форм потери устойчивости.
Приведено сравнение с известными решениями.
Обсуждение:
Полученные результаты могут быть использованы при проектировании различных плоских прямоугольных элементов в микроэлектронике и нанотехнике.
В работе развивается теория устойчивых M-оценок, относящихся к классу сниженных оценок, обладающих свойством устойчивости к асимметричному засорению.
Многие известные сниженные оценки могут быть получены в рамках двух подходов д.т.н. А.М. Шурыгина: локально устойчивого подхода, основанного на анализе показателя неустойчивости оценки (L2-нормы функции влияния), или подхода, основанного на модели
серии выборок со случайным точечным засорением (модели байесовского точечного засорения).
Эти подходы удобны для построения различных устойчивых М-оценок и, по сравнению с классическими робастными процедурами, предоставляют более широкие возможности.
Предложенное А.М. Шурыгиным в рамках первого из перечисленных подходов семейство условно оптимальных оценок может определяться как оптимизирующее асимптотическую дисперсию при ограничении на величину неустойчивости.
Соответствующая задача допускает представление в форме оптимизации весовой L2-нормы функции влияния.
Во втором подходе рассматривается специальным образом сформированная непараметрическая окрестность модельного распределения, и он тоже может быть сведен к анализу весовой L2-нормы функции влияния.
Таким образом, данный критерий качества оценивания является достаточно общим и полезным для конструирования робастных оценок.
Метод:
Теория оценок, оптимальных с точки зрения весовой L2-нормы функции влияния, в настоящее время недостаточно развита.
Так, для соответствующих семейств оценок остается нерешенным вопрос единственности членов семейства.
Вопрос сводится к исследованию выпуклости (вогнутости) оптимизируемого функционала в зависимости от параметра, задающего семейство.
Основные результаты:
В работе в общем виде получено выражение для производной по параметру функционала качества оптимальной оценки.
Получены неравенства для второй производной, необходимые для установления его выпуклости (вогнутости) по параметру.
Полученные результаты применены для описания свойств условно оптимального семейства.
Построены фу
Современные технологии искусственного интеллекта находят применение в различных областях науки и повседневной жизни.
Повсеместное внедрение систем, основанных на методах искусственного интеллекта, выявило проблему их уязвимости перед состязательными атаками, включающими методы обмана искусственной нейронной сети и нарушения ее работы.
В работе основное внимание уделено защите моделей распознавания изображений от состязательных атак уклонения, признанных в настоящее время наиболее опасными.
При таких атаках создаются состязательные данные, содержащие незначительные искажения относительно исходных, и происходит отправка их на обученную модель с целью изменения ее «ответа» на вариант, необходимый злоумышленнику.
Искажения могут включать добавление шума или изменение нескольких пикселов
изображения.
Рассмотрены наиболее актуальные подходы к созданию состязательных данных: метод быстрого градиента (Fast Gradient Sign Method, FGSM), метод квадрата (Square Method, SQ), метод прогнозируемого градиентного спуска (Predicted Gradient Descent, PGD), базовый итеративный метод (Basic Iterative Method, BIM), метод Карлини и Вагнера (Carlini-Wagner, CW), метод карт значимости Якобиана (Jacobian Saliency Map Attack, JSMA).
Исследованы современные методы противодействия атакам уклонения, основанные на модификации модели — состязательное обучение и предварительная обработка поступающих данных: пространственное сглаживание, сжатие признаков, JPEG-сжатие, минимизация общей дисперсии, оборонительная дистилляция.
Эти методы эффективны только против определенных видов атак. На сегодняшний день ни один метод противодействия не может быть применен в качестве универсального решения.
Метод:
Предложен новый метод, сочетающий состязательное обучение с предварительной обработкой изображений.
Состязательное обучение выполнено на основе состязательных данных, создаваемых с распространенных атак, что позволяет эффективно им противодействовать.
Предварительная обработка изображений предназначена для противодей
Для компьютерных систем с контейнерной виртуализацией исследована зависимость задержки обслуживания запросов от числа развертываемых контейнеров.
Искомая зависимость обусловлена разделением ограниченных вычислительных ресурсов компьютерной системы между активными и неактивными контейнерами, загруженными в системе.
Метод:
В проведенном исследовании предложено комплексное сочетание аналитической модели массового обслуживания, имитационного моделирования и натурных экспериментов.
Исследуемая компьютерная система интерпретируется многоканальной системой массового обслуживания с неограниченной очередью.
Особенностью предлагаемого подхода является исследование влияния числа сформированных в системе контейнеров на задержки в очереди и интенсивность обслуживания запросов.
Каждому контейнеру сопоставляется канал обслуживания, причем для функционирования контейнера в активном и неактивном состояниях требуется использование части общих ресурсов вычислительной системы.
При построении модели предполагается, что входной поток простейший, а обслуживание экспоненциальное.
Интенсивность обслуживания зависит от числа развернутых контейнеров и от числа запросов в системе.
Основные результаты:
Экспериментально установлена зависимость интенсивности обслуживания от числа
активных контейнеров.
Исследование выполнено на платформе, основанной на технологии виртуализации
Proxmox с фиксированными ресурсами.
Для изучения влияния числа активных контейнеров на интенсивность обслуживания в рамках эксперимента развернут однопоточный веб-сервер в виде нескольких контейнеров,
управляемый с помощью портативной расширяемой платформы Kubernetes k3s.
Результаты расчетов с применением аналитической модели подтверждены результатами имитационного моделирования, реализованного с использованием библиотеки моделирования SimPy на языке программирования Python.
На основе проведенных исследований показана необходимость решения задачи оптимизации числа развертываемых в компьютерной системе контейнеров с у
Предложены метод стабилизации обнаружения структурных аномалий в условиях аддитивных шумов, а также алгоритм формального выбора параметров решающего правила в обнаружителе структурных аномалий на основе метода Robust Random Cut Forest (RRCF).
Метод:
В рамках разработанного метода, для стабилизации процесса обнаружения структурных аномалий в условиях воздействия аддитивных шумов, предложено подавать на вход RRCF-обнаружителя поток данных, который предварительно обработан одним из методов цифровой фильтрации.
При этом правило принятия решения об обнаружении аномалии строго формализовано и прозрачно интерпретируется.
Основные результаты:
Формализован выбор параметров стабилизированного методами предварительной фильтрации данных входного потока обнаружителя аномалий на базе RRCF.
Параметр обнаружителя, выбранный в рамках предложенный схемы, гарантирует априорно заданную верхнюю границу для вероятности ложной тревоги при принятии решения об обнаружении структурной аномалии.
Это свойство строго доказано и оформлено в виде теоремы.
Эффективность работы стабилизированного RRCF-обнаружителя аномалий исследована численным методом.
Достигнутые результаты подтверждают работоспособность рассмотренного подхода при условии выбора порога обнаружения предложенным способом.
Приведен пример практического использования предложенного RRCF-обнаружителя.
Обсуждение:
Разработанный подход перспективен для обнаружения структурных аномалий в условиях зашумления наблюдений аддитивной помехой, в случае, когда важно гарантировать верхнюю границу для вероятности ложной тревоги.
В частности, подход может найти применение при контроле технологических режимов прокачки жидкости в трубопроводных системах или в системах обнаружения предотказных состояний технологического оборудования.
Целью исследования является прогнозирование ошибки программного обеспечения с использованием долговременной кратковременной памяти (Long Short-Term Memory, LSTM).
Предлагаемая система представляет собой LSTM, обучаемую с использованием алгоритма оптимизации китов (Whale Optimization Algorithm).
Система обеспечивает экономию времени обучения. Одновременно повышается эффективность модели глубокого обучения (DL) и скорость обнаружения.
Для разработки расширенной модели LSTM применен программный пакет MATLAB 2022a. Использованы 19 баз данных дефектов программного обеспечения с открытым исходным
кодом.
Ошибочные наборы данных получены из коллекции tera-PROMISE. Для оценки эффективности модели по сравнению с другими традиционными подходами объем исследования ограничен пятью наборами эталонных данных с наиболее высоким рейтингом (DO1, DO2, DO3, DO4 и DO5). Результаты экспериментов показали,
что качество данных обучения и тестирования оказывает существенное влияние на точность прогнозирования ошибок.
При анализе на наборах данных от DO1 до DO5 видно, что точность прогнозирования существенно зависит от результатов обучения и тестирования. Три алгоритма DL, протестированные на наборе данных DO2, показали самую высокую точность (0,942) в сравнении с двумя классическими алгоритмами с использованием сверточной нейронной сети Li’s и Nevendra’s (0,922).
Одним из способов повышения качества разговорных агентов является персонификация.
Персонификация улучшает качество взаимодействия пользователя с разговорным агентом и повышает удовлетворенность пользователей за счет повышения консистентности и специфичности ответов.
Диалог с агентом становится более последовательным, минимизируется противоречивость ответов, которые оказываются более конкретными и интересными.
Для обучения и тестирования персонифицированных разговорных агентов требуются специфичные наборы данных, содержащие факты о персоне и тексты диалогов персон, в
репликах которых используются факты о персонах.
Существует несколько наборов на английском и китайском языках, содержащие в описании персоны в среднем пять фактов.
Диалоги в наборах данных составлены пользователями краудсорсинга, которые многократно имитировали различные персоны.
Метод:
В данной работе предложена методика сбора оригинального корпуса данных, содержащего расширенный набор фактов о персоне и естественные диалоги между персонами.
Новый корпус данных RuPersonaChat основан на трех различных сценариях записи: интервью, короткая беседа, длинная беседа.
Впервые собран корпус данных для персонификации разговорных агентов, включающий естественные диалоги и расширенное описание персоны.
Предложена дополнительная разметка набора данных, которая ставит в соответствие реплики персоны и факты о персоне, на основе которых она была сформулирована.
Основные результаты:
Разработана методика сбора оригинального корпуса тестовых данных, позволяющего осуществлять тестирование языковых моделей для решения большего количества задач в рамках разработки персонифицированного разговорного агента.
Собранный набор данных включает 139 диалогов и 2608 реплик.
Корпус использован для тестирования моделей генерации ответов и вопросов. Наилучшие результаты получены с использованием модели Gpt3-large (перплексия равна 15,7).
Обсуждение:
Собранный корпус данных RuPersonaChat может быть использован для тестирования п
Рассмотрена динамическая система, где фактическое воздействие представляет собой произведение прикладываемого управления на выходную переменную линейной динамической системы, движимой тем же прикладываемым управлением.
Метод:
Сущность предлагаемого метода состоит в динамической линеаризации нелинейного оператора по управлению, позволяющая сформировать управляющее воздействие так, чтобы фактическое воздействие на систему соответствовало желаемому.
В частном случае этот подход соответствует векторному (поле-ориентированному) управлению.
Основные результаты:
Показано, что динамическая линеаризация на основе метода внутренней модели позволяет декомпозировать нелинейную систему на каскад двух подсистем.
Предложенный регулятор состоит из двух последовательно соединенных блоков, где
первый блок решает задачу регулирования с помощью наблюдателя Люенбергера, а второй блок компенсирует нелинейный динамический оператор.
Для демонстрации эффективности предложенного подхода приведен пример численного моделирования нейтрально устойчивого объекта и адаптивного закона управления по выходу.
Обсуждение:
На практике этот метод может быть востребован в задачах управления двигателями переменного тока и многозвенными роботами-манипуляторами.
Рассмотрена субоптимальная трансграничная задача в применении к нелинейным динамическим управляемым системам в условиях действия на них детерминированных, равномерно ограниченных внешних неизвестных возмущений.
Метод:
Задача решается с помощью методов классического вариационного исчисления для случая, когда промежуток времени адаптации и оптимизации заранее не задается.
Основные результаты:
Определены необходимые условия для выбора экстремального движения за счет надлежащего формирования замкнутой субоптимальной системы адаптивного управления.
Теоретический анализ сопоставлен с компьютерными расчетами на конкретном модельном примере, который показал эффективность применяемого подхода.
Обсуждение:
Предложенная схема субоптимального адаптивного синтеза может быть использована
при расчете и проектировании нелинейных управляемых динамических систем.
Современные нейросетевые технологии активно применяются для беспилотных летательных аппаратов.
Для решения задач детектирования, классификации и сопровождения объектов, расположенных на поверхности Земли, используются сверточные нейронные сети.
Для повышения эффективности работы сверточных нейронных сетей требуется периодическое дообучение применяемых моделей нейронных сетей на вновь поступающих полетных данных.
Такие обучающие данные необходимо дополнительно размечать.
Это приводит к увеличению общего времени подготовки дообученной модели нейронной сети.
Задача сокращения времени разметки чаще всего решается путем применения процедуры авторазметки и трекинга размеченных объектов.
Однако существующие подходы не являются эффективными при разметке сверхбольших данных аэросъемки со стандартной для беспилотных летательных аппаратов большой продолжительностью полета (более 8 ч).
Таким образом, задача поиска дополнительных способов сокращения времени разметки является актуальной.
В данной работе предложен способ быстрой разметки данных аэросъемки, собранных с видеокамер в процессе полетов беспилотных летательных аппаратов.
Метод:
Стандартная процедура разметки дополнена прореживанием сильно перекрывающихся кадров в сочетании с последующим переносом результирующей разметки на все кадры размечаемого видео.
Для каждого оставшегося после прореживания кадра вычисляется значение его потенциальной информативности (Potential Information Value, PIV), как совокупная оценка
аномалий кадра, его качества и количества автоматически детектированных объектов.
Полученные значения PIV используются для ранжирования кадров по уровню значимости.
Таким образом, оператору беспилотного летательного аппарата предоставляются в начале процедуры разметки наиболее значимые кадры.
Основные результаты:
Экспериментальное исследование эффективности предложенного подхода выполнено на подготовленных наборах данных аэросъемки, полученных с беспилотного летательного аппарата с продолжительностью съем
Представлены результаты исследования методов обработки оптико-электронных снимков земной поверхности.
Показано применение фрактальных преобразований для решения задач автоматизированного и автоматического анализа изображений местности, обеспечивающих разделение природных и антропогенных объектов без использования машинного обучения.
Анализ существующих работ показал отсутствие исследований, связывающих результат фрактального преобразования с качеством изображения, зарегистрированного в
реальных условиях оптико-электронной съемки.
Отсутствует обоснование выбора конкретного фрактального преобразования для прикладной обработки снимков, имеющих определенные типовые искажения.
Целью данной работы явилось выявление зависимости отношения сигнал/шум фрактальной размерности от качества исходных изображений, определение типа фрактального преобразования, наиболее устойчивого к действию рассматриваемых негативных факторов. Методы.
Определены методы фрактальных преобразований для тематической обработки изображений, к которым отнесены метод призм и дифференциальный метод подсчета
кубов, представлено их описание.
Для исследования выбранных методов использованы реальные снимки земной
поверхности, моделирующие искаженные изображения местности.
Рассмотрены искажения изображений, определяемые нестабильностью условий съемки и свойств оптико-электронного комплекса: расфокусировка, смаз и шум.
В обобщенном виде представлены математические модели, используемые для их описания.
Основные результаты:
Изложена методика анализа отношения сигнал/шум фрактального преобразования,
предполагающая обработку эталонного и искаженного изображений местности.
Указаны аспекты моделирования искажений и показатели, характеризующие уровень искажения изображения.
Для реализации эксперимента выбраны изображения местности, характеризующиеся различными сюжетами.
Для каждого сюжета получены зависимости отношения сигнал/шум от показателей, характеризующих исследуемые искажения.
Обсуждение:
Путем оце
Оптико-электронные системы контроля износа рабочих лопаток цилиндров низкого давления паровых турбин обеспечивают оценку величины хорды рабочей лопатки в статике на закрытом цилиндре, но не позволяют оценить износ с необходимой погрешностью при валоповороте.
Контроль затрудняется тем, что выходная кромка контролируемой лопатки может перекрываться входной кромкой следующей лопатки.
Следовательно, требуется задать такое направление видеонаблюдения для каждого сечения, которое обеспечит формирование видеокадров, содержащих изображение лопатки, и будет включать ее входную и выходную кромки.
Обсуждение:
Эффективность методики выбора параметров подтверждена экспериментальными исследованиями макета системы, показавшими, что оценка стандартного отклонения случайной составляющей погрешности.
Режим валоповорота требует применения импульсной подсветки передней и задней кромок рабочих лопаток для уменьшения величины смаза изображения.
Исходя из этого, важно осуществить выбор фокусного расстояния объектива видеокамеры, диаметра входного зрачка объектива и мощности импульсных источников излучения.
Разработка методики параметров системы является актуальной задачей с целью сокращения трудоемкости проектирования систем для различных моделей турбин и технологий применения.
Метод:
Разработана методика выбора параметров систем контроля износа рабочих лопаток, которая основана на критерии равенства основных составляющих суммарной погрешности величины хорды.
При аналитических исследованиях использовались выявленные связи параметров матричного приемника оптического излучения, источников подсветки и оптической схемы с требуемыми характеристиками системы.
Компьютерное моделирование процесса преобразования информации в исследуемой системе учитывало связь параметров перемещающихся при валоповороте рабочих лопаток и параметров оптической схемы.
Экспериментальная оценка погрешности системы в статике и в динамике на макете лопаточного аппарата использовала многократные измерения после
калибровки си
Издательство
- Издательство
- ИТМО
- Регион
- Россия, Санкт-Петербург
- Почтовый адрес
- Кронверкский пр., д.49, лит. А, Санкт-Петербург, Российская Федерация, 197101.
- Юр. адрес
- Кронверкский пр., д.49, лит. А, Санкт-Петербург, Российская Федерация, 197101.
- ФИО
- Васильев Владимир Николаевич (Ректор)
- E-mail адрес
- od@itmo.ru
- Контактный телефон
- +7 (812) 6070277
- Сайт
- https:/itmo.ru