Разработка методов автоматического распознавания объектов в видеопотоке, в частности
распознавания жестового языка, требует больших объемов видеоданных для обучения.
Устоявшимся методом обогащения данных для машинного обучения является искажение и зашумление.
Отличие языковых жестов от других жестов состоит в том, что небольшие изменения позы могут радикально менять смысл жеста.
Это накладывает специфические требования к вариативности данных.
Метод:
Новизна метода состоит в том, что вместо искажений кадров с помощью афинных преобразований изображений используется векторизация позы сурдодиктора с последующим зашумлением в виде случайных отклонений элементов скелета.
Для реализации управляемой вариативности жестов с помощью библиотеки MediaPipe жест преобразуется в векторный формат, где каждый вектор соответствует элементу скелета.
Далее выполняется восстановление изображения фигуры из векторного формата. Достоинством предложенного метода является возможность управляемого искажения
жестов, соответствующего реальным отклонениям поз сурдодиктора.
Основные результаты. Разработанный метод обогащения видеоданных протестирован на наборе из 60 слов индийского языка жестов (общего для всех языков и диалектов, распространенных на территории Индии), представленных 782 видеофрагментами.
Для каждого слова выбран наиболее репрезентативный жест и сгенерировано 100 вариаций.
Остальные, менее репрезентативные жесты, использованы в качестве тестовых данных. В результате получена модель классификации и распознавания на уровне слов с использованием нейронной сети GRU-LSTM с точностью выше 95 %.
Метод апробирован на наборе данных из 4364 видео на вьетнамском языке жестов для трех регионов Северного, Центрального и Южного Вьетнама.
Сгенерировано 436 400 образцов данных, из которых 100 образцов представляют значения слов, которые могут использоваться для разработки и совершенствования методов распознавания языка жестов на вьетнамском языке за счет генерации множества вариаций жестов с разной с