МОДЕЛИРОВАНИЕ, ОПТИМИЗАЦИЯ И ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ
Архив статей журнала
В статье показаны возможности применения методов машинного обучения для построения и анализа системы аутентификации на основе динамики нажатий клавиш. В работе обоснована необходимость улучшения многофакторной системы аутентификации. Предложен способ классификации работ поведенческой биометрии для сравнения и использования результатов исследований. Рассмотрены базовые возможности обработки и генерирования динамических и статических признаков динамики нажатий клавиш. Протестированы различные комбинации наборов признаков и выборок обучения, описана лучшая комбинация с равной частой ошибок (Equal Error Rate) 4,7%. Итеративный анализ качества системы позволяет установить важность первых символов последовательности ввода, а также нелинейную взаимосвязь степени ранжирования модели и EER. Высокие показатели, достигнутые бустинговой моделью, свидетельствуют о значительном потенциале поведенческой аутентификации для дальнейшего улучшения, развития и применения. Приводится значимость данного метода, его практическая полезность не только в задаче аутентификации, перспективы развития, включая использование нейросетевых методов и анализ динамики данных. Несмотря на достигнутые результаты, отмечается необходимость дальнейшей работы над моделью, включая разработку дополнительных моделей кластеризации, классификации, изменение набора признаков и построение каскада. Подчеркивается важность исследуемой области, способной принести значительный вклад в развитие информационной безопасности и технологий.
В статье показаны возможности применения семантического анализа постов пользователей социальной сети ВКонтакте для мониторинга и прогнозирования депрессии. Подчеркивается серьезность проблемы депрессии, ее негативное влияние на здоровье и социум, а также актуальность ранней диагностики и помощи. В работе также обоснована необходимость и перспективы анализа данных русскоязычных социальных сетей для предотвращения развития депрессии у пользователей. В статье предложен подход, который позволяет проводить анализ текстовых данных и использовать логистическую регрессию для классификации пользователей по наличию депрессии. Результаты исследования показывают высокую точность модели с использованием логистической регрессии, что представляет потенциал для автоматизации процессов выявления и поддержки пользователей, страдающих депрессией по данным пользовательской информации в социальных сетях. Также приводится значимость данного метода, его практическая полезность для персонализированных интервенций, преимущества и перспективы развития, включая использование нейросетевых методов и анализ динамики данных. Несмотря на достигнутые результаты, отмечается необходимость дальнейшей работы над моделью, включая изучение других методов машинного обучения и учет изменений в психическом состоянии пользователя со временем. Развитие методов прогнозирования депрессии на основе данных социальных сетей, предложенных в статье, является важным направлением, способным принести значительный вклад в области психологии, здравоохранения и информационных технологий.
В работе рассмотрены методы определения авторства любительских сочинений по мотивам популярных произведений литературы и кинематографа. Данные для проведения исследования включают тексты 5 самых популярных тематик онлайн-библиотеки Ficbook. Наиболее распространенной является задача атрибуции с закрытым набором. Относительно практических задач можно предполагать, что не всегда истинный автор анонимного текста будет присутствовать в списке кандидатов. Поэтому процесс определения автора рассматривался как усложненная модификация классической задачи классификации - приведению к виду открытого множества авторов. Предложенные методы основаны на авторской комбинации fastText и One-Class SVM с отбором информативных признаков и статистических оценках мер сходства векторных представлений. Статистические методы оказались наименее эффективны даже для простого, кросс-тематического, случая, в котором данные методы уступают в точности одноклассовому SVM до 15 %. Для той же кросс-тематической задачи средняя точность авторской методики на основе совместного применения fastText и One-Class SVM составляет 85 %. В сложном случае внутри тематической классификации авторов точность представленной методики варьируется от 75 до 78 % в зависимости от тематической группы
В работе рассмотрены методы определения авторства естественных и искусственно-сгенерированных текстов, важных в контексте кибербезопасности и защиты интеллектуальной собственности с целью предотвращения дезинформации и мошенничества. Использование методов определения автора текста обосновано выводами об эффективности рассмотренных в прошлых исследованиях fastText и метода опорных векторов (SVM). Алгоритм отбора признаков выбран на основе сравнения пяти различных методов - генетического алгоритма, прямого и обратного последовательных методов, регуляризационного отбора и метода Шепли. Рассмотренные алгоритмы отбора включают эвристические методы, элементы теории игр и итерационные алгоритмы. Наиболее эффективным методом признан алгоритм, основанный на регуляризации, в то время как методы, основанные на полном переборе, признаны неэффективными для любого множества авторов. Точность отбора на основе регуляризации и SVM в среднем составила 77 %, что превосходит другие методы от 3 до 10 % при идентичном количестве признаков. При тех же задачах средняя точность fastText - 84 %. Было проведено исследование, направленное на устойчивость разработанного подхода к генеративным образцам. SVM оказался более устойчив к запутыванию модели. Максимальная потеря точности для fastText составила 16 %, а для SVM - 12 %.
Проведено аналитическое исследование проблемы предупреждения аварийных ситуаций и предиктивной диагностики оборудования при добыче углеводородов на нефтегазовых месторождениях, а также способов решения данной проблемы путем использования искусственного интеллекта, основанного на глубоких нейронных сетях. Одним из ключевых факторов, сдерживающих развитие систем предиктивной диагностики оборудования, является недостаток данных, описывающих предаварийные ситуации, которые необходимы для качественного обучения нейросетевых моделей. Приводится обзор публикаций и исследований последних лет по тематике анализа телеметрических данных и распознавания аварийных ситуаций. Рассматриваются нейросетевые модели, которые могут быть использованы для прогнозирования выхода из строя насосно-компрессорного оборудования и других агрегатов. Изучены случаи применения нейросетевых моделей, специально обученных для решения данной задачи, а также нейросетевые модели, используемые в иных задачах, но анализирующие схожие структуры данных. Поднимается вопрос переноса обучения, чтобы адаптировать нейросетевые модели, изначально разработанные и обученные для других областей, к использованию в рассматриваемой области, в целях уменьшения объема выборки при обучении промышленного искусственного интеллекта. Проведено сравнение достигнутых результатов, обозначены преимущества и недостатки существующих технических решений.
Процедура рентгенологического анализа в настоящее время позволяет выявить остеоартрит (ОА) на ранних стадиях заболевания. Наличие или отсутствие заболевания выявляется только на той стадии, когда оно уже проявилось и проведена рентгенологическая диагностика. Использование автоматизированных процедур анализа рентгенологических снимков, наличие архивов такой информации с длительной историей позволяют улучшить результаты прогнозирования осложнений у пациентов. В статье описывается опыт разработки приложения компьютерного анализа рентгенограмм, которое на основе методов глубокого обучения позволяет выявлять риски развития остеоартрита тазобедренного сустава. В качестве обучающей выборки используется архив профильного медицинского института. С целью увеличения размера обучающего набора рентгенограмм используется метод аугментации данных, который повышает вариативность исходных данных, в ряде случаев повышает эффективность распознавания. В работе используется конволюционная сеть (U-сеть), предназначенная для сегментации изображений, которая обучается на рентгенограммах конкретного медицинского учреждения. В рамках проекта по сегментации и анализу геометрических характеристик рентгеновских снимков тазобедренных суставов было разработано программное обеспечение, позволяющее автоматизировать распознавание размера суставной щели, что позволяет уточнить диагноз пациента, прогноз развития патологии.