Цель исследования: повышение качества анализа текстовых документов за счет применения моделей машинного обучения и интеллектуального анализа в задачах реферирования и тематического моделирования, что позволит снизить нагрузку на эксперта, выполняющего анализ и обобщение значительных объемов слабоструктурированных текстовых данных по тематике информационной безопасности из различных источников. Метод исследования: для оперативной обработки и анализа больших объемов разнородной, плохо структурированной информации на естественном языке (ЕЯ) использованы методы машинного обучения. Применены методы тематического моделирования и суммаризации текстов на основе глубоких нейронных сетей,включая нейросетевые языковые модели на базе архитектуры трансформеров.Полученные результаты: выделены основные этапы машинной процедуры тематического моделирования и суммаризации профессиональных текстов в области информационной безопасности. Приводятся результаты сравнительной оценки эффективности применения для этих целей моделей кластеризации, латентно-семантического анализа, языковых моделей FastText, Text Rank и трансформеров BERT. Даны рекомендации относительно перспектив практического применения этих моделей в качестве средств интеллектуальной поддержки профессиональной деятельности специалистов в области кибербезопасности. Научная новизна: предложен комплекс моделей машинного обучения для тематического моделирования и суммаризации профессиональных текстов, основанный на нейросетевых моделях вложений и моделях-трансформерах, отличающийся алгоритмом подготовки корпуса текстов для обучения моделей и применением алгоритма переноса обучения, что позволит повысить эффективность анализ и обобщения предметно-ориентированных корпусов текстов.
Проведено аналитическое исследование проблемы предупреждения аварийных ситуаций и предиктивной диагностики оборудования при добыче углеводородов на нефтегазовых месторождениях, а также способов решения данной проблемы путем использования искусственного интеллекта, основанного на глубоких нейронных сетях. Одним из ключевых факторов, сдерживающих развитие систем предиктивной диагностики оборудования, является недостаток данных, описывающих предаварийные ситуации, которые необходимы для качественного обучения нейросетевых моделей. Приводится обзор публикаций и исследований последних лет по тематике анализа телеметрических данных и распознавания аварийных ситуаций. Рассматриваются нейросетевые модели, которые могут быть использованы для прогнозирования выхода из строя насосно-компрессорного оборудования и других агрегатов. Изучены случаи применения нейросетевых моделей, специально обученных для решения данной задачи, а также нейросетевые модели, используемые в иных задачах, но анализирующие схожие структуры данных. Поднимается вопрос переноса обучения, чтобы адаптировать нейросетевые модели, изначально разработанные и обученные для других областей, к использованию в рассматриваемой области, в целях уменьшения объема выборки при обучении промышленного искусственного интеллекта. Проведено сравнение достигнутых результатов, обозначены преимущества и недостатки существующих технических решений.