ВОПРОСЫ КИБЕРБЕЗОПАСНОСТИ
Архив статей журнала
Цель исследования: повышение качества анализа текстовых документов за счет применения моделей машинного обучения и интеллектуального анализа в задачах реферирования и тематического моделирования, что позволит снизить нагрузку на эксперта, выполняющего анализ и обобщение значительных объемов слабоструктурированных текстовых данных по тематике информационной безопасности из различных источников. Метод исследования: для оперативной обработки и анализа больших объемов разнородной, плохо структурированной информации на естественном языке (ЕЯ) использованы методы машинного обучения. Применены методы тематического моделирования и суммаризации текстов на основе глубоких нейронных сетей,включая нейросетевые языковые модели на базе архитектуры трансформеров.Полученные результаты: выделены основные этапы машинной процедуры тематического моделирования и суммаризации профессиональных текстов в области информационной безопасности. Приводятся результаты сравнительной оценки эффективности применения для этих целей моделей кластеризации, латентно-семантического анализа, языковых моделей FastText, Text Rank и трансформеров BERT. Даны рекомендации относительно перспектив практического применения этих моделей в качестве средств интеллектуальной поддержки профессиональной деятельности специалистов в области кибербезопасности. Научная новизна: предложен комплекс моделей машинного обучения для тематического моделирования и суммаризации профессиональных текстов, основанный на нейросетевых моделях вложений и моделях-трансформерах, отличающийся алгоритмом подготовки корпуса текстов для обучения моделей и применением алгоритма переноса обучения, что позволит повысить эффективность анализ и обобщения предметно-ориентированных корпусов текстов.