EISSN 2310-6018
Язык: ru

МОДЕЛИРОВАНИЕ, ОПТИМИЗАЦИЯ И ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ

ИДЕНТИФИКАЦИЯ АВТОРА ТЕКСТА ДЛЯ ОТКРЫТОГО МНОЖЕСТВА КАНДИДАТОВ В КОНТЕКСТЕ КИБЕРБЕЗОПАСНОСТИ (2024)

В работе рассмотрены методы определения авторства любительских сочинений по мотивам популярных произведений литературы и кинематографа. Данные для проведения исследования включают тексты 5 самых популярных тематик онлайн-библиотеки Ficbook. Наиболее распространенной является задача атрибуции с закрытым набором. Относительно практических задач можно предполагать, что не всегда истинный автор анонимного текста будет присутствовать в списке кандидатов. Поэтому процесс определения автора рассматривался как усложненная модификация классической задачи классификации - приведению к виду открытого множества авторов. Предложенные методы основаны на авторской комбинации fastText и One-Class SVM с отбором информативных признаков и статистических оценках мер сходства векторных представлений. Статистические методы оказались наименее эффективны даже для простого, кросс-тематического, случая, в котором данные методы уступают в точности одноклассовому SVM до 15 %. Для той же кросс-тематической задачи средняя точность авторской методики на основе совместного применения fastText и One-Class SVM составляет 85 %. В сложном случае внутри тематической классификации авторов точность представленной методики варьируется от 75 до 78 % в зависимости от тематической группы

Тип: Статья
Автор (ы): Романов Александр Сергеевич
Ключевые фразы: ОПРЕДЕЛЕНИЕ АВТОРА ТЕКСТА, FASTTEXT, машинное обучение, АНАЛИЗ ТЕКСТА, информационная безопасность

Идентификаторы и классификаторы

УДК
004.89. Прикладные системы искусственного интеллекта. Интеллектуальные системы, обладающие знаниями
eLIBRARY ID
65474478
Текстовый фрагмент статьи