ТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ И СУММАРИЗАЦИЯ ТЕКСТОВ В ОБЛАСТИ КИБЕРБЕЗОПАСНОСТИ (2023)
Цель исследования: повышение качества анализа текстовых документов за счет применения моделей машинного обучения и интеллектуального анализа в задачах реферирования и тематического моделирования, что позволит снизить нагрузку на эксперта, выполняющего анализ и обобщение значительных объемов слабоструктурированных текстовых данных по тематике информационной безопасности из различных источников. Метод исследования: для оперативной обработки и анализа больших объемов разнородной, плохо структурированной информации на естественном языке (ЕЯ) использованы методы машинного обучения. Применены методы тематического моделирования и суммаризации текстов на основе глубоких нейронных сетей,включая нейросетевые языковые модели на базе архитектуры трансформеров.Полученные результаты: выделены основные этапы машинной процедуры тематического моделирования и суммаризации профессиональных текстов в области информационной безопасности. Приводятся результаты сравнительной оценки эффективности применения для этих целей моделей кластеризации, латентно-семантического анализа, языковых моделей FastText, Text Rank и трансформеров BERT. Даны рекомендации относительно перспектив практического применения этих моделей в качестве средств интеллектуальной поддержки профессиональной деятельности специалистов в области кибербезопасности. Научная новизна: предложен комплекс моделей машинного обучения для тематического моделирования и суммаризации профессиональных текстов, основанный на нейросетевых моделях вложений и моделях-трансформерах, отличающийся алгоритмом подготовки корпуса текстов для обучения моделей и применением алгоритма переноса обучения, что позволит повысить эффективность анализ и обобщения предметно-ориентированных корпусов текстов.
Идентификаторы и классификаторы
- eLIBRARY ID
- 54282350
Экстрактивные методы суммаризации базируются на извлечении из исходного текста наиболее значимых информационных блоков (абзацев, предложений, ключевых слов); они обладают интуитивной понятностью и простотой реализации, но невысоким качеством. В отличие от них, абстрактивные методы заключаются в генерации краткого содержания с порождением нового текста, содержательно обобщающего первичный документ; обладают более высоким качеством, хотя и более сложны в реализации. Существенный прогресс в развитии абстрактивных методов суммаризации связан с их реализацией с помощью методов машинного обучения, и в том числе рекуррентных нейронных сетей (НС), сверточных НС, сетей долгой краткосрочной памяти (LSTM), хорошо зарекомендовавших себя при обработке текстов как последовательностей чередующихся взаимосвязанных слов6 [5, 6].
Список литературы
-
Liu X., Xiong H., Shen N. A hybrid model of VSM and LDA for text clusteing // 2017 2nd IEEE International Conference on Computational Intelligence and Applications (ICCIA). IEEE, 2017, pp. 230-233.
-
Gambhir M., Gupta V. Recent automatic text summarization techniques: a survey // Artificial Intelligence Review. 2017, vol. 47, no. 1, pp. 1-66. DOI: 10.1007/s10462-016-9475-9 EDN: YZVADL
-
Белякова А.Ю., Беляков Ю.Д. Обзор задачи автоматической суммаризации текста // Инженерный вестник Дона. 2020. № 10 (70). С. 142-159. EDN: AYYYFQ
-
Sri S.H.B., Dutta S.R. A Survey on Automatic Text Summarization Techniques // Journal of Physics: Conference Series. IOP Publishing, 2021, vol. 2040, no. 1, pp. 012044. DOI: 10.1088/1742-6596/2040/1/012044 EDN: SVZOED
-
Liang Z. et al. Gated graph neural attention networks for abstractive summarization // Neurocomputing. 2021, vol. 431, pp. 128-136.
-
Masum A.K.M. et al. Abstractive method of text summarization with sequence to sequence RNNs // 2019 10th international conference on computing, communication and networking technologies (ICCCNT). IEEE, 2019, pp. 1-5.
-
Vaswani A. et al. Attantion is All You Need // 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA. 2017, vol. 30, pp. 1-11.
-
Jonsson F. Evaluation of the Transformer Model for Abstractive Text Summarization: Degree Project in Computer Science and Engineering. Master’s in computer science dissertation. Stockholm, Sweden. 2019. URL: https://www.diva-portal.org/smash/get/ diva2:1368180/FULLTEXT01.pdf (дата обращения: 28.10.2022).
-
Gupta A. et al. Automated news summarization using transformers // Sustainable Advanced Computing. Springer, Singapore, 2022. pp. 249-259. DOI: 10.1007/978-981-16-9012-9_21
-
Jatnika D., Bijaksana M.A., Suryani A.A. Word2vec model analysis for semantic similarities in english words // Procedia Computer Science. 2019, vol. 157, pp. 160-167.
-
Yang M. et al. A hierarchical clustering approach to fuzzy semantic representation of rare words in neural machine translation // IEEE Transactions on Fuzzy Systems. 2020, vol. 28, no. 5, pp. 992-1002.
-
Reimers N., Gurevych I. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019, pp. 3982-3992. DOI: 10.18653/v1/D19-1410
-
Arora S., Hu W., Kothari P.K. An analysis of the t-sne algorithm for data visualization // Conference on learning theory. PMLR, 2018, pp. 1455-1462.
-
Dey A., Jenamani M., Thakkar J.J. Senti-N-Gram: An n-gram lexicon for sentiment analysis // Expert Systems with Applications. 2018, vol. 103, pp. 92-105.
-
Reiter E. A structured review of the validity of BLEU // Computational Linguistics. 2018, vol. 44, no. 3, pp. 393-401.
-
Васильев В.И., Вульфин А.М., Кучкарова Н.В. Оценка актуальных угроз безопасности информации с помощью технологии трансформеров // Вопросы кибербезопасности. 2022. № 2(48). С. 27-38. DOI: 10.21681/2311-3456-2022-2-27-38 EDN: CGWNQM
-
Bojanowski P. et al. Enriching Word Vectors with Subword Information // Transactions of the association for computational linguistics. 2017, vol. 5, pp. 135-146.
-
Miller D. Leveraging BERT for Extractive Text Summarization on Lectures // arXiv preprint arXiv:1906.04165. 2019. 10.48550/ arXiv.1906.04165. DOI: 10.48550/arXiv.1906.04165
-
Lee D.D., Seung H.S. Learning the Parts of Objects by Non-Negative Matrix Factorization // Nature. 1999, vol. 401, no. 6755, pp.788- 791. DOI: 10.1038/44565
-
Williams T., Betak J. A Comparison of LSA and LDA for the Analysis of Railroad Accident Text // Procedia computer science. 2018, vol. 130, pp. 98-102.
-
See A., Liu P.J., Manning C.D. Get to the Point: Summarization with Pointer-Generator Networks // Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2017, pp. 1073-1083.
-
Dinh D.T., Fujinami T., Huynh V.N. Estimating the optimal number of clusters in categorical data clustering by silhouette coefficient // Knowledge and Systems Sciences: 20th International Symposium, Da Nang, Vietnam, November 29-December 1, 2019. Springer Singapore, 2019, pp. 1-17.
-
Jelodar H. et al. Latent Dirichlet allocation (LDA) and topic modeling: models, applications, a survey // Multimedia Tools and Applications. 2019, vol. 78, pp. 15169-15211.
-
Angelov D. Top2vec: Distributed representations of topics // arXiv preprint arXiv:2008.09470. 2020. 10.48550/ arXiv.2008.09470. DOI: 10.48550/arXiv.2008.09470
-
Grootendorst M. BERTopic: Neural topic modeling with a class-based TF-IDF procedure // arXiv preprint arXiv:2203.05794. 2022. doi. org/. DOI: 10.48550/arXiv.2203.05794
-
Шереметьева С.О., Бабина О.И. Платформа для концептуального аннотирования многоязычных текстов // Вестник Южно-Уральского государственного университета. Серия: Лингвистика. - 2020. Т. 17. №. 4. С. 53-60. EDN: PBRLMS
-
Schopf Т., Klimek S., Matthes F. PatternRank: Leveraging Pretrained Language Models and Part of Speech for Unsupervised Keyphrase // Proceedings of the 14th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management KDIR. 2022, pp. 243-248. DOI: 10.20944/PREPRINTS201908.0073.V1
-
McInnes L., Healy J., Melville J. UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction // The Journal of Open Source Software. 2018, vol. 3, no. 29, pp. 861. DOI: 10.21105/joss.00861
-
McInnes L., Healy J., Astels S. hdbscan: Hierarchical Density Based Clustering // J. Open Source Softw. 2017, vol. 2, no. 11, pp. 205. DOI: 10.21105/JOSS.00205
-
Carbonell J., Goldstein J. The use of MMR, diversity-based reranking for reordering documents and producing summaries // Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Melbourne, Australia, 1998. pp. 335-336. DOI: 10.1145/290941.291025
-
Краснов Ф.В., Баскакова Е.Н., Смазневич И.С. Оценка прикладного качества тематических моделей для задач кластеризации // Вестник ТГУ. УВТиИ. 2021. № 56. С. 100-111. 10.17223/ 19988605/56/11. DOI: 10.17223/19988605/56/11 EDN: AMMVKR
-
Gusev I. Dataset for Automatic Summarization of Russian News // Conference on Artificial Intelligence and Natural Language. Springer, Cham, 2020. pp. 122-134. DOI: 10.1007/978-3-030-59082-6_9 EDN: FPPRKA
-
Hasan T. et al. XL-Sum: large-scale multilingual abstractive summarization for 44 languages // Annual Meeting of the Association for Computational Linguistics and the International Joint Conference on Natural Language Processing 2021. Association for Computational Linguistics (ACL), 2021, pp. 4693-4703. DOI: 10.18653/v1/2021.findings-acl.413
-
Mihalcea R., Tarau P. TextRank: Bringing Order into Texts // Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. 2004. pp. 404-411.
-
Bar-Yossef Z., Mashiach L.T. Local Approximation of Pagerank and Reverse Pagerank // Proceedings of the 17th ACM conference on Information and knowledge management. 2008, pp. 279-288. DOI: 10.1145/1458082.1458122
-
García-Hernández R. A. et al. Text Summarization by Sentence Extraction Using Unsupervised Learning // Mexican International Conference on Artificial Intelligence. Springer, Berlin, Heidelberg, 2008, pp. 133-143. DOI: 10.1007/978-3-540-88636-5_12
Выпуск
Другие статьи выпуска
Цель исследования: разработка методики аналитической обработки больших массивов данных сервисов и приложений в сетях последнего поколения для обнаружения инцидентов кибербезопасности и построения устойчивых систем защиты на основе состязательного машинного обучения. Метод исследования: анализ современных методов машинного обучения и нейросетевых технологий, синтез и формализация алгоритмов состязательных атак на модели машинного обучения. Результат исследования: в статье предложена методика построения устойчивой системы защиты от состязательных атак в беспроводных самоорганизующихся сетях последнего поколения. Формализованы основные виды состязательных атак, в том числе отравляющие атаки и атаки уклонения, а также описаны методы генерации состязательных примеров на табличные, текстовые и визуальные данные. Проведена генерация нескольких сценариев и исследовательский анализ наборов данных с помощью эмулятора DeepMIMO. Выделены потенциальные прикладные задачи бинарной классификации и прогнозирования затухания сигнала между пользователем и базовой станцией для проведения состязательных атак. Представлена алгоритмизация процессов построения и обучения устойчивой системы от состязательных атак в беспроводных сетях последнего поколения на примере эмулируемых данных.Научная новизна: представлена методика аналитической обработки больших массивов эмулируемых данных сервисов и приложений для обнаружения инцидентов кибербезопасности, которая обеспечивает задел в области исследования вопросов безопасности сложных интеллектуальных сервисов и приложений в инфраструктуре беспроводных сетей последнего поколения.
Цель исследования: разработка методики аналитической обработки больших массивов данных сервисов и приложений в сетях последнего поколения для обнаружения инцидентов кибербезопасности и построения устойчивых систем защиты на основе состязательного машинного обучения. Метод исследования: анализ современных методов машинного обучения и нейросетевых технологий, синтез и формализация алгоритмов состязательных атак на модели машинного обучения. Результат исследования: в статье предложена методика построения устойчивой системы защиты от состязательных атак в беспроводных самоорганизующихся сетях последнего поколения. Формализованы основные виды состязательных атак, в том числе отравляющие атаки и атаки уклонения, а также описаны методы генерации состязательных примеров на табличные, текстовые и визуальные данные. Проведена генерация нескольких сценариев и исследовательский анализ наборов данных с помощью эмулятора DeepMIMO. Выделены потенциальные прикладные задачи бинарной классификации и прогнозирования затухания сигнала между пользователем и базовой станцией для проведения состязательных атак. Представлена алгоритмизация процессов построения и обучения устойчивой системы от состязательных атак в беспроводных сетях последнего поколения на примере эмулируемых данных.Научная новизна: представлена методика аналитической обработки больших массивов эмулируемых данных сервисов и приложений для обнаружения инцидентов кибербезопасности, которая обеспечивает задел в области исследования вопросов безопасности сложных интеллектуальных сервисов и приложений в инфраструктуре беспроводных сетей последнего поколения.
Целью работы является повышение уровня защищенности субъектов критической информационной инфраструктуры (КИИ) за счет использования модели «двойного» режима для реализации гарантированного замкнутого цикла обеспечения безопасности объектов КИИ - полного национального режима и комбинированного режима. Метод исследования: для достижения цели работы применялись методы анализа, сравнения, обобщения, структурной декомпозиции из теории системного анализа, определение критериев для контроля уровня защищенности информации объектов КИИ.Результат исследования: в работе представлен детальный анализ и сопоставление существующих концепций по контролю уровня защищенности информации, применяемых для получения определенного заданного уровня защищенности. Предложена методика контроля уровня защищенности информации объектов КИИ, которая учитывает как существующие, так и перспективные проекты методических документов ФСТЭК России. Полученный результат предоставляет лицам, принимающим решения, численные значения оценок, которые могут быть проверены в процессе независимых аудитов и/или определены расчетными методами на основании объективных и достоверных исходных данных. Формирование объективных оценок позволит существенно повысить уровень защищенности информации, поскольку в процессе независимых аудитов обеспечивается объективность при формировании аудиторской выборки, непредвзятость в процессе доказательства аудиторских решений и прослеживаемости аудиторских выводов.Научная новизна заключается в разработке методики контроля уровня защищенности информации объектов КИИ, основанной на модели аудита информационной безопасности для объектов КИИ, которая в свою очередь, базируется на возможности реализации модели «двойного режима» для полного замкнутого цикла обеспечения безопасности объектов КИИ - полный национальный и комбинированный режимы, позволяющие при необходимости включать дополнительные функциональные блоки.
Цель исследования: разработка новых методов, алгоритмов и моделей для выявления несанкционированных действий злоумышленника/ов в отношении к транслируемым данным, представленным в виде однофотонных чистых состояний световых частиц, что позволит усилить секретность основных ключей безопасности, усовершенствовать процедуры обмена и обработки данных легитимными пользователями телекоммуникационной системы, расширить функциональные возможности существующих технологических решений в их классическом представлении.Метод исследования: системный анализ, метод оценки информационной защищённости. Результат исследования: представлены риски возникновения критичных системных ошибок для процедур согласования результатов измерений базисных состояний и предполагаемые потенциальные возможности злоумышленника по реализации уязвимостей через активную фазу атак с явным критическим исходом. Установлено, что трансляция смешанных однофотонных состояний и навязывание приемной аппаратуре явно бесконтрольно, безотчётно и не содержится ни в одном алгоритме квантовых протоколов, что по мнению авторов является наиболее критичной уязвимостью современных криптографических систем, построенных на базе квантовой механики. Предложен способ решения проблем «бесшумного» сканирования и противодействия скрытым активным атакам на квантовый канал и состояния частиц. Суть решения заключается в неортогональности состояний случайного базисного вектора и дублировании основного канала связи, содержащего информационный тракт по транслированию импульсных сигналов, где известное число синхропосылок в резервной линии позволяет отследить атакующего субъекта. Основополагающим является знание о первичных-естественных ошибках, возникающих на каждом из этапов формирования основного ключа безопасности.Научная новизна заключается в новых методах выработки общего ключа безопасности, предназначенного для конфиденциального обмена данными между легитимными пользователями системы по протоколу BB84 (4+2). Разработанный метод содержит основные параметры и требования, предъявляемые к обеспечению информационной безопасности квантовых телекоммуникационных систем, в частности, к секретности транслируемой ключевой последовательности.
Цель работы: уменьшение размера открытого ключа двухключевых алгоритмов многомерной криптографии, основанных на вычислительной трудности решения систем многих степенных уравнений со многими неизвестными.Метод исследования: использование нелинейных отображений, задаваемых в виде операций возведения в степень в конечных расширенных полях GF(qm), представленных в форме конечных алгебр. Последнее обеспечивает возможность выполнения операции возведения в степень в поле GF(qm) путем вычисления значений степенных многочленов над полем GF(q), задающих трудно обратимое нелинейное отображение векторного пространства над GF(q) с потайным ходом. Благодаря использованию нелинейных отображений данного типа обеспечивается возможность задания открытого ключа в алгоритмах многомерной криптографии в виде нелинейного отображения, реализуемого как вычисление значений набора многочленов третьей и шестой степени. При этом за счет использования маскирующих линейных отображений, не приводящих к увеличению числа слагаемых в многочленах, уменьшается размер открытого ключа по сравнению с известными алгоритмами-аналогами, в которых открытый ключ представлен набором многочленов второй и третьей степени. Предлагаемый подход потенциально расширяет области практического применения постквантовых алгоритмов открытого шифрования и электронной цифровой подписи, относящихся к многомерной криптографии, за счет существенного уменьшения размера открытого ключа.Результаты исследования: сформулированы основные положения нового подхода к разработке алгоритмов многомерной криптографии Предложено задание трудно обратимых нелинейных отображений с потайным ходом в виде операций возведения во вторую и третью степень в конечных расширенных полях GF(qm), представленных в виде конечной алгебры. Дано обоснование задания открытого ключа в виде, включающем суперпозицию двух нелинейных отображений, выполняемых как вычисление набора многочленов второй и третьей степени, заданных над GF(q). Предложены приемы реализаций отображений указанного типа и рассмотрены конкретные варианты задания полей GF(qm) в форме конечных алгебр. Выполнена оценка размера открытого ключа в алгоритмах, разработанных в рамках нового подхода. при заданном уровне стойкости.Научная и практическая значимость результатов статьи состоит в основных положениях нового способа построения алгоритмов многомерной криптографии, основанных на вычислительной трудности решения систем многих степенных уравнений со многими неизвестными и относящихся к постквантовым криптосхемам. Предлагаемый подход расширяет области практического применения постквантовых алгоритмов данного типа за счет существенного уменьшения размера открытого ключа, обеспечивающего предпосылки повышения производительности и уменьшения технических ресурсов для их реализации.
Целью исследования является разработка концепции систематизации базы знаний и решении задач информационной кибербезопасности систем при принятии решений поискового характера на основе построения структурированной семантической модели контента терминологических словарей научно-теоретического характера, описывающих сложные активные системы.Методы исследования: статистический анализ, методы проверки гипотез, методы машинного обучения, модели надежности, модели оценочного типа, используемые при проверке показателей надежности, параметры поведенческих систем.Полученный результат: обсуждаются экспериментальные результаты применения оценочных моделей надежности и критериев согласия к разным размерам баз знаний и приводится оценка результатов измерения показателя надежности на этих компонентах с учетом интенсивности отказов. Разработаны математические модели для поддержания логической и физической целостности баз знаний киберсистем с использованием функции желательности и критериев согласия. Дано описание обобщенных алгоритмов функционирования компонентов оценивания и прогнозирования, а также их применимость для решения задач в области информационной безопасности. Предложена общая модель пространственной сети, в рамках которой субъект осуществляет управление рисками путем эффективного, в том или ином смысле, распределения имеющегося в его распоряжении однородного ресурса между ее узлами. Для реализации принятия решений рекомендованы более оптимистичные критерии, чем минимаксный критерий.Научная новизна: выделены и описаны основные требования по обеспечению надежного поведения и работоспособности информационной системы с использованием ориентированных баз данных. Постулируется, что наилучшая информационно-системная надежность достигается путем применения автоматизированных систем мониторинга с использованием баз знаний для постоянного наблюдения и периодического анализа объектов киберсистемы с отслеживанием динамики происходящих изменений в пространстве событий.
Цель исследования: поиск методики для построения и анализа графа взаимодействующих объектов в сети Telegram-каналов, включая подсчет психолингвистических характеристик текстов. Такая методика позволяет проводить классификацию групп каналов и оценивать их информационное воздействие на пользователей.Метод исследования: для построения взвешенного графа в процессе импорта данных применяется U , M , R -модель. Далее на полученном графе применяется метод Галактик для выделения неявных пересекающихся сообществ его вершин. На импортированных объединенных текстах сообществ подсчитываются психолингвистические маркеры для оценки тематической направленности каналов.Полученный результат: в статье представлена методика работы с сетью Telegram-каналов с целью выявления групп каналов, осуществляющих информационное воздействие на пользователей. Представлен полный цикл действий, начиная от импорта данных, использования модели построения графа взаимодействующих объектов для таких сетей, заканчивая подсчетом психолингвистических характеристик текстов для групп каналов. При этом освещен вопрос наиболее эффективного для исходной задачи выделения неявных сообществ в сетях Telegram-каналов. Представлен пример сети и построенного взвешенного графа с подсчитанными на текстах маркерами, наиболее показательными для выявления тематической направленности каналов. Представленный подход за счет выделения показательных различий в соответствующих маркерах позволяет выявлять каналы, наиболее активно осуществляющие информационное воздействие на пользователей. Научная новизна: Сочетание алгоритмического подхода и использования психолингвистических исследований представляют научную новизну данного метода. Полученные результаты позволяют с помощью методов компьютерной лингвистики в сочетании с методами выделения сообществ проводить оценку разных участников таких сетей.
Цель исследования: разработка методов оценки рисков информационной безопасности в условиях неопределенности, описание механизма распространения доверия и правдоподобия по графу атак.
Методы исследования: применение техники мягких вычислений, включая комбинирование свидетельств Демпстера-Шефера, интегрирование по неаддитивным мерам.Полученный результат: разработаны методы оценки рисков и методы оценки ожидаемых потерь в случае, когда факторы риска характеризуются высокой неопределенностью и не позволяют с достаточным обоснованием применить объективные, в частности, вероятностные методы оценки. Исходной информацией служат верхняя и нижняя оценки вероятности реализации риска. С использованием методов теории свидетельств Демпстера-Шефера на графе атак строятся меры доверия и правдоподобия. Описан подход, позволяющий построить меры доверия и правдоподобия в пространстве сценариев атак на основе вероятностных оценок типовых событий информационной безопасности. Показано, как ожидаемый ущерб может быть оценен математическим ожиданием ущерба относительно этих мер с использованием интеграла Шоке. Научная новизна: разработан метод распространения доверия по графу атак. Основой метода служит оригинальный подход к оценке логических комбинаций свидетельств, заданных на бинарных фреймах и представленных дизъюнктивными нормальными формами.
Издательство
- Издательство
- АО "НПО "Эшелон"
- Регион
- Россия, Москва
- Почтовый адрес
- 107023, город Москва, Электрозаводская ул, д. 24 стр. 1
- Юр. адрес
- 107023, город Москва, Электрозаводская ул, д. 24 стр. 1
- ФИО
- Цирлов Валентин Леонидович (Генеральный директор)