В статье изложены принципы разработанного алгоритма выявления трендов на основе анализа больших текстовых данных и представления результата в удобных для лиц принимающих решения (ЛПР) форматах, реализованных в системе интеллектуального анализа больших данных iFORA. Дается обзор существующих алгоритмов текстовой аналитики. Излагается предлагаемая и апробированная на десятках реализованных проектов математическая основа для выявления терминов, означающих тренды. Описываются подходы к кластеризации терминов на основе их векторов в пространстве Word2vec. Приводятся примеры двух ключевых визуализаций (семантические, тренд-карты), дающих представление о круге тем и трендах, характеризующих конкретную исследуемую область, как способ адаптации результатов анализа к задачам ЛПР. Обсуждаются ограничения и преимущества использования предложенного подхода для поддержки принятия решений, предлагаются направления для будущих исследований.
Идентификаторы и классификаторы
Форсайт, в основе которого лежит выявление и прогнозирование трендов и формирование будущего в соответствии с наиболее предпочтительными сценариями, стал одним из ключевых механизмов принятия решений, применяющимся в различных отраслях и организациях. С расширением области применения возрастает необходимость разрабатывать новые методы анализа информации, достаточно универсальные и адаптированные под конкретные проекты. Одновременно развитие компьютерных технологий привело к стремительному росту объема данных, которые можно использовать для аналитики. Современные статистические методы и методы машинного обучения позволяют обрабатывать огромные массивы информации, ранее не доступные для подготовки аналитики, появился доступ к большому числу источников информации.
Список литературы
1. Pappa G.L., Freitas A.A. Automating the Design of Data Mining Algorithms. Springer-Verlag Berlin Heidelberg. 2010. 187 p.
2. Yuan Y., Sun P., Fan H. Automatic selection and evaluation on data mining algorithms //2015 6th IEEE International Conference on Software Engineering and Service Science (ICSESS). IEEE. 2015. P. 29-32.
3. Porter A.L., Zhang Y. Tech mining of science & technology information resources for future-oriented technology analyses //Futures research methodology version. 2015. Т. 3.
4. Zhu D., Porter A. L. Automated extraction and visualization of information for technological intelligence and forecasting //Technological forecasting and social change. 2002. Т. 69. №. 5. P. 495-506.
5. Osipov, G., I. Smirnov, I. Tikhomirov, I. Sochenkov, A. Shelmanov, and A. Shvets 2014. Information retrieval for R&D support. In Professional search in the modern world. Springer, Cham. P.45-69.
6. Newman N. C. et al.Comparing methods to extract technical content for technological intelligence //Journal of Engineering and Technology Management. 2014. Т. 32. P. 97-109.
7. Tseng Y. H., Lin C. J., Lin Y. I. Text mining techniques for patent analysis //Information processing & management. 2007. Т. 43. №. 5. P. 1216-1247.
8. Cooke P., Uranga M. G., Etxebarria G. Regional innovation systems: Institutional and organisational dimensions //Research policy. 1997. Т. 26. №. 4-5. P. 475-491.
9. Kwakkel J. H. et al. Visualizing geo-spatial data in science, technology and innovation //Technological Forecasting and Social Change. 2014. Т. 81. P. 67-81.
10. Feldman R. et al. Text mining at the term level //European Symposium on Principles of Data Mining and Knowledge Discovery. Springer, Berlin, Heidelberg. 1998. P. 65-73.
11. Averbuch M. et al. Context-sensitive medical information retrieval //MEDINFO 2004. IOS Press. 2004. P. 282-286.
12. Osipov, G., I. Smirnov, I. Tikhomirov, I. Sochenkov, and A. Shelmanov. 2016. Exactus expert-search and analytical engine for research and development support. In Novel Applications of Intelligent Systems. Springer, Cham. P.269-285.
13. Church K. W. A stochastic parts program and noun phrase parser for unrestricted text //International Conference on Acoustics, Speech, and Signal Processing. IEEE. 1988. P. 695-698.
14. Wang B. et al. Identifying technological topics and institution-topic distribution probability for patent competitive intelligence analysis: a case study in LTE technology //Scientometrics. 2014. Т. 101. №. 1. P. 685-704.
15. Frantzi K., Ananiadou S., Mima H. Automatic recognition of multi-word terms: the C-value/NC-value method //International journal on digital libraries. 2000. Т. 3. №. 2. P. 115-130. EDN: AVQPHF
16. Javed Z., Afzal H. Biomedical text mining for concept identification from traditional medicine literature //2014 International Conference on Open Source Systems & Technologies. IEEE, 2014. P. 206-211.
17. Rose S. et al. Automatic keyword extraction from individual documents //Text mining: applications and theory. 2010. Т. 1. P. 1-20.
18. Salton G., Yu C. T. On the construction of effective vocabularies for information retrieval //Acm Sigplan Notices. 1973. Т. 10. №. 1. P. 48-60.
19. Liu C. et al. Research of text classification based on improved TF-IDF algorithm //2018 IEEE International Conference of Intelligent Robotic and Control Engineering (IRCE). IEEE. 2018. P. 218-222.
20. Kutuzov A. et al. Clustering of Russian adjective-noun constructions using word embeddings //Proceedings of the 6th Workshop on Balto-Slavic Natural Language Processing. Association for Computational Linguistics. 2017. EDN: YGKIXX
21. Kumar P., Babber S. Information theoretic method of feature selection for text categorization //Int J Math Arch (IJMA). 2013. Т. 3. №. 12. P. 2229-5046.
22. Turney P. D. Mining the web for synonyms: PMI-IR versus LSA on TOEFL //European conference on machine learning. Springer, Berlin, Heidelberg, 2001. P. 491-502.
23. Ahmad K., Davies A. E. Weirdness in special-language text: Welsh radioactive chemicals texts as an exemplar //Internationales Institut får Terminologieforschung Journal. 1994. Т. 5. №. 2. P. 22-52.
24. Steinhaus H. Sur la division des corps materiels en parties. Bull. Acad. Polon. Sci., C1. 1956. III vol IV. P. 801-804.
25. Han J., Kamber M., Pei J. Data mining concepts and techniques, Morgan Kaufmann Publishers //San Francisco, CA. 2001. P. 335-391.
26. Bae S., Yi Y. Acceleration of word2vec using GPUs //International Conference on Neural Information Processing. Springer, Cham. 2016. P. 269-279.
27. Waskom M. L. Seaborn: statistical data visualization //Journal of Open Source Software. 2021. Т. 6. №. 60. P. 3021.
Выпуск
Другие статьи выпуска
Рассмотрены основные проблемы, связанные с оперативным выявлением очагов лесных пожаров и сопровождающих их задымлений на основе применения автономных беспилотных летательных аппаратов. Разработан метод поиска лесных пожаров по локально-оптимальному маршруту полета в условиях неопределенности. Сформулирован ряд оригинальных положений математического аппарата нечетких множеств, позволяющих сформировать для автономного беспилотного летательного аппарата эффективную информационно-аналитическую модель ситуационно-командного управления движением по строящемуся в реальном времени маршруту полета. Создана модель представления и обработки знаний, обеспечивающая на ее основе возможность автоматического синтеза логико-трансформационных правил вывода ситуационно-командного управления движением летательного аппарата. Показано, что предложенный принцип построения информационно-аналитической модели позволяет снизить сложность решения задачи выбора эффективных команд за счет существенного сокращения количества сравнений текущей проблемной ситуации на объекте с эталонными проблемными ситуациями в процессе вывода решений.
Современные роботы позволяют решать широкий спектр задач при совместной деятельности с человеком. При этом робот может получать команды от человека через различные системы управления, а также с помощью естественного языка. Выражения на естественном языке обладают значительной многозначностью (омонимией). В статье показано, какими методами обрабатываются высказывания и решается возникающая омонимия при речевом управлении роботом в естественной или виртуальной среде.
. В статье представлены результаты разработки и исследования методов для создания 3D-моделей растений, выращиваемых в условиях in vitro. В комплексе они решают проблемы, возникающие в процессе исследований растений в пробирке, связанные со сложностью структуры растения, возникновением искажений на границах пробирки, ее возможным запотеванием, а также влиянием человеческого фактора. Создан банк из 792 единиц 3D-моделей для растений шести видов, позволяющий проводить имитационные эксперименты для выявления причинно-следственных связей, осуществления прогнозирования и получения новых знаний. Проведена проверка разработанных методов на адекватность. Представлены примеры их использования для конкретного растения.
Многие современные средcтва Машинного обучения (МО) работают недостаточно эффективно, ввиду выраженной нелинейности изменения трафика и нестационарности. В этих условиях выделяется задача прогнозирования признаков приращений (направления изменения) процесса временных рядов. В статье предлагается использовать некоторые результаты теории случайных процессов для быстрой оценки предсказуемости знаков приращений с приемлемой точностью. Предлагаемая процедура представляет собой простое эвристическое правило предсказания приращения двух соседних значений случайной последовательности. Показывается связь данного подхода для временных рядов с известными подходами предсказания двоичных последовательностей. Рассматривается возможность использования опыта прогнозирования абсолютных значений трафика при прогнозировании знака изменения.
В статье представлена облачная платформа IACPaaS, предназначенная для создания интеллектуальных сервисов на основе онтологий, а также концептуальные идеи, лежащие в основе ее разработки. Описаны основные особенности и опыт использования поддерживаемых технологий создания интеллектуальных сервисов различных типов. На платформе реализована развитая инструментальная поддержка разработки всех компонентов интеллектуальных сервисов. Изначально она позиционировалась как среда для создания облачных систем с базами знаний, сейчас же рассматривается как инструментарий разработки программ на основе онтологий, имеющих семантическое представление.
В статье рассмотрены средства концептуального проектирования сложных технических систем. Построена квазиаксиоматическая теория, формализующая процедуры порождения смысла для естественно-языкового описания процесса создания нового технического решения. Введены семантические категории, структуры универсальных множеств, операции сравнения элементов универсума. Описаны типы соединения элементарных подсистем. Предложена формализация процедуры многоуровневого синтеза технической системы с использованием порождающей грамматики над нечеткими структурами. Приведен пример проектирования технического устройства.
Предложен метод сравнения моноинтервальных альтернатив, позволяющий попарно сопоставлять по эффективности альтернативы с произвольными распределениями рисков на интервальных оценках показателей их качества. Применение метода продемонстрировано на примерах. Даны рекомендации по практическому использованию метода.
Описываются методы решения антагонистической игры в условиях нарушения принципов «общих знаний», когда игроки демонстрируют неполные методы возможных решений и соответствующую значимость противоположной стороны. В качестве формальной игровой модели предлагается использовать нечетко-множественные представления оценок возможностей использования игроками их стратегий и соответствующих последствий. Решение задачи основано на преобразовании нечетких оценок возможных результатов решений для каждой ситуации в форму эквивалентного нечеткого количества с треугольной регулируемой аппаратурой. Разработанный метод не накладывает ограничений на вид исходных нечетных данных. Помимо выбора наилучшего решения, повышается его результат и возможности реализации.
Рассматривается задача многокритериального выбора в случае, когда предпочтения лица, принимающего решение (ЛПР), задаются нечетким бинарным отношением второго порядка. Описывается математическое обоснование алгоритма сужения множества Парето на основе нечетких квантов информации о предпочтениях ЛПР. Обсуждаются вопросы оптимизации алгоритма в важных для приложений случаях.
Рассматривается задача многокритериального выбора с числовой векторной функцией на подмножестве векторного пространства в предположении, что ЛПР в процессе выбора использует нечеткое отношение предпочтения. Считается известной информация об этом отношении в виде конечного набора нечетких квантов. Формулируется алгоритм, который за счет этой информации позволяет сузить множество Парето в задаче многокритериального выбора и, тем самым, облегчить окончательный выбор. Работа алгоритма иллюстрируется числовым примером.
Издательство
- Издательство
- ИУ РАН
- Регион
- Россия, Москва
- Почтовый адрес
- 119333, Москва, Вавилова, д.44, кор.2
- Юр. адрес
- 119333, Москва, Вавилова, д.44, кор.2
- ФИО
- Соколов Игорь Анатольевич (Директор)
- E-mail адрес
- frccsc@frccsc.ru
- Контактный телефон
- +7 (499) 1356274