МЕТОДЫ ОПРЕДЕЛЕНИЯ НЕЯВНО УПОМИНАЕМЫХ АСПЕКТОВ В ПУБЛИЦИСТИЧЕСКИХ ПРЕДЛОЖЕНИЯХ НА РУССКОМ ЯЗЫКЕ (2024)
В работе сравнивается качество работы различных методов определения неявно упоминаемых аспектов социально-экономической жизни в публицистических предложениях на русском языке. Задача определения неявно упоминаемых аспектов является вспомогательной для задач аспектно-ориентированного анализа тональности. Эксперименты проводились на корпусе предложений, извлечённых из политической агитации. Лучшие результаты, с F1-мерой, достигающей 0.84, были получены с использованием эмбеддингов Navec и классификаторов, основанных на методе опорных векторов. Достаточно высокие результаты, с F1-мерой до 0.77, были получены при использовании модели «мешок слов» и наивного байесовского классификатора. Остальные методы показали более низкие результаты. Также в ходе экспериментов было выявлено, что качество определения различных аспектов может достаточно сильно отличаться. Лучше всего определяются аспекты, с которыми в речи связаны характерные слова-маркеры, например, «здравоохранение» и «проведение выборов» Хуже всего определяются упоминания достаточно общих аспектов, таких как «качество управления».
Идентификаторы и классификаторы
- eLIBRARY ID
- 69174192
Анализ тональности — направление компьютерной лингвистики, изучающее автоматическое определение выраженного в тексте авторского отношения [1]. В зависимости от поставленной задачи анализ может производиться на разных уровнях, например, на уровне текста, абзаца или отдельного предложения. Кроме того, может выполняться как анализ общей тональности (определение отношения к теме текста в целом), так и аспектно-ориентированный анализ (определение отношения к конкретным аспектам темы текста) [2].
Список литературы
-
B. Liu, Sentiment Analysis and Opinion Mining. Springer, 2022.
-
W. Zhang, X. Li, Y. Deng, L. Bing, and W. Lam, “A survey on aspect-based sentiment analysis: Tasks, methods, and challenges”, IEEE Transactions on Knowledge and Data Engineering, vol. 35, no. 11, pp. 11019-11038, 2022,. DOI: 10.1109/TKDE.2022.3230975 EDN: RIDYXN
-
M. M. Tru\cscǎ and F. Frasincar, “Survey on aspect detection for aspect-based sentiment analysis”, Artificial Intelligence Review, vol. 56, no. 5, pp. 3797-3846, 2023. EDN: MHEQKE
-
A. Naumov, R. Rybka, A. Sboev, A. Selivanov, and A. Gryaznov, “Neural-network method for determining text author’s sentiment to an aspect specified by the named entity”, in CEUR Workshop Proceedings, 2020, vol. 2648, pp. 134-143.
-
E. V. Sergeeva, “Features of speech exposure in the preelection media discourse”, in Aktual’nye problemy gumanitarnogo znaniya v tekhnicheskom vuze, 2021, pp. 237-239.
-
A. Nazir, Y. Rao, L. Wu, and L. Sun, “Issues and challenges of aspect-based sentiment analysis: A comprehensive survey”, IEEE Transactions on Affective Computing, vol. 13, no. 2, pp. 845-863, 2020,. DOI: 10.1109/TAFFC.2020.2970399
-
P. K. Soni and R. Rambola, “A Survey on Implicit Aspect Detection for Sentiment Analysis: Terminology, Issues, and Scope”, IEEE Access, vol. 10, pp. 63932-63957, 2022,. DOI: 10.1109/ACCESS.2022.3183205 EDN: TDVMHL
-
B. Mohammed and others, “Hybrid approach to extract adjectives for implicit aspect identification in opinion mining”, in 11th International Conference on Intelligent Systems: Theories and Applications (SITA), 2016, pp. 1-5,. DOI: 10.1109/SITA.2016.7772284
-
A. O. Kornej and E. N. Kryuchkova, “Semantiko-statisticheskij algoritm opredeleniya kategorij aspektov v zadachah sentiment-analiza”, Izvestiya Yuzhnogo federal’nogo universiteta. Tekhnicheskie nauki, no. 6 (216), pp. 66-74, 2020,. DOI: 10.18522/2311-3103-2020-6-66-74
-
E. I. Gribkov and Y. P. Ekhlakov, "Nejrosetevaya model' na osnove sistemy perekhodov dlya izvlecheniya sostavnyh ob'ektov i ih atributov iz tekstov na estestvennom yazyke", Doklady Tomskogo gosudarstvennogo universiteta sistem upravleniya i radioelektroniki, vol. 23, no. 1, pp. 47-52, 2020,. DOI: 10.21293/1818-0442-2020-23-1-47-52 EDN: ZJPDSF
-
L. Hickman, S. Thapa, L. Tay, M. Cao, and P. Srinivasan, "Text preprocessing for text mining in organizational research: Review and recommendations", Organizational Research Methods, vol. 25, no. 1, pp. 114-146, 2022,. DOI: 10.1177/1094428120971683
-
S. Bird, E. Klein, and E. Loper, Natural language processing with Python: analyzing text with the natural language toolkit. O'Reilly Media, Inc., 2009.
-
U. Naseem, I. Razzak, and P. W. Eklund, "A survey of pre-processing techniques to improve short-text quality: a case study on hate speech detection on Twitter", Multimedia Tools and Applications, vol. 80, pp. 35239-35266, 2021,. DOI: 10.1007/s11042-020-10082-6
-
J. Coates and D. Bollegala, "Frustratingly Easy Meta-Embedding - Computing Meta-Embeddings by Averaging Source Word Embeddings", in Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers), 2018, pp. 194-198,. DOI: 10.18653/v1/N18-2031
-
T. Mikolov, K. Chen, G. Corrado, and J. Dean, "Efficient estimation of word representations in vector space". 2013.
-
I. Yamada et al., "Wikipedia2Vec: An Efficient Toolkit for Learning and Visualizing the Embeddings of Words and Entities from Wikipedia", in Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, 2020, pp. 23-30,. DOI: 10.18653/v1/2020.emnlp-demos.4
-
A. Joulin, E. Grave, P. Bojanowski, and T. Mikolov, "Bag of Tricks for Efficient Text Classification", in Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers, 2017, pp. 427-431,. DOI: 10.48550/arXiv.1607.01759
-
A. Kukushkin, "Navec - kompaktnye embeddingi dlya russkogo yazyka". 2020, Accessed: Aug. 11, 2024. [Online]. Available: https://natasha.github.io/navec/.
-
J. Pennington, R. Socher, and C. D. Manning, "GloVe: Global Vectors for Word Representation", in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2014, pp. 1532-1543,. DOI: 10.3115/v1/D14-1162
-
Q. Le and T. Mikolov, "Distributed representations of sentences and documents", in International conference on machine learning, 2014, pp. 1188-1196.
-
F. Pedregosa et al., "Scikit-learn: Machine Learning in Python", Journal of Machine Learning Research, vol. 12, pp. 2825-2830, 2011.
Выпуск
Другие статьи выпуска
В статье рассматриваются неориентированные кратные графы произвольной натуральной кратности k>1. Кратный граф содержит ребра трех типов: обычные, кратные и мультиребра. Ребра последних двух типов представляют собой объединение k связанных ребер, которые соединяют 2 или (k+1) вершину соответственно. Связанные ребра могут использоваться только согласованно. Если вершина инцидентна кратному ребру, то она может быть инцидентна другим кратным ребрам, а также она может быть общим концом k связанных ребер мультиребра. Если вершина является общим концом мультиребра, то она не может быть общим концом никакого другого мультиребра. Рассматривается задача об эйлеровом маршруте (цикле или цепи) в кратном графе, которая обобщает классическую задачу для обычного графа. Задача о кратном эйлеровом маршруте является NP-трудной. Обоснована полиномиальность двух подклассов задачи о кратном эйлеровом маршруте, разработаны полиномиальные алгоритмы. В первом подклассе задано ограничение на множества достижимости по обычным ребрам, которые представляют собой подмножества вершин, соединенных только обычными ребрами. Во втором подклассе задано ограничение на степень квазивершин в графе с квазивершинами. Структура этого обычного графа отражает структуру кратного графа, а каждая квазивершина определяется k индексами множеств достижимости по обычным ребрам, которые инцидентны какому-то мультиребру.
Приводятся оценки для минимальной нормы проектора при линейной интерполяции на компакте в Rn. Пусть Π1(Rn) - пространство многочленов от n переменных степени не выше 1, Ω - компакт в Rn, K=conv(E). Будем предполагать, что vol(K)>0. Пусть точки x(j)∈Ω, 1≤j≤n+1, являются вершинами n-мерного невырожденного симплекса. Интерполяционный проектор P:C(Ω)→Π1(Rn) с узлами x(j) определяется равенствами Pf(x(j))=f(x(j)). Под ∥P∥Ω будем понимать норму P как оператора из C(Ω) в C(Ω. Через θn(Ω) обозначим минимальную норму ∥P∥Ω из всех операторов P с узлами, принадлежащими Ω. Через simp(Ω) обозначим максимальный объём симплекса с вершинами в Ω. Устанавливаются неравенства χ−1n(vol(K)simp(Ω))≤θn(Ω)≤n+1. Здесь χn - стандартизованный многочлен Лежандра степени n. Нижняя оценка доказывается с применением полученной характеризации многочленов Лежандра через объёмы выпуклых многогранников. Именно, мы показываем, что при γ≥1 объём многогранника \left{x=(x_1,...,x_n)\in{\mathbb R}^n : \sum |x_j| +\left|1- \sum x_j\right|\le\gamma\right} равен χn(γ)/n!. В случае, когда Ω - n-мерный куб или n-мерный шар, нижняя оценка даёт возможность получить неравенства вида θn(Ω)⩾cn√. Формулируются некоторые открытые вопросы.Приводятся оценки для минимальной нормы проектора при линейной интерполяции на компакте в Rn. Пусть Π1(Rn) - пространство многочленов от n переменных степени не выше 1, Ω - компакт в Rn, K=conv(E). Будем предполагать, что vol(K)>0. Пусть точки x(j)∈Ω, 1≤j≤n+1, являются вершинами n-мерного невырожденного симплекса. Интерполяционный проектор P:C(Ω)→Π1(Rn) с узлами x(j) определяется равенствами Pf(x(j))=f(x(j)). Под ∥P∥Ω будем понимать норму P как оператора из C(Ω) в C(Ω. Через θn(Ω) обозначим минимальную норму ∥P∥Ω из всех операторов P с узлами, принадлежащими Ω. Через simp(Ω) обозначим максимальный объём симплекса с вершинами в Ω. Устанавливаются неравенства χ−1n(vol(K)simp(Ω))≤θn(Ω)≤n+1. Здесь χn - стандартизованный многочлен Лежандра степени n. Нижняя оценка доказывается с применением полученной характеризации многочленов Лежандра через объёмы выпуклых многогранников. Именно, мы показываем, что при γ≥1 объём многогранника \left{x=(x_1,...,x_n)\in{\mathbb R}^n : \sum |x_j| +\left|1- \sum x_j\right|\le\gamma\right} равен χn(γ)/n!. В случае, когда Ω - n-мерный куб или n-мерный шар, нижняя оценка даёт возможность получить неравенства вида θn(Ω)⩾cn√. Формулируются некоторые открытые вопросы.
В статье представлен метод семантического анализа данных посредством комплекснозначного матричного разложения. Метод основан на квантовой модели контекстно-чувствительных решений, согласно которой наблюдаемые вероятности порождаются кубитными состояниями, представляющими субъективный смысл контекстов для базисного решения. В простейшем трёхконтекстом случае один из кубитов раскладывается в суперпозицию оставшихся двух, математически представляющую смысловые отношения между контекстами. Для использования в задаче анализа данных эта модель представлена в матричной форме так, что строки и столбцы соответствуют контекстам и постановкам эксперимента. При этом наблюдаемые действительные данные порождаются матрицей комплекснозначных амплитуд, раскладываемой на произведение действительной матрицы базисных векторов и комплекснозначной матрицы коэффициентов суперпозиции. Это разложение выявляет устойчивые процессно-смысловые соотношения контекстов, не обнаруживаемые другими методами. В результате данные воспроизводятся более точно и с меньшим числом параметров, чем при использовании сингулярного и неотрицательного матричных разложений той же размерности. Модель успешно испытана в описательном и предсказательном режимах. Результат открывает возможности для разработки природоподобных вычислительных архитектур на новых логических принципах.
Статья продолжает цикл публикаций по разработке и верификации управляющих программ на основе LTL-спецификаций специального вида. Ранее для описания строго детерминированного поведения программ была предложена декларативная LTL-спецификация, проработаны способы её верификации и трансляции: для верификации используется инструмент проверки модели nuXmv, трансляция осуществляется в императивный язык программирования ST для программируемых логических контроллеров. При верификации декларативной LTL-спецификации поведения программ может возникнуть необходимость в моделировании поведения её окружения. В общем случае требуется обеспечить возможность построения замкнутых систем «программа-окружение». В настоящей работе для описания поведения окружения программ логического управления предложена LTL-спецификация ограниченно недетерминированного поведения булевой переменной. Данная спецификация позволяет задавать поведение булевых сигналов обратной связи, а также условия справедливости для исключения нереалистичных сценариев поведения. В статье предлагается подход к разработке и верификации программ логического управления, в рамках которого модель поведения окружения программы описывается в виде ограничений на поведение её входных сигналов, что позволяет избежать отдельного детального представления процессов функционирования окружения. В результате полученная модель поведения замкнутой системы «программа-окружение» даёт ряд преимуществ: упрощение процесса моделирования, сокращение пространства состояний проверяемой модели, снижение времени верификации. При невозможности сведения поведения окружения к поведению имеющихся входных сигналов данный подход предполагает применение «мнимых» датчиков - дополнительных булевых переменных, использующихся как вспомогательное средство для описания поведения входных сигналов. Цель введения мнимых датчиков состоит в компенсации недостающих датчиков для отслеживания специфического поведения отдельных элементов окружения, которое необходимо учесть при задании реалистичного поведения входов программы логического управления. Предложенный подход к разработке и верификации программ с учётом поведения окружения (объекта управления) демонстрируется на примере промышленной установки для литья пластмасс.
Издательство
- Издательство
- ЯрГУ им. П.Г. Демидова
- Регион
- Россия, Ярославль
- Почтовый адрес
- 150003, Ярославль, Советская, 14,
- Юр. адрес
- 150003, Ярославль, Советская, 14,
- ФИО
- Иванчин Артем Владимирович (Ректор)
- E-mail адрес
- rectorat@uniyar.ac.ru
- Контактный телефон
- +7 (485) 2797702