РАЗМЕТКА КОРПУСОВ ТЕКСТОВ ПО ТОНАЛЬНОСТИ И НАЛИЧИЮ ИРОНИИ В РАМКАХ ПРОЕКТА ГРАЖДАНСКОЙ НАУКИ (2023)
Статья посвящена построению корпуса предложений, размеченных по общей тональности на 4 класса (положительный, отрицательный, нейтральный, смешанный), корпуса фразеологизмов, размеченных по тональности на 3 класса (положительный, отрицательный, нейтральный), и корпуса предложений, размеченных по наличию или отсутствию иронии. Разметку проводили волонтёры в рамках проекта «Готовим тексты алгоритмам» на портале«Люди науки».На основе имеющихся знаний о предметной области для каждой из задач были составлены инструкции для разметчиков. Также была выработана методика статистической обработки результатов разметки, основанная на анализе распределений и показателей согласия оценок, выставленных разными разметчиками. Для разметки предложений по наличию иронии и фразеологизмов по тональности показатели согласия оказались достаточно высокими (доля полного совпадения 0.60-0.99), при разметке предложений по общей тональности согласие оказалось слабым (доля полного совпадения 0.40), по-видимому, из-за более высокой сложности задачи. Также было показано, что результаты работы автоматических алгоритмов анализа тональности предложений улучшаются на 12-13 % при использовании корпуса, относительно предложений которого сошлись мнения всех разметчиков (3-5 человек), по сравнению с корпусом с разметкой только одним волонтёром.
Идентификаторы и классификаторы
- eLIBRARY ID
- 50471294
В современной научной литературе крайне мало исследований, посвящённых разметке текстовых корпусов и агрегации результатов этой разметки. В большинстве работ, где идёт речь о построении размеченных текстовых корпусов, авторы очень поверхностно описывают или не описывают вообще, как именно они собирались. Можно выделить два основных аспекта, связанных с данной задачей: разработка инструкций по разметке и собственно методика разметки и агрегации её результатов.
Нужно отметить, что существует несколько общих методик агрегации экспертных оценок, например, метод Делфи, однако из-за достаточно высокой трудоёмкости они слабо применимы для агрегации оценок большого числа предложений, выставленных большим числом разметчиков. Одной из наиболее значимых работ в области построения инструкций для разметки текстов по тональности является статья [3]. В ней отмечается потенциальная сложность задачи, вызванная нечётким определением самого понятия тональности, приводится классификация предложений, сложных для разметки, и предлагаются два подхода к выработке инструкций для разметчиков, предположительно позволяющие повысить точность результатов в сложных случаях. В первом случае используется опросник, содержащий утверждения, характеризующие те или иные классы тональности предложений, а также примеры типов предложений, относящихся к заданному классу (восхищение, поддержка, симпатия и т. п.).
Список литературы
-
V. Masoumi, M. Salehi, H. Veisi, G. Haddadian, V. Ranjbar, and M. Sahebdel, Telecrowd: A crowdsourcing approach to create informal to formal text corpora, 2020. arXiv: 2004.11771 [cs.SI].
-
E. Mitiagina, M. Borodataya, E. Volchenkova, N. Ershova, M. Luchinina, and E. Kotelnikov, “Russian Text Corpus of Intimate Partner Violence: Annotation Through Crowdsourcing”, in 7th International Conference on Electronic Governance and Open Society: Challenges in Eurasia. EGOSE 2020, Springer, 2020, pp. 306-321. EDN: ABDNAE
-
S. Mohammad, “A practical guide to sentiment annotation: Challenges and solutions”, in Proceedings of the 7th workshop on computational approaches to subjectivity, sentiment and social media analysis, Association for Computational Linguistics, 2016, pp. 174-179.
-
S. M. Mohammad, P. Sobhani, and S. Kiritchenko, “Stance and Sentiment in Tweets”, Special Section of the ACM Transactions on Internet Technology on Argumentation in Social Media, vol. 17, no. 3, pp. 1-23, 2017.
-
B. R. Chakravarthi, V. Muralidaran, R. Priyadharshini, and J. P. McCrae, “Corpus Creation for Sentiment Analysis in Code-Mixed Tamil-English Text”, in Proceedings of the 1st Joint SLTU and CCURL Workshop (SLTU-CCURL 2020), 2020, pp. 202-210.
-
K. Krippendorff, Content analysis: an introduction to its methodology. Thousand Oaks, CA: SAGE Publications, Inc., 2013.
-
Y. Zhao, B. Qin, and T. Liu, “Creating a fine-grained corpus for chinese sentiment analysis”, IEEE Intelligent Systems, vol. 30, no. 1, pp. 36-43, 2014.
-
J. Cohen, “A coefficient of agreement for nominal scales”, Educational and psychological measurement, vol. 20, no. 1, pp. 37-46, 1960. EDN: JRVDQN
-
J. Bu, L. Ren, S. Zheng, Y. Yang, J. Wang, F. Zhang, and W. Wu, “ASAP: A Chinese Review Dataset Towards Aspect Category Sentiment Analysis and Rating Prediction”, in Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Association for Computational Linguistics, 2021, pp. 2069-2079.
-
M. Navas-Loro, V. Rodr'ıguez-Doncel, I. Santana-Perez, and A. Sa'nchez, "Spanish Corpus for Sentiment Analysis Towards Brands", in Speech and Computer. SPECOM 2017, A. Karpov, R. Potapova, and I. Mporas, Eds., Springer International Publishing, 2017, pp. 680-689.
-
J. L. Fleiss, "Measuring nominal scale agreement among many raters", Psychological bulletin, vol. 76, no. 5, p. 378, 1971.
-
A. Rogers, A. Romanov, A.Rumshisky, S. Volkova, M. Gronas, and A. Gribov, "RuSentiment: An enriched sentiment analysis dataset for social media in Russian", in Proceedings of the 27th international conference on computational linguistics, 2018, pp. 755-763.
-
T. V. Zherebilo, Slovar lingvisticheskih terminov. Nazran: OOO Piligrim, 2010, in Russian.
-
K. Krippendorff. (2008).Computing Krippendorff's alpha-reliability, [Online]. Available: https: // repository.upenn.edu/asc papers/43/(visited on 01/17/2023).
-
J. Hughes, "krippendorffsalpha: An R package for measuring agreement using Krippendorff's alpha coefficient", The R Journal, vol. 13, no. 1, pp. 413-425, 2021. EDN: QDLEPW
-
L. A. Jeni, J. F. Cohn, and F. De La Torre, "Facing imbalanced data-recommendations for the use of performance metrics", in 2013 Humaine association conference on affective computing and intelligent interaction, IEEE, 2013, pp. 245-251.
-
A. Y. Poletaev and I. V. Paramonov, "Recursive sentiment detection algorithm for Russian sentences", Modelirovanie i Analiz Informatsionnykh Sistem, vol. 29, no. 2, pp. 134-147, 2022, in Russian. EDN: KUHYPB
-
S. Smetanin and M. Komarov, "Deep transfer learning baselines for sentiment analysis in Russian", Information Processing & Management, vol. 58, no. 3, p. 102 484, 2021. EDN: FISPSI
-
R. Artstein and M. Poesio, "Inter-coder agreement for computational linguistics", Computational linguistics, vol. 34, no. 4, pp. 555-596, 2008.
Выпуск
Другие статьи выпуска
Задача распознавания именованных сущностей (named entity recognition, NER) состоит в выделении и классификации слов и словосочетаний, обозначающих именованные объекты, таких как люди, организации, географические названия, даты, события, обозначения терминов предметных областей. В поисках лучшего решения исследователи проводят широкий спектр экспериментов с разными технологиями и исходными данными. Сравнение результатов этих экспериментов показывает значительное расхождение качества NER и ставит проблему определения условий и границ применения используемых технологий, а также поиска новых путей решения. Важным звеном в ответах на эти вопросы является систематизация и анализ актуальных исследований и публикация соответствующих обзоров. В области распознавания именованных сущностей авторы аналитических статей в первую очередь рассматривают математические методы выделения и классификации и не уделяют внимание специфике самой задачи. В предлагаемом обзоре область распознавания именованных сущностей рассмотрена с точки зрения отдельных категорий задач. Авторы выделили пять категорий: классическая задача NER, подзадачи NER, NER в социальных сетях, NER в предметных областях, NER в задачах обработки естественного языка (natural language processing, NLP). Для каждой категории обсуждается качество решения, особенности методов, проблемы и ограничения. Информация об актуальных научных работах каждой категории для наглядности приводится в виде таблицы, содержащей информацию об исследованиях: ссылку на работу, язык использованного корпуса текстов и его название, базовый метод решения задачи, оценку качества решения в виде стандартной статистической характеристики F-меры, которая является средним гармоническим между точностью и полнотой решения. Обзор позволяет сделать ряд выводов. В качестве базовых технологий лидируют методы глубокого обучения. Основными проблемами являются дефицит эталонных наборов данных, высокие требования к вычислительным ресурсам, отсутствие анализа ошибок. Перспективным направлением исследований в области NER является развитие методов на основе обучения без учителя или на основе правил. Возможной базой предобработки текста для таких методов могут служить интенсивно развивающиеся модели языков в существующих инструментах NLP. Завершают статью описание и результаты экспериментов с инструментами NER для русскоязычных текстов.
Разработка программного обеспечения зачастую связана с расширением функциональности. Для повышения надежности в этом случае необходимо минимизировать изменение ранее написанного кода. Для инструментальной поддержки эволюционной разработки программ была предложена процедурно-параметрическая парадигма программирования, что позволило повысить возможности процедурного подхода. Это обеспечивает безболезненное расширение как данных, так функций, используя при этом статическую типизацию. В работе рассматривается включение процедурно-параметрического программирования в язык C. Предлагаются дополнительные синтаксические конструкции, ориентированные на поддержку предлагаемого подхода. К ним относятся: параметрические обобщения, специализации обобщений, обобщающие функции, обработчики специализаций. Описываются их семантика, возможности и особенности технической реализации. Для проверки возможностей использования данного подхода построены модели процедурно-параметрических конструкций на языке программирования C. Приведенный пример демонстрирует гибкое расширение программы и поддержку множественного полиморфизма.
Численное исследование различных процессов приводит к необходимости уточнения (расширения) границ применимости вычислительных конструкций и инструментов моделирования. В настоящей статье изучается дифференцируемость в пространстве интегрируемых по Лебегу функций и рассматривается согласованность этого понятия с основополагающими вычислительными построениями такими, как разложение Тейлора и конечные разности. Функцию f из L1[a;b] назовём (k,L)-дифференцируемой в точке x0 из (a;b), если существует алгебраический многочлен P, степени не выше k, такой, что интеграл по отрезку от x0 до x0+h для f−P есть o(hk+1). Найдены формулы для вычисления коэффициентов такого P, представляющие собой предел отношения интегральных модификаций конечных разностей Δmh(f,x) к hm,m=1,⋯,k. Получается, что если f∈Wl1[a;b], и f(l) является (k,L)-диффе\-ренци\-руемой в точке x0, то f приближается тейлоровским многочленом с точностью o((x−x0)l+k), а коэффициенты разложения могут быть найдены указанным выше способом. Для исследования функций из L1 на множестве применяется дискретная <<глобальная>> конструкция разностного выражения: на основе частного Δmh(f,⋅) и hm строится последовательность {Λmn[f]} кусочно-постоянных функций, подчинённых разбиениям полуинтервала [a;b) на n равных частей. Показано, что для (k,L)-диффе\-ренци\-руемой в точке x0 функции f последовательности {Λmn[f]},m=1,⋯,k, сходятся при n→∞ в этой точке к коэффициентам приближающего в ней функцию многочлена. С помощью {Λkn[f]} устанавливается теорема: {\it <<f из L1[a;b] принадлежит Ck[a;b]⟺ f равномерно (k,L)-диффе\-рен\-цируе\-ма на [a;b]>>.} Отдельное место занимает изучение построений, соответствующих случаю m=0. Их рассматриваем в L1[Q0], где Q0 -- куб в пространстве Rd. По заданной функции f∈L1 и разбиению τn полузамкнутого куба Q0 на nd равных полузамкнутых кубов построим кусочно-постоянную функцию Θn[f], определяемую как интегральное среднее f на каждом кубе Q∈τn. Данная вычислительная конструкция приводит к следующим теоретическим фактам: {\it \,1)\,f из L1 принадлежит Lp,1≤p<∞,⟺{Θn[f]} сходится в Lp; ограниченность {Θn[f]}⟺f∈L∞; 2)\,последовательности {Θn[⋅]} определяют на классах эквивалентности оператор-проектор Θ в пространстве L1; 3)\,для функции f∈L∞ получаем Θ[f]¯¯¯¯¯¯∈B, где B -- это пространство ограниченных функций, а Θ[f]¯¯¯¯¯¯ -- доопределённая на множестве меры ноль функция Θ[f](x), и выполняется равенство ∥∥Θ[f]¯¯¯¯¯¯∥∥B=∥f∥∞. } Таким образом, в семействе пространств Lp можно заменить L∞[Q0] на B[Q0].
В работе рассмотрена задача моделирования информационного обмена адаптивной системы управления движением группы беспилотных летательных аппаратов (БЛА). Движение группы БЛА осуществляется в соответствии с адаптивным алгоритмом оптимального управления пространственной перестройкой. Оптимальные управления строятся обеспечивающими минимум общей затрачиваемой энергии. Параметры математической модели движения группы БЛА уточняются в процессе полета в соответствии с изменяющимися внешними условиями. В соответствии с этим уточняются управляющие воздействия. Это требует значительных вычислительных ресурсов и накладывает особые требования на систему информационного обмена между БЛА и пунктом управления. Предложена схема информационного обмена между БЛА и пунктом управления, позволяющая рассчитать оптимальные параметры передающих устройств.
В статье рассматриваются неориентированные кратные графы произвольной натуральной кратности k > 1. Кратный граф содержит ребра трех типов: обычные, кратные и мультиребра. Ребра последних двух типов представляют собой объединение k связанных ребер, которые соединяют 2 или (k + 1) вершину соответственно. Связанные ребра могут использоваться только согласованно. Если вершина инцидентна кратному ребру, то она может быть инцидентна другим кратным ребрам, а также она может быть общим концом k связанных ребер мультиребра. Если вершина является общим концом мультиребра, то она не может быть общим концом никакого другого мультиребра.Как и для обычного графа, для кратного графа можно ввести целочисленную функцию длины ребра и поставить задачу о кратчайшем пути между двумя вершинами. Кратный путь является объединением k обычных путей, согласованных на связанных ребрах кратных и мультиребер. В статье оптимизирован полученный ранее алгоритм поиска кратчайшего пути в произвольном кратном графе. Показано, что оптимизированный алгоритм полиномиален. Таким образом, задача о кратчайшем пути является полиномиальной для любого кратного графа.
Издательство
- Издательство
- ЯрГУ им. П.Г. Демидова
- Регион
- Россия, Ярославль
- Почтовый адрес
- 150003, Ярославль, Советская, 14,
- Юр. адрес
- 150003, Ярославль, Советская, 14,
- ФИО
- Иванчин Артем Владимирович (Ректор)
- E-mail адрес
- rectorat@uniyar.ac.ru
- Контактный телефон
- +7 (485) 2797702