ISSN 1818-1015 · EISSN 2313-5417
Язык: ru

МОДЕЛИРОВАНИЕ И АНАЛИЗ ИНФОРМАЦИОННЫХ СИСТЕМ

РАЗМЕТКА КОРПУСОВ ТЕКСТОВ ПО ТОНАЛЬНОСТИ И НАЛИЧИЮ ИРОНИИ В РАМКАХ ПРОЕКТА ГРАЖДАНСКОЙ НАУКИ (2023)

Статья посвящена построению корпуса предложений, размеченных по общей тональности на 4 класса (положительный, отрицательный, нейтральный, смешанный), корпуса фразеологизмов, размеченных по тональности на 3 класса (положительный, отрицательный, нейтральный), и корпуса предложений, размеченных по наличию или отсутствию иронии. Разметку проводили волонтёры в рамках проекта «Готовим тексты алгоритмам» на портале«Люди науки».На основе имеющихся знаний о предметной области для каждой из задач были составлены инструкции для разметчиков. Также была выработана методика статистической обработки результатов разметки, основанная на анализе распределений и показателей согласия оценок, выставленных разными разметчиками. Для разметки предложений по наличию иронии и фразеологизмов по тональности показатели согласия оказались достаточно высокими (доля полного совпадения 0.60-0.99), при разметке предложений по общей тональности согласие оказалось слабым (доля полного совпадения 0.40), по-видимому, из-за более высокой сложности задачи. Также было показано, что результаты работы автоматических алгоритмов анализа тональности предложений улучшаются на 12-13 % при использовании корпуса, относительно предложений которого сошлись мнения всех разметчиков (3-5 человек), по сравнению с корпусом с разметкой только одним волонтёром.

Тип: Статья
Автор (ы): Парамонов Илья Вячеславович, Полетаев Анатолий Юрьевич
Ключевые фразы: АНАЛИЗ ТОНАЛЬНОСТИ, ТЕКСТОВЫЙ КОРПУС, статистический анализ, ПОКАЗАТЕЛИ СОГЛАСИЯ, гражданская наука

Идентификаторы и классификаторы

УДК
004.912. Обработка текста
eLIBRARY ID
50471294
Текстовый фрагмент статьи