РАЗРАБОТКА ИНСТРУМЕНТАРИЯ ДЛЯ МОДЕРАЦИИ КОММЕНТАРИЕВ НА ОСНОВЕ АНАЛИЗА ТОНАЛЬНОСТИ (2023)
Рассматривается задача модерации комментариев с фильтрацией негативного контента. Используется фреймворк PySpark для анализа тональности комментариев на основе библиотеки Apache Spark. Алгоритм считывает текст комментария и определяет его эмоциональный окрас. Инструментарий может использоваться на образовательных веб-сервисах, где можно фильтровать негативные комментарии и предотвращать их появление на сайте, что в свою очередь улучшает качество контента и безопасность для пользователей.
Идентификаторы и классификаторы
Предобработка и анализ данных перед построением модели играют решающую роль в обработке естественного языка. Для достижения желаемых результатов были применены различные методы предварительной обработки текста: сообщения были очищены от «мусора» с помощью регулярных выражений, стоп-слова были удалены, а также были проведены токенизация и векторизация. Следует отметить, что точность обученной модели составляет около 0,88. Это говорит о том, что полученные результаты являются достаточно хорошими, и алгоритм правильно прогнозирует категорию комментариев. Таким образом, использование инструментария для модерации комментариев является важным шагом для создания безопасной и продуктивной общественной среды на сайтах и платформах. Он помогает бороться с нежелательным контентом, повышает качество взаимодействия между пользователями и улучшает процесс модерации, сокращая время, затрачиваемое на его выполнение.
Список литературы
-
Большакова Е. И., Клышинский Э. С., Ландэ Д. В. [и др.]. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие. М.: Изд-во МИЭМ, 2011. 272 с. EDN: TDHFWD
-
Kaggle. Toxic Comment Classification Challenge. URL: https://www.kaggle.eom/c/jigsaw-toxic-comment-classification-challenge (дата обращения: 26.04.2023).
-
Apache Spark: сайт. URL: https://spark.apache.org/docs/latest/ml-features (дата обращения: 26.04.2023).
-
Самигулин Т. Р., Джурабаев А. Э. У. Анализ тональности текста методами машинного обучения // Научный результат. Информационные технологии. 2021. Т. 6, № 1. С. 55-62. 10.18413/2518-1092-2021 -6-1 -0-7. DOI: 10.18413/2518-1092-2021-6-1-0-7 EDN: ZQHRSN
-
Параскевов А. В., Чемарина А. В. Большие данные: учеб. Краснодар: Изд-во КубГАУ, 2021. 172 с.
Выпуск
Другие статьи выпуска
Статья посвящена цифровизации взаимодействия участников учебного процесса. Разработана диаграмма вариантов использования, учитывающая необходимый функционал пользователей разрабатываемой системы. Рассматривается способ организации механизмов взаимодействия между преподавателями и студентами на базе системы управления взаимоотношениями с клиентами Битрикс24. Приводятся примеры реализации коммуникаций.
В статье рассмотрена концепция эффективной работы с данными, применяемая в программе Microsoft Power BI. Авторы рассматривают основные инструменты, использующиеся в программе, такие как Power Query, Power Pivot, Power View, Сервис Power BI. Использование каждого из них подчиняется концепции эффективной работы с данными, которая подразумевает использование алгоритма четырех шагов. Проведенный анализ указанных инструментов позволяет сделать вывод, что Microsoft Power BI является эффективным инструментом работы с данными и может быть использован в различных сферах деятельности.
В работе проведено исследование метода контрольных карт для изучения случайного процесса, а также представлены правила их построения. Описаны методики применения контрольных карт для анализа стабильности учебного процесса. Выполнена программная реализация вычисления значений необходимых элементов карт и их отображения на графике. Полученные результаты могут быть полезны для улучшения качества образования и повышения эффективности учебных программ.
В работе рассмотрены особенности измерения формообразующего свойства материала существующими инструментальными методами. Проанализированы зависимости характеристик и целевого признака. Рассмотрена программная реализация алгоритма решения задачи на основе регрессионных моделей машинного обучения. Проведен сравнительный анализ моделей. Определены возможные варианты решения задачи.
В работе проведен анализ существующих методов извлечения именованных сущностей из текстов на русском языке. Сформулированы эквивалентная задача классификации и правила разметки именованных сущностей. Предложены подходы, позволяющие повысить эксплуатационные качества классификаторов. Проведен численный эксперимент, в ходе которого обучено несколько моделей. Продемонстрированы преимущества использования предложенных подходов по отдельности и в совокупности.
Целью настоящей работы является использование методов математического моделирования и разработка математического обеспечения для оптимизации предварительно рассчитанного операционного плана с целью минимизации отклонения вовлечения компонентов в многопериодных смешениях от интегральных значений календарного плана НПЗ.
В работе исследуются методы анализа данных для оптимизации учебных процессов, представлены правила построения моделей анализа данных. Проводится предварительная обработка входящих данных для последующей подстановки в модель. Выполнена программная реализация алгоритма анализа данных и отображения данных на графике. Полученная модель анализа данных встроена в приложение для оптимизации составления расписания и повышения эффективности учебного процесса.
Издательство
- Издательство
- ОмГТУ
- Регион
- Россия, Омск
- Почтовый адрес
- 644050, Российская Федерация, г. Омск, пр-т Мира, д. 11
- Юр. адрес
- 644050, Российская Федерация, г. Омск, пр-т Мира, д. 11
- ФИО
- Корчагин Павел Александрович (Ректор )
- E-mail адрес
- info@omgtu.ru
- Контактный телефон
- +7 (381) 2653407
- Сайт
- https://omgtu.ru/