Работы автора

Тематическое моделирование текстового документа с использованием матрицы терминов обработанного документа (2024)

Тематическое моделирование - это метод определения темы текстового документа путем анализа семантики и синтаксиса текста. При анализе текста метод определяет внутреннюю структуру документа или набора документов и использует эту информацию для классификации или группировки похожих слов по темам. Это также помогает выявить основные тенденции интересов в текстовом документе. Например, многие люди интересуются онлайн-покупками, политикой, спортом, экономикой, обществом и т. д. Существуют различные онлайн- и офлайн-методы интеллектуального анализа данных и алгоритмы, используемые для определения темы текста. Большинство из них используют определенный механизм, основанный на семантических характеристиках языка и тематике текста. В данном исследовании основная идея заключается в разработке методологии, которую можно эффективно использовать для тематического моделирования текста на разных языках. Модель сначала предварительно обрабатывает текст, который включает в себя токенизацию слов, удаление из него стоп-слова (STOPWORDS), выполнение лемматизации. Предварительная обработка текста и фильтрация несоответствующих элементов уменьшает размер текста и повышает производительность его классификации. Алгоритм предполагает наличие ‘n’ тем в текстовом документе и, основываясь на этом предположении, генерирует матрицы терминов обработанного документа (PDTM) для текстового документа. Матрица терминов обработанного документа (PDTM) представляет собой двумерную матрицу, которая присваивает конкретное числовое значение каждому слову в тексте на основе частоты его появления в документе, а затем соотносит это слово с каждой темой, предполагавшейся ранее. Матрица терминов обработанного документа (PDTM) генерируется для хранения токенизированных слов. Предлагаемая модель и ее результаты подробно описаны в разделах методологии и обсуждения этой статьи.

Издание: ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ В ПРОИЗВОДСТВЕ
Выпуск: Том 22, № 4 (2024)
Автор(ы): АББАСИ М. М., БЕЛЬТЮКОВ А. П.
Сохранить в закладках