ISSN 1997-2911 · EISSN 2782-4543
Языки: ru · en

ФИЛОЛОГИЧЕСКИЕ НАУКИ. ВОПРОСЫ ТЕОРИИ И ПРАКТИКИ

Архив статей журнала

ПРОБЛЕМЫ ИЗВЛЕЧЕНИЯ СЛАБОСТРУКТУРИРОВАННОЙ ТЕКСТОВОЙ ИНФОРМАЦИИ НА ОСНОВЕ ТЕХНОЛОГИИ TEXT MINING (НА МАТЕРИАЛЕ РУССКОГО И ЧУВАШСКОГО ЯЗЫКОВ) (2024)
Выпуск: Том 17. № 9 (2024)
Авторы: Губанов Алексей Рафаилович, Данилов Андрей Анатольевич, Исаев Юрий Николаевич, Губанова Галина Федоровна

Цель исследования - выявить модели и алгоритмы обработки текстовой информации, связанные с модальной коррекцией схем интенциональных отношений в разноструктурных языках на основе технологии Text Mining. Рост потоков разнородной текстовой информации в Интернете, состоящей из сложноорганизованных документов, ставит перед аналитиками проблемы, связанные с дифференцированным извлечением знаний (в интеллектуальном анализе разнородной текстовой информации используется технология Text Mining). В статье предложен подход к анализу информации модальной коррекции схем интенциональных смысловых отношений (ИСО) в разноструктурных языках на основе методов компьютерной лингвистики и Text Mining. При помощи библиотеки Language Resources проведен анализ русских и чувашских корпусов в БД Datastores (перенос информации на основе анализа проблем интеграции и совместимости данных с различными типами документов из разных источников). На основе предложенного концептуального подхода осуществляется кластеризация (кластеров документов, текстового корпуса). Научная новизна исследования состоит в разработке комплекса моделей и алгоритмов для анализа интенциональных отношений в разноструктурных языках - русском и чувашском, обеспечивающих точность и полноту в извлечении информации в поисковых запросах. Акцентируется внимание на контенте лингвистических ресурсов, проводится классификация лингвистических ресурсов по классам-модусам ИСО, определяется подход к формализации лексико-синтаксических шаблонов, на их основе решается задача построения таксономии концепта ИСО. В результате исследования установлено, что предлагаемый метод эффективен для решения задач интеллектуального анализа текстов и интерпретации его результатов.

Сохранить в закладках