ФИЛОЛОГИЧЕСКИЕ НАУКИ. ВОПРОСЫ ТЕОРИИ И ПРАКТИКИ
Архив статей журнала
Цель исследования - выявить модели и алгоритмы обработки текстовой информации, связанные с модальной коррекцией схем интенциональных отношений в разноструктурных языках на основе технологии Text Mining. Рост потоков разнородной текстовой информации в Интернете, состоящей из сложноорганизованных документов, ставит перед аналитиками проблемы, связанные с дифференцированным извлечением знаний (в интеллектуальном анализе разнородной текстовой информации используется технология Text Mining). В статье предложен подход к анализу информации модальной коррекции схем интенциональных смысловых отношений (ИСО) в разноструктурных языках на основе методов компьютерной лингвистики и Text Mining. При помощи библиотеки Language Resources проведен анализ русских и чувашских корпусов в БД Datastores (перенос информации на основе анализа проблем интеграции и совместимости данных с различными типами документов из разных источников). На основе предложенного концептуального подхода осуществляется кластеризация (кластеров документов, текстового корпуса). Научная новизна исследования состоит в разработке комплекса моделей и алгоритмов для анализа интенциональных отношений в разноструктурных языках - русском и чувашском, обеспечивающих точность и полноту в извлечении информации в поисковых запросах. Акцентируется внимание на контенте лингвистических ресурсов, проводится классификация лингвистических ресурсов по классам-модусам ИСО, определяется подход к формализации лексико-синтаксических шаблонов, на их основе решается задача построения таксономии концепта ИСО. В результате исследования установлено, что предлагаемый метод эффективен для решения задач интеллектуального анализа текстов и интерпретации его результатов.