Статья: ПРОБЛЕМЫ ИЗВЛЕЧЕНИЯ СЛАБОСТРУКТУРИРОВАННОЙ ТЕКСТОВОЙ ИНФОРМАЦИИ НА ОСНОВЕ ТЕХНОЛОГИИ TEXT MINING (НА МАТЕРИАЛЕ РУССКОГО И ЧУВАШСКОГО ЯЗЫКОВ)
Цель исследования - выявить модели и алгоритмы обработки текстовой информации, связанные с модальной коррекцией схем интенциональных отношений в разноструктурных языках на основе технологии Text Mining. Рост потоков разнородной текстовой информации в Интернете, состоящей из сложноорганизованных документов, ставит перед аналитиками проблемы, связанные с дифференцированным извлечением знаний (в интеллектуальном анализе разнородной текстовой информации используется технология Text Mining). В статье предложен подход к анализу информации модальной коррекции схем интенциональных смысловых отношений (ИСО) в разноструктурных языках на основе методов компьютерной лингвистики и Text Mining. При помощи библиотеки Language Resources проведен анализ русских и чувашских корпусов в БД Datastores (перенос информации на основе анализа проблем интеграции и совместимости данных с различными типами документов из разных источников). На основе предложенного концептуального подхода осуществляется кластеризация (кластеров документов, текстового корпуса). Научная новизна исследования состоит в разработке комплекса моделей и алгоритмов для анализа интенциональных отношений в разноструктурных языках - русском и чувашском, обеспечивающих точность и полноту в извлечении информации в поисковых запросах. Акцентируется внимание на контенте лингвистических ресурсов, проводится классификация лингвистических ресурсов по классам-модусам ИСО, определяется подход к формализации лексико-синтаксических шаблонов, на их основе решается задача построения таксономии концепта ИСО. В результате исследования установлено, что предлагаемый метод эффективен для решения задач интеллектуального анализа текстов и интерпретации его результатов.
Информация о документе
- Формат документа
 - Кол-во страниц
 - 1 страница
 - Загрузил(а)
 - Лицензия
 - —
 - Доступ
 - Всем
 
Информация о статье
- ISSN
 - 1997-2911
 - EISSN
 - 2782-4543
 - Журнал
 - ФИЛОЛОГИЧЕСКИЕ НАУКИ. ВОПРОСЫ ТЕОРИИ И ПРАКТИКИ
 - Год публикации
 - 2024
 
Статистика просмотров
Статистика просмотров статьи за 2025 год.