EISSN 2712-9942
Языки: ru · en

Статья: МЕТОДЫ АНАЛИЗА ТЕКСТА НА ЕСТЕСТВЕННОМ ЯЗЫКЕ В ЗАДАЧЕ ЭКСТРАКТИВНОГО ИНФОРМАЦИОННОГО ПОИСКА (2024)

Читать онлайн

в статье рассматривается лингво-математическое обеспечение интеллектуальных информационно-поисковых систем. Активно развивающиеся последнее десятилетие большие языковые модели, способные решать задачи информационного поиска, часто оказываются ресурсоемкими и имеют избыточный функционал при встраивании в специализированные информационные системы. Это создает необходимость разработки более легковесных методов обработки текста на естественном языке. Рассматривается экстрактивный подход к организации вопросно-ответного поиска, задачакоторого состоит в нахождении предложений, отвечающих на вопрос в заранее выбранном документе. В рамках организации этого подхода предлагаются методы анализа морфологии, синтаксиса и семантики естественного языка. Для реализации графового синтаксического анализа, основанного на взвешивании полного ориентированного графа искусственной нейронной сетью прямого распространения, собран корпус текстов на русском языке, содержащий 8800 предложений. Также этот корпус используется для получения набора синтаксически ориентированных векторных представлений слов, применяющегося на этапе семантического анализа, посредством модели, основанной на архитектуре непрерывного мешка слов. Механизм ранжирования предложений относительно вопроса основан на формализации семантики текста на естественном языке в виде сильно-связного ориентированного графа, выявляющего неявные содержательные закономерности языковых структур.

Ключевые фразы: обработка естественного языка, компьютерная лингвистика, КОРПУС ТЕКСТОВ, СИНТАКСИС, СЕМАНТИКА
Автор (ы): Перцев Ю В
Журнал: УСПЕХИ КИБЕРНЕТИКИ

Идентификаторы и классификаторы

УДК
004. Информационные технологии. Компьютерные технологии. Теория вычислительных машин и систем
Для цитирования:
ПЕРЦЕВ Ю. В. МЕТОДЫ АНАЛИЗА ТЕКСТА НА ЕСТЕСТВЕННОМ ЯЗЫКЕ В ЗАДАЧЕ ЭКСТРАКТИВНОГО ИНФОРМАЦИОННОГО ПОИСКА // УСПЕХИ КИБЕРНЕТИКИ. 2024. № 4, ТОМ 5
Текстовый фрагмент статьи