ПРИКЛАДНАЯ МАТЕМАТИКА И ФУНДАМЕНТАЛЬНАЯ ИНФОРМАТИКА
Архив статей журнала
В работе исследованы основные подходы к распознаванию смысла предложений исходя из контекста. Распознавание смысла предложений используется для решения задачи семантического сравнения пользовательских запросов с целью найти наиболее схожий по смыслу среди имеющихся. Результаты исследования показывают, что использование алгоритмов распознавания смысла предложений позволяет сократить число запросов, которые необходимо описывать вручную, при этом сохраняя большое количество обрабатываемых запросов.
Для определения и извлечения сущностей и связей используются методы анализа текста, такие как метод обнаружения именованных сущностей и метод классификации ролей. Для повышения точности и эффективности извлечения применяются такие методы, как метод опорных векторов и метод условных случайных полей. Предложенный подход демонстрирует многообещающие результаты в точной и эффективной разметке образовательных материалов на математические термины.
Исследуется задача разработки краткого описания текста веб-страницы. Краткое описание создано за счет использования архитектуры машинного обучения Transformer, которая в предварительно обученном состоянии позволяет суммаризировать текст. По ходу реализации исследована модель генерирующего реферирования текста. Исследованы возможности модели, за счет каких особенностей она способна обрабатывать и аннотировать текст. Проанализированы результаты работы модели и сравнены с итогами работы других моделей реферирования, благодаря чему объясняется выбор изученной модели.
Рассматривается задача модерации комментариев с фильтрацией негативного контента. Используется фреймворк PySpark для анализа тональности комментариев на основе библиотеки Apache Spark. Алгоритм считывает текст комментария и определяет его эмоциональный окрас. Инструментарий может использоваться на образовательных веб-сервисах, где можно фильтровать негативные комментарии и предотвращать их появление на сайте, что в свою очередь улучшает качество контента и безопасность для пользователей.
В работе проведен анализ существующих методов извлечения именованных сущностей из текстов на русском языке. Сформулированы эквивалентная задача классификации и правила разметки именованных сущностей. Предложены подходы, позволяющие повысить эксплуатационные качества классификаторов. Проведен численный эксперимент, в ходе которого обучено несколько моделей. Продемонстрированы преимущества использования предложенных подходов по отдельности и в совокупности.
Цель исследования - построить модель машинного обучения для декомпозиции текстовой формулировки компетенции. В данной статье рассматриваются методы представления компетенции как множества ключевых слов и терминов. Основное содержание исследования составляет анализ применения двух моделей: BERTopic и ARTM. Описываются основные этапы исследования: сбор и предобработка данных, обучение моделей, анализ и интерпретация результата. В заключении раскрываются преимущества и недостатки применения таких моделей, а также последующие направления исследования.
В статье предложена реализация простого интеллектуального помощника, работающего по модели классификации намерений. Предложен алгоритм распределенной платформы, которая определяет намерение пользователя и отвечает заготовленным ответом в один из каналов. Представлен пайплайн обработки данных и модель, работающая с полными и разреженными признаками. Обучены несколько архитектур, выбрана лучшая, с учётом метрик быстродействия и точности.
Задача извлечения структурированных данных из слабоструктурированного текстового представления информации является трудоёмкой, но актуальной. В статье рассмотрена задача структурирования данных для формирования дескрипторной модели студента с его компетенциями. Разработано решение, которое показывает хорошие результаты при условии, что в наличии есть большое количество данных для обучения. Данное решение можно переработать и распространить на другие области, например, проектную деятельность.