Научный архив: статьи

РЕАЛИЗАЦИЯ АВТОМАТИЧЕСКОГО РЕФЕРИРОВАНИЯ СОДЕРЖИМОГО ВЕБ-СТРАНИЦЫ (2023)

Исследуется задача разработки краткого описания текста веб-страницы. Краткое описание создано за счет использования архитектуры машинного обучения Transformer, которая в предварительно обученном состоянии позволяет суммаризировать текст. По ходу реализации исследована модель генерирующего реферирования текста. Исследованы возможности модели, за счет каких особенностей она способна обрабатывать и аннотировать текст. Проанализированы результаты работы модели и сравнены с итогами работы других моделей реферирования, благодаря чему объясняется выбор изученной модели.

Издание: ПРИКЛАДНАЯ МАТЕМАТИКА И ФУНДАМЕНТАЛЬНАЯ ИНФОРМАТИКА

Выпуск: Т. 10 № 3 (2023)

Автор(ы): Дробов Денис Андреевич, Морарь Елена Витальевна

Сохранить в закладках

РАЗРАБОТКА ИНСТРУМЕНТАРИЯ ДЛЯ МОДЕРАЦИИ КОММЕНТАРИЕВ НА ОСНОВЕ АНАЛИЗА ТОНАЛЬНОСТИ (2023)

Рассматривается задача модерации комментариев с фильтрацией негативного контента. Используется фреймворк PySpark для анализа тональности комментариев на основе библиотеки Apache Spark. Алгоритм считывает текст комментария и определяет его эмоциональный окрас. Инструментарий может использоваться на образовательных веб-сервисах, где можно фильтровать негативные комментарии и предотвращать их появление на сайте, что в свою очередь улучшает качество контента и безопасность для пользователей.

Издание: ПРИКЛАДНАЯ МАТЕМАТИКА И ФУНДАМЕНТАЛЬНАЯ ИНФОРМАТИКА

Выпуск: Т. 10 № 2 (2023)

Автор(ы): Рыбакова Екатерина Ивановна, Шарун Иван Владимирович

Сохранить в закладках

ГЛУБОКОЕ ОБУЧЕНИЕ МОДЕЛИ ДЛЯ РАСПОЗНАВАНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ В УСЛОВИЯХ КРИТИЧЕСКОГО ДИСБАЛАНСА КЛАССОВ (2023)

В работе проведен анализ существующих методов извлечения именованных сущностей из текстов на русском языке. Сформулированы эквивалентная задача классификации и правила разметки именованных сущностей. Предложены подходы, позволяющие повысить эксплуатационные качества классификаторов. Проведен численный эксперимент, в ходе которого обучено несколько моделей. Продемонстрированы преимущества использования предложенных подходов по отдельности и в совокупности.

Издание: ПРИКЛАДНАЯ МАТЕМАТИКА И ФУНДАМЕНТАЛЬНАЯ ИНФОРМАТИКА

Выпуск: Т. 10 № 2 (2023)

Автор(ы): Гуненков Михаил Юрьевич, Канева Ольга Николаевна

Сохранить в закладках

ПРИМЕНЕНИЕ ТЕМАТИЧЕСКОГО МОДЕЛИРОВАНИЯ ДЛЯ ДЕКОМПОЗИЦИИ ТЕКСТОВОЙ ФОРМУЛИРОВКИ ОБРАЗОВАТЕЛЬНОЙ КОМПЕТЕНЦИИ (2023)

Цель исследования - построить модель машинного обучения для декомпозиции текстовой формулировки компетенции. В данной статье рассматриваются методы представления компетенции как множества ключевых слов и терминов. Основное содержание исследования составляет анализ применения двух моделей: BERTopic и ARTM. Описываются основные этапы исследования: сбор и предобработка данных, обучение моделей, анализ и интерпретация результата. В заключении раскрываются преимущества и недостатки применения таких моделей, а также последующие направления исследования.

Издание: ПРИКЛАДНАЯ МАТЕМАТИКА И ФУНДАМЕНТАЛЬНАЯ ИНФОРМАТИКА

Выпуск: Т. 10 № 1 (2023)

Автор(ы): Тверской Олег Юрьевич, Канева Ольга Николаевна

Сохранить в закладках

МНОГОКАНАЛЬНЫЙ ЧАТ-БОТ С МОДЕЛЬЮ КЛАССИФИКАЦИИ НАМЕРЕНИЙ ПОЛЬЗОВАТЕЛЕЙ (2023)

В статье предложена реализация простого интеллектуального помощника, работающего по модели классификации намерений. Предложен алгоритм распределенной платформы, которая определяет намерение пользователя и отвечает заготовленным ответом в один из каналов. Представлен пайплайн обработки данных и модель, работающая с полными и разреженными признаками. Обучены несколько архитектур, выбрана лучшая, с учётом метрик быстродействия и точности.

Издание: ПРИКЛАДНАЯ МАТЕМАТИКА И ФУНДАМЕНТАЛЬНАЯ ИНФОРМАТИКА

Выпуск: Т. 10 № 1 (2023)

Автор(ы): Нелин Максим Андреевич, Крумина Ксения Васильевна, Лонский Денис Олегович

Сохранить в закладках

АЛГОРИТМ ФОРМИРОВАНИЯ КОМПЕТЕНТНОСТНОГО ПРОФИЛЯ СТУДЕНТА С ПОМОЩЬЮ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ (2024)

Задача извлечения структурированных данных из слабоструктурированного текстового представления информации является трудоёмкой, но актуальной. В статье рассмотрена задача структурирования данных для формирования дескрипторной модели студента с его компетенциями. Разработано решение, которое показывает хорошие результаты при условии, что в наличии есть большое количество данных для обучения. Данное решение можно переработать и распространить на другие области, например, проектную деятельность.

Издание: ПРИКЛАДНАЯ МАТЕМАТИКА И ФУНДАМЕНТАЛЬНАЯ ИНФОРМАТИКА

Выпуск: Т. 11 № 1 (2024)

Автор(ы): Катюшкина Алина Валерьевна, Шарун Иван Владимирович

Сохранить в закладках

Использование технологий искусственного интеллекта для автоматизации процессов обслуживания клиентов и повышения качества сервиса (2024)

В эпоху стремительного развития цифровых технологий и растущей конкуренции на рынке, компании все чаще стремятся оптимизировать процессы обслуживания клиентов и повысить качество сервиса. Одним из наиболее перспективных инструментов для достижения этих целей является искусственный интеллект (ИИ). В данной статье рассматриваются возможности применения технологий ИИ, таких как машинное обучение, обработка естественного языка и компьютерное зрение, для автоматизации различных аспектов клиентского сервиса. Материалы и методы исследования включают анализ существующих научных публикаций, отчетов отраслевых экспертов и кейсов внедрения ИИ в сфере обслуживания клиентов. Проведен систематический обзор литературы с использованием баз данных Scopus, Web of Science и Google Scholar. Ключевыми критериями поиска были термины «искусственный интеллект», «машинное обучение», «обслуживание клиентов», «качество сервиса». Из первоначальной выборки в 647 публикаций были отобраны 54 наиболее релевантные статьи для детального анализа. Результаты исследования демонстрируют, что внедрение технологий ИИ позволяет существенно повысить эффективность и скорость обслуживания клиентов, снизить операционные расходы и улучшить клиентский опыт. Так, использование чат-ботов на базе обработки естественного языка дает возможность автоматизировать до 80% типовых клиентских запросов, сократив среднее время ответа с 5-10 минут до 1-2 минут. Алгоритмы машинного обучения, анализирующие историю взаимодействия с клиентами, помогают персонализировать коммуникации и повысить конверсию маркетинговых кампаний на 15-20%. Компьютерное зрение успешно применяется для биометрической идентификации клиентов и повышения безопасности транзакций. В статье приводятся конкретные примеры использования ИИ такими компаниями, как Amazon, Sberbank, Alibaba, Uber

Издание: ХЛЕБОПЕЧЕНИЕ РОССИИ

Выпуск: № 2, Том 68 (2024)

Автор(ы): Рогаткин Александр Викторович

Сохранить в закладках

Использование технологий искусственного интеллекта для автоматизации процессов обслуживания клиентов и повышения качества сервиса (2024)

В эпоху стремительного развития цифровых технологий и растущей конкуренции на рынке, компании все чаще стремятся оптимизировать процессы обслуживания клиентов и повысить качество сервиса. Одним из наиболее перспективных инструментов для достижения этих целей является искусственный интеллект (ИИ). В данной статье рассматриваются возможности применения технологий ИИ, таких как машинное обучение, обработка естественного языка и компьютерное зрение, для автоматизации различных аспектов клиентского сервиса. Материалы и методы исследования включают анализ существующих научных публикаций, отчетов отраслевых экспертов и кейсов внедрения ИИ в сфере обслуживания клиентов. Проведен систематический обзор литературы с использованием баз данных Scopus, Web of Science и Google Scholar. Ключевыми критериями поиска были термины «искусственный интеллект», «машинное обучение», «обслуживание клиентов», «качество сервиса». Из первоначальной выборки в 647 публикаций были отобраны 54 наиболее релевантные статьи для детального анализа. Результаты исследования демонстрируют, что внедрение технологий ИИ позволяет существенно повысить эффективность и скорость обслуживания клиентов, снизить операционные расходы и улучшить клиентский опыт. Так, использование чат-ботов на базе обработки естественного языка дает возможность автоматизировать до 80% типовых клиентских запросов, сократив среднее время ответа с 5-10 минут до 1-2 минут. Алгоритмы машинного обучения, анализирующие историю взаимодействия с клиентами, помогают персонализировать коммуникации и повысить конверсию маркетинговых кампаний на 15-20%. Компьютерное зрение успешно применяется для биометрической идентификации клиентов и повышения безопасности транзакций. В статье приводятся конкретные примеры использования ИИ такими компаниями, как Amazon, Sberbank, Alibaba, Uber

Издание: ХЛЕБОПЕЧЕНИЕ РОССИИ

Выпуск: № 2, Том 68 (2024)

Автор(ы): Рогаткин Александр Викторович

Сохранить в закладках

АВТОМАТИЧЕСКОЕ ОПРЕДЕЛЕНИЕ СЕМАНТИЧЕСКОГО СХОДСТВА ОТВЕТОВ УЧАЩИХСЯ С ЭТАЛОННЫМ С ПОМОЩЬЮ СОВРЕМЕННЫХ МОДЕЛЕЙ (2024)

В работе представлены результаты исследования современных моделей текста с целью выявления на их основе семантической близости текстов на английском языке. Задача определения семантического сходства текстов является важной составляющей многих областей обработки естественного языка: машинного перевода, поиска информации, систем вопросов и ответов, искусственного интеллекта в образовании. Авторы решали задачу классификации близости ответов учащихся к эталонному ответу учителя. Для исследования были выбраны нейросетевые языковые модели BERT и GPT, ранее применявшиеся к определению семантического сходства текстов, новая нейросетевая модель Mamba, а так же стилометрические характеристики текста. Эксперименты проводились с двумя корпусами текстов: корпус Text Similarity из открытых источников и собственный корпус, собранный с помощью филологов. Качество решения задачи оценивалось точностью, полнотой и F-мерой. Все нейросетевые языковые модели показали близкое качество F-меры около 86% для большего по размеру корпуса Text Similarity и 50-56% для собственного корпуса авторов. Совсем новым результатом оказалось успешное применение модели mamba. Однако, самым интересным достижением стало применение векторов стилометрических характеристик текста, показавшее 80% F-меры для авторского корпуса и одинаковое с нейросетевыми моделями качество решения задачи для другого корпуса.

Издание: МОДЕЛИРОВАНИЕ И АНАЛИЗ ИНФОРМАЦИОННЫХ СИСТЕМ

Выпуск: Т. 31 № 2 (2024)

Автор(ы): Лагутина Ксения Владимировна, Лагутина Надежда Станиславовна, Копнин Владислав Николаевич

Сохранить в закладках

ПРИМЕНЕНИЕ ГЛУБОКИХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ АВТОМАТИЧЕСКОГО ОПРЕДЕЛЕНИЯ ИРОНИИ В РУССКОЯЗЫЧНЫХ ТЕКСТАХ (2024)

В работе исследуются автоматические методы классификации русскоязычных предложений на два класса: содержащие и не содержащие ироничный посыл. Рассматриваемые методы могут быть разделены на три категории: классификаторы на основе эмбеддингов языковых моделей, классификаторы с использованием информации о тональности и классификаторы с обучением эмбеддингов обнаружению иронии. Составными элементами классификаторов являются нейронные сети, такие как BERT, RoBERTa, BiLSTM, CNN, а также механизм внимания и полносвязные слои. Эксперименты по обнаружению иронии проводились с использованием двух корпусов русскоязычных предложений: первый корпус составлен из публицистических текстов из открытого корпуса OpenCorpora, второй корпус является расширением первого и дополнен ироничными предложениями с ресурса Wiktionary. Лучшие результаты продемонстрировала группа классификаторов на основе чистых эмбеддингов языковых моделей с максимальным значением F-меры 0.84, достигнутым связкой из RoBERTa, BiLSTM, механизма внимания и пары полносвязных слоев в ходе экспериментов на расширенном корпусе. В целом использование расширенного корпуса давало результаты на 2-5% выше результатов на базовом корпусе. Достигнутые результаты являются лучшими для рассматриваемой задачи в случае русского языка и сравнимы с лучшими для английского.

Издание: МОДЕЛИРОВАНИЕ И АНАЛИЗ ИНФОРМАЦИОННЫХ СИСТЕМ

Выпуск: Т. 31 № 1 (2024)

Автор(ы): Костерин Максим Алексеевич, Парамонов Илья Вячеславович

Сохранить в закладках

Метод выявления актуальных тем тренажерной подготовки пилотов на основе кластеризации отчетов по безопасности полетов (2024)

Технологии обработки естественного языка (natural language processing – NLP) в одном из своих применений обеспечивают эффективное исследование закономерностей и тенденций в больших наборах текстовых данных. Текстовые данные по безопасности полетов, представленные в виде отчетов по расследованию авиационных происшествий, являются перспективным объектом для извлечения новой полезной информации, которую можно использовать как при управлении безопасностью полетов, так и в рамках тренажерной подготовки. В данной работе рассматриваются вопросы применения технологий NLP для исследования корпуса отчетов по безопасности полетов ПАО «Аэрофлот – российские авиалинии». Целью исследования является разработка метода выявления актуальных тем тренажерной подготовки пилотов. Представлен анализ существующих зарубежных исследований в области интеллектуального анализа текстовой информации в гражданской авиации. Выявлено, что за рубежом активно применяют технологии NLP для изучения отчетов по безопасности полетов. В статье представлена схема метода выявления актуальных тем тренажерной подготовки пилотов, основанного на кластеризации отчетов по безопасности полетов. Описаны процедуры предварительной обработки текста и построение его векторного пространства. Научной новизной подхода является то, что в отличие от предыдущих работ предлагается использовать полное векторное представление отчетов по безопасности полетов, которое строится объединением матриц тематических и семантических векторов. Проведена апробация предложенного метода. Анализируемый корпус текстов составил 1080 отчетов. В результате применения алгоритма кластеризации были идентифицированы 36 кластеров, которые затем были визуализированы с помощью алгоритма t-распределенного стохастического эмбеддинга соседей (t-distributed Stochastic Neighbor Embedding – t-SNE). Практическая значимость результатов исследования заключается в том, что подход, основанный на кластеризации отчетов, позволит проводить более глубокий анализ отчетов по безопасности полетов, что может упростить и ускорить работу как специалистов по управлению безопасностью полетов, так и инструкторов по тренажерной подготовке пилотов.

Издание: НАУЧНЫЙ ВЕСТНИК МОСКОВСКОГО ГОСУДАРСТВЕННОГО ТЕХНИЧЕСКОГО УНИВЕРСИТЕТА ГРАЖДАНСКОЙ АВИАЦИИ

Выпуск: Том 27, № 4 (2024)

Автор(ы): Заббаров Зульфат Рифкатович, Волков Александр Константинович

Сохранить в закладках

ИСПОЛЬЗОВАНИЕ МЕТОДОВ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА В ФОРМИРОВАНИИ РЕЙТИНГОВОЙ СИСТЕМЫ ВЫСШИХ УЧЕБНЫХ ЗАВЕДЕНИЙ РФ (2024)

В данной статье рассмотрена проблема повышения эффективности работы образовательных организаций высшего образования Российской Федерации за счет построения качественной системы рейтинга с использованием машинного обучения. Проведен анализ существующих методологий формирования рейтинговых систем. Исследованы факторы, влияющие на рейтинг образовательных организаций. Рассмотрены алгоритмы и методы агрегирования результата анализа деятельности высших учебных заведений. Проведен анализ полученного рейтинга и результатов работы аналитических моделей.

Издание: ИЗВЕСТИЯ ТУЛЬСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА. ТЕХНИЧЕСКИЕ НАУКИ

Выпуск: №2 (2024)

Автор(ы): Леонов Юрий Алексеевич, Филиппов Родион Алексеевич, Живодовский И. И.

Сохранить в закладках