ISSN 1818-1015 · EISSN 2313-5417
Язык: ru

МОДЕЛИРОВАНИЕ И АНАЛИЗ ИНФОРМАЦИОННЫХ СИСТЕМ

Архив статей журнала

АВТОМАТИЧЕСКОЕ ОПРЕДЕЛЕНИЕ СЕМАНТИЧЕСКОГО СХОДСТВА ОТВЕТОВ УЧАЩИХСЯ С ЭТАЛОННЫМ С ПОМОЩЬЮ СОВРЕМЕННЫХ МОДЕЛЕЙ (2024)
Выпуск: Т. 31 № 2 (2024)
Авторы: Лагутина Ксения Владимировна, Лагутина Надежда Станиславовна, Копнин Владислав Николаевич

В работе представлены результаты исследования современных моделей текста с целью выявления на их основе семантической близости текстов на английском языке. Задача определения семантического сходства текстов является важной составляющей многих областей обработки естественного языка: машинного перевода, поиска информации, систем вопросов и ответов, искусственного интеллекта в образовании. Авторы решали задачу классификации близости ответов учащихся к эталонному ответу учителя. Для исследования были выбраны нейросетевые языковые модели BERT и GPT, ранее применявшиеся к определению семантического сходства текстов, новая нейросетевая модель Mamba, а так же стилометрические характеристики текста. Эксперименты проводились с двумя корпусами текстов: корпус Text Similarity из открытых источников и собственный корпус, собранный с помощью филологов. Качество решения задачи оценивалось точностью, полнотой и F-мерой. Все нейросетевые языковые модели показали близкое качество F-меры около 86% для большего по размеру корпуса Text Similarity и 50-56% для собственного корпуса авторов. Совсем новым результатом оказалось успешное применение модели mamba. Однако, самым интересным достижением стало применение векторов стилометрических характеристик текста, показавшее 80% F-меры для авторского корпуса и одинаковое с нейросетевыми моделями качество решения задачи для другого корпуса.

Сохранить в закладках
ПРИМЕНЕНИЕ ГЛУБОКИХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ АВТОМАТИЧЕСКОГО ОПРЕДЕЛЕНИЯ ИРОНИИ В РУССКОЯЗЫЧНЫХ ТЕКСТАХ (2024)
Выпуск: Т. 31 № 1 (2024)
Авторы: Костерин Максим Алексеевич, Парамонов Илья Вячеславович

В работе исследуются автоматические методы классификации русскоязычных предложений на два класса: содержащие и не содержащие ироничный посыл. Рассматриваемые методы могут быть разделены на три категории: классификаторы на основе эмбеддингов языковых моделей, классификаторы с использованием информации о тональности и классификаторы с обучением эмбеддингов обнаружению иронии. Составными элементами классификаторов являются нейронные сети, такие как BERT, RoBERTa, BiLSTM, CNN, а также механизм внимания и полносвязные слои. Эксперименты по обнаружению иронии проводились с использованием двух корпусов русскоязычных предложений: первый корпус составлен из публицистических текстов из открытого корпуса OpenCorpora, второй корпус является расширением первого и дополнен ироничными предложениями с ресурса Wiktionary. Лучшие результаты продемонстрировала группа классификаторов на основе чистых эмбеддингов языковых моделей с максимальным значением F-меры 0.84, достигнутым связкой из RoBERTa, BiLSTM, механизма внимания и пары полносвязных слоев в ходе экспериментов на расширенном корпусе. В целом использование расширенного корпуса давало результаты на 2-5% выше результатов на базовом корпусе. Достигнутые результаты являются лучшими для рассматриваемой задачи в случае русского языка и сравнимы с лучшими для английского.

Сохранить в закладках