ISSN 1818-1015 · EISSN 2313-5417
Язык: ru

МОДЕЛИРОВАНИЕ И АНАЛИЗ ИНФОРМАЦИОННЫХ СИСТЕМ

КЛАССИФИКАЦИЯ ТЕКСТОВ ПО УРОВНЯМ CEFR С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ И ЯЗЫКОВОЙ МОДЕЛИ BERT (2023)

В данной работе представлено исследование задачи автоматической классификации коротких связных текстов (эссе) на английском языке по уровням международной шкалы CEFR. Определение уровня текста на естественном языке является важной составляющей оценки знаний учащихся, в том числе для проверки открытых заданий в системах электронного обучения. Для решения этой задачи были рассмотрены векторные модели текста на основе стилометрических числовых характеристик уровня символов, слов, структуры предложения. Классификация полученных векторов осуществлялась стандартными классификаторами машинного обучения. В статье приведены результаты трёх наиболее успешных: Support Vector Classifier, Stochastic Gradient Descent Classifier, LogisticRegression. Оценкой качества послужили точность, полнота и F“=мера. Для экспериментов были выбраны два открытых корпуса текстов CEFR Levelled English Texts и BEA“=2019. Лучшие результаты классификации по шести уровням и подуровням CEFR от A1 до C2 показал Support Vector Classifier с F“=мерой 67 % для корпуса CEFR Levelled English Texts. Этот подход сравнивался с применением языковой модели BERT (шесть различных вариантов). Лучшая модель bert“=base“=cased обеспечила значение F“=меры 69 %. Анализ ошибок классификации показал, что большая их часть допущена между соседними уровнями, что вполне объяснимо с точки зрения предметной области. Кроме того, качество классификации сильно зависело от корпуса текстов, что продемонстрировало существенное различие F“=меры в ходе применения одинаковых моделей текста для разных корпусов. В целом, полученные результаты показали эффективность автоматического определения уровня текста и возможность его практического применения.

Тип: Статья
Автор (ы): Лагутина Надежда Станиславовна, Касаткина Наталья Николаевна, Лагутина Ксения Владимировна, Бредерман А. М.
Ключевые фразы: АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТА, КЛАССИФИКАЦИЯ ТЕКСТА, CEFR, BERT

Идентификаторы и классификаторы

УДК
004.912. Обработка текста
eLIBRARY ID
54489242
Текстовый фрагмент статьи