Статья: Сравнение современных моделей русскоязычных текстов для задачи классификации по уровням CEFR (2025)

Читать онлайн

Разработка качественных инструментов автоматического определения уровней текстов по шкале CEFR позволяет создавать учебные и проверочные материалы более быстро и объективно. В данной работе авторы исследуют два типа современных моделей текста: лингвистические характеристики и эмбеддинги больших языковых моделей для задачи классификации русскоязычных текстов по шести уровням CEFR: A1—C2 и трём укрупнённым категориям A, B, C. Два вида моделей явным образом представляет текст в виде вектора числовых характеристик. При этом разделение текста на уровни рассматривается как обычная задача классификации в области компьютерной лингвистики. Эксперименты проводились с собственным корпусом из 1904 текстов. Лучшее качество достигается rubert-base-cased-conversational без дополнительной адаптации при определении как шести, так и трёх категорий текста. Максимальное значение F-меры для уровней A, B, C равно 0,77. Максимальное значение F-меры для прогнозирования шести категорий текста равно 0,67. Качество определения уровня текста больше зависит от модели, чем от алгоритма классификации машинного обучения. Результаты отличаются друг от друга не более чем на 0,01-0,02, особенно это касается ансамблевых методов.

Ключевые фразы: АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТА, классификация русскоязычных текстов, лингвистические характеристики, эмбеддинги, BERT, GPT, CEFR
Автор (ы): Лавровский Вадим Алексеевич, Лагутина Надежда Станиславовна, Лавровская Ольга Борисовна
Журнал: МОДЕЛИРОВАНИЕ И АНАЛИЗ ИНФОРМАЦИОННЫХ СИСТЕМ

Предпросмотр статьи

Идентификаторы и классификаторы

SCI
Информатика
УДК
004.912. Обработка текста
Для цитирования:
ЛАВРОВСКИЙ В. А., ЛАГУТИНА Н. С., ЛАВРОВСКАЯ О. Б. СРАВНЕНИЕ СОВРЕМЕННЫХ МОДЕЛЕЙ РУССКОЯЗЫЧНЫХ ТЕКСТОВ ДЛЯ ЗАДАЧИ КЛАССИФИКАЦИИ ПО УРОВНЯМ CEFR // МОДЕЛИРОВАНИЕ И АНАЛИЗ ИНФОРМАЦИОННЫХ СИСТЕМ. 2025. Т. 32, № 3
Текстовый фрагмент статьи