КЛАССИФИКАЦИЯ ТЕКСТОВ ПО УРОВНЯМ CEFR С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ И ЯЗЫКОВОЙ МОДЕЛИ BERT (2023)
В данной работе представлено исследование задачи автоматической классификации коротких связных текстов (эссе) на английском языке по уровням международной шкалы CEFR. Определение уровня текста на естественном языке является важной составляющей оценки знаний учащихся, в том числе для проверки открытых заданий в системах электронного обучения. Для решения этой задачи были рассмотрены векторные модели текста на основе стилометрических числовых характеристик уровня символов, слов, структуры предложения. Классификация полученных векторов осуществлялась стандартными классификаторами машинного обучения. В статье приведены результаты трёх наиболее успешных: Support Vector Classifier, Stochastic Gradient Descent Classifier, LogisticRegression. Оценкой качества послужили точность, полнота и F“=мера. Для экспериментов были выбраны два открытых корпуса текстов CEFR Levelled English Texts и BEA“=2019. Лучшие результаты классификации по шести уровням и подуровням CEFR от A1 до C2 показал Support Vector Classifier с F“=мерой 67 % для корпуса CEFR Levelled English Texts. Этот подход сравнивался с применением языковой модели BERT (шесть различных вариантов). Лучшая модель bert“=base“=cased обеспечила значение F“=меры 69 %. Анализ ошибок классификации показал, что большая их часть допущена между соседними уровнями, что вполне объяснимо с точки зрения предметной области. Кроме того, качество классификации сильно зависело от корпуса текстов, что продемонстрировало существенное различие F“=меры в ходе применения одинаковых моделей текста для разных корпусов. В целом, полученные результаты показали эффективность автоматического определения уровня текста и возможность его практического применения.
Идентификаторы и классификаторы
- eLIBRARY ID
- 54489242
Автоматизированная оценка эссе (automated essay scoring, AES) — это способ моделирования работы человека-эксперта в области языкознания и педагогики. Определение качества текста на естественном языке является важной составляющей оценки знаний учащихся, в том числе для проверки открытых заданий в системах электронного обучения [1, 2]. Кроме того, текст является одной из основ для коммуникации людей, что порождает необходимость выявления сложности текстов, их качества и возможности понимания целевой аудиторией [3].
Развитие систем AES началось с 60-х годов прошлого века и опиралось в первую очередь на правила грамматики. По мере развития информационных технологий в области компьютерной лингвистики исследователи добавляли анализ стиля текста, его структуры, связности на основе параметров текста различной степени сложности. Большинство работ в этой области используют статистические признаки, такие как функции «мешка слов» (Bag of Words, BoW), количество предложений и т. п. Однако качество текста во многом определяется его связностью, анализом семантики, но даже использование контекстных параметров типа word2vec не решает эту проблему и не повышает качество AES до должного уровня [4]. Новые возможности предоставляет развитие современных языковых моделей [5], в частности модель BERT [6]. Обзор современных работ показывает, что AES растущая область исследований с большим набором потенциально применимых методов, но все еще не зрелая, особенно в сфере практического применения [1].
Список литературы
-
E. del Gobbo, A. Guarino, B. Cafarelli, L. Grilli, and P. Limone, “Automatic evaluation of open-ended questions for online learning. A systematic mapping”, Studies in Educational Evaluation, vol. 77, p. 101258, 2023.
-
N. V. Galichev and P. S. Shirogorodskaya, “Problema avtomaticheskogo izmereniya slozhnyh konstruktov cherez otkrytye zadaniya”, in HXI Mezhdunarodnaya nauchno-prakticheskaya konferenciya molodyh issledovatelej obrazovaniya, 2022, pp. 695-697.
-
L. E. Adamova, O. V. Surikova, I. G. Bulatova, and O. O. Varlamov, “Application of the mivar expert system to evaluate the complexity of texts”, News of the Kabardin-Balkar scientific center of RAS, no. 2, pp. 11-29, 2021. EDN: CHNTUL
-
D. Ramesh and S. K. Sanampudi, “An automated essay scoring systems: a systematic literature review”, Artificial Intelligence Review, vol. 55, no. 3, pp. 2495-2527, 2022.
-
K. P. Yancey, G. Laflair, A. Verardi, and J. Burstein, “Rating Short L2 Essays on the CEFR Scale with GPT-4”, in Proceedings of the 18th Workshop on Innovative Use of NLP for Building Educational Applications (BEA 2023), 2023, pp. 576-584.
-
A. Gasparetto, M. Marcuzzo, A. Zangari, and A. Albarelli, “A survey on text classification algorithms: From text to predictions”, Information, vol. 13, no. 2, p. 83, 2022. EDN: UFVJQO
-
V. Ramnarain-Seetohul, V. Bassoo, and Y. Rosunally, “Similarity measures in automated essay scoring systems: A ten-year review”, Education and Information Technologies, vol. 27, no. 4, pp. 5573-5604, 2022. EDN: SVDLSM
-
P. Yang, L. Li, F. Luo, T. Liu, and X. Sun, “Enhancing topic-to-essay generation with external commonsense knowledge”, in Proceedings of the 57th annual meeting of the association for computational linguistics, 2019, pp. 2002-2012.
-
N. N. Mikheeva and E. V. Shulyndina, “Features of training written Internet communication in a non-linguistic university”, Tambov University Review. Series: Humanities, vol. 28, no. 2, pp. 405-414, 2023. EDN: DGAKTW
-
V. J. Schmalz and A. Brutti, "Automatic assessment of English CEFR levels using BERT embeddings", 2021.
-
Y. Arase, S. Uchida, and T. Kajiwara, "CEFR-Based Sentence Difficulty Annotation and Assessment", in Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, 2022, pp. 6206-6219.
-
R. Jalota, P. Bourgonje, J. Van Sas, and H. Huang, "Mitigating Learnerese Effects for CEFR classification", in Proceedings of the 17th Workshop on Innovative Use of NLP for Building Educational Applications (BEA 2022), 2022, pp. 14-21.
-
T. Gaillat et al., "Predicting CEFR levels in learners of English: The use of microsystem criterial features in a machine learning approach", ReCALL, vol. 34, no. 2, pp. 130-146, 2022.
-
E. Kerz, D. Wiechmann, Y. Qiao, E. Tseng, and M. Str"obel, "Automated classification of written proficiency levels on the CEFR-scale through complexity contours and RNNs", in Proceedings of the 16th Workshop on Innovative Use of NLP for Building Educational Applications, 2021, pp. 199-209.
-
Y. Yang and J. Zhong, "Automated essay scoring via example-based learning", in Web Engineering, 2021, pp. 201-208. EDN: HPJQRT
-
E. Mayfield and A. W. Black, "Should you fine-tune BERT for automated essay scoring?", in Proceedings of the Fifteenth Workshop on Innovative Use of NLP for Building Educational Applications, 2020, pp. 151-162.
-
J. M. Imperial, "BERT Embeddings for Automatic Readability Assessment", in Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP 2021), 2021, pp. 611-618.
-
C. Bryant, M. Felice, \O. E. Andersen, and T. Briscoe, "The BEA-2019 shared task on grammatical error correction", in Proceedings of the Fourteenth Workshop on Innovative Use of NLP for Building Educational Applications, 2019, pp. 52-75.
-
K. V. Lagutina and A. M. Manakhova, "Automated Search and Analysis of the Stylometric Features That Describe the Style of the Prose of 19th-21st Centuries", Automatic Control and Computer Sciences, vol. 55, no. 7, pp. 866-876, 2021. EDN: RDXILX
-
A. M. Manakhova and N. S. Lagutina, "Analysis of the impact of the stylometric characteristics of different levels for the verification of authors of the prose", Modeling and Analysis of Information Systems, vol. 28, no. 3, pp. 260-279, 2021. EDN: QHVDCN
-
J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding", in Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2019, vol. 1, pp. 4171-4186.
-
V. Sanh, L. Debut, J. Chaumond, and T. Wolf, "DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter". 2020.
Выпуск
Другие статьи выпуска
В статье рассматриваются неориентированные кратные графы произвольной натуральной кратности k>1. Кратный граф содержит ребра трех типов: обычные, кратные и мультиребра. Ребра последних двух типов представляют собой объединение k связанных ребер, которые соединяют 2 или (k+1) вершину соответственно. Связанные ребра могут использоваться только согласованно. Если вершина инцидентна кратному ребру, то она может быть инцидентна другим кратным ребрам, а также она может быть общим концом k связанных ребер мультиребра. Если вершина является общим концом мультиребра, то она не может быть общим концом никакого другого мультиребра. Ставится задача об эйлеровом маршруте (цикле или цепи) в кратном графе, которая обобщает классическую задачу для обычного графа. Сформулированы необходимые условия существования эйлерова маршрута в кратном графе, показано, что эти условия не являются достаточными. Кроме того, показано, что для произвольного кратного графа необходимые условия существования эйлерова цикла и эйлеровой цепи не являются взаимоисключающими, поэтому можно построить кратный граф, в котором одновременно существуют два вида эйлеровых маршрутов. Кратному графу сопоставляется обычный граф с квазивершинами, в упрощенном виде представляющий структуру исходного графа. В частности, каждому эйлерову маршруту в кратном графе соответствует эйлеров маршрут в графе с квазивершинами. Формулируется алгоритм построения такого графа. Также рассмотрена вспомогательная задача о покрывающих цепях с заданными концами в обычном графе, получены два алгоритма ее решения. Разработан алгоритм поиска эйлерова маршрута в кратном графе экспоненциальной трудоемкости. Для частного случая кратного графа предложен полиномиальный алгоритм, показано, что в этом частном случае необходимые условия существования эйлерова маршрута являются достаточными.
Рассмотрена задача о размещении центра обслуживания технических систем при известных значениях потоков отказов. Даная задача решалась с помощью минисуммного алгоритма теории графов. Получена зависимость коэффициента готовности системы от среднего времени наработки между отказами и среднего времени восстановления элементов системы. Показано, что оптимальным местом расположения пункта технического обслуживания является медиана графа, расположенная в одной из его вершин.
Рассматривается задача рационального выбора популяцией участка, содержащего энергетические (пищевые) ресурсы. Рассматриваемая задача относится к теории оптимального фуражирования, которая в свою очередь изучает вопросы, касающиеся поведения популяции, когда она покидает участок или выбирает наиболее подходящий. Для определения оптимального для популяции выбора участка предлагается вариационный подход, основанный на идее распределения Больцмана. Для построения распределения Больцмана вводятся функции полезности, которые учитывают факторы, способные повлиять на выбор популяции: имеющаяся информация о качестве участков, энергетическая полезность участков, затраты на перемещение к участку, стоимость информации о качестве участков. Основная цель статьи - исследовать влияние имеющейся информации о количестве ресурсов, содержащихся в участках, на процесс принятия решений, генерируемых популяцией при выборе подходящего участка. Оптимальная рациональность определяется с учетом стоимости информации, средней энергетической ценности всех участков, рациональности, зависящей от качества участка. Получены условия, при которых популяция при недостатке информации выбирает «бедный» участок в смысле энергетической ценности (ресурсов). Последнее дает теоретическое обоснование экспериментальным наблюдениям, согласно которым, популяция может выбрать участок худшего качества. Полученные результаты носят общий характер и могут быть использованы не только в поведенческой экологии, но и при построении любых процессов принятия решений.
Классическая дедуктивная верификация не ориентирована на доказательство некорректности программ. Доказательство некорректности программ с помощью формальных методов является актуальной задачей в настоящее время. Специальные логики, такие как Incorrectness Logic, Adversarial Logic, Local Completeness Logic, Exact Separation Logic и Outcome Logic, были недавно предложены для решения данной задачи. Но у данных логик имеется два недостатка. Во-первых, в данных логиках используются подходы, основанные на нижней аппроксимации, тогда как в классической дедуктивной верификации используется подход, основанный на верхней аппроксимации. С другой стороны, использование классического подхода требует в общем случае задания инвариантов циклов. Во-вторых, использование правил вывода для программных конструкций в их самом общем виде приводит к необходимости доказательства сложных формул в простых ситуациях. Нашим результатом, представленным в данной статье, является новая логика для решения данных проблем в случае циклов над последовательностями данных. Такая циклы мы называем финитными итерациями. Предложенную логику мы называем логикой для суждений о некорректности финитных итераций (IFIL). Мы избегаем задания инвариантов финитных итераций с помощью символической замены в условиях корректности переменных таких циклов применениями рекурсивных функций. Наша логика основана на специальных правилах вывода для финитных итераций. Эти правила позволяют выводить формулы с применениями рекурсивных функций, соответствующих финитным итерациям. Истинность этих формул может означать наличие ошибок в финитных итерациях. Данная логика была реализована в новой версии программной системы C“=lightVer для дедуктивной верификации программ на языке C.
В статье рассматривается новый вид зависимостей в базах данных, являющийся обобщением зависимостей включения. Традиционно такие зависимости на практике используются для обеспечения ссылочной целостности. При этом, ограничение устанавливается только между парой отношений, первое из которых называется главным, второе - внешним. На практике ссылочную целостность часто требуется установить для большего числа отношений, где в одном ограничении участвуют несколько главных и несколько подчиненных отношений. Такая структура соответствует ультраграфу. В работе приведено обоснование обобщенных зависимостей включения, учитывающих наличие неопределенных значений во внешних отношениях. На основе исследования свойств типизированных зависимостей получена система аксиом, для которой доказана непротиворечивость (надежность) и полнота.
Издательство
- Издательство
- ЯрГУ им. П.Г. Демидова
- Регион
- Россия, Ярославль
- Почтовый адрес
- 150003, Ярославль, Советская, 14,
- Юр. адрес
- 150003, Ярославль, Советская, 14,
- ФИО
- Иванчин Артем Владимирович (Ректор)
- E-mail адрес
- rectorat@uniyar.ac.ru
- Контактный телефон
- +7 (485) 2797702